您現在的位置是:首頁 >要聞 > 2020-10-27 10:28:08 來源:
狗訓練方法可幫助教機器人學習新技巧
約翰霍普金斯大學的計算機科學家采用一種通常用于教狗坐下和坐下的訓練技術,向機器人展示了一種如何自學幾種新技巧的機器人,包括堆砌塊。通過這種方法,名為Spot的機器人可以在幾天內學習通常需要一個月的時間。
通過使用正強化,這是任何使用過的對待改變狗行為的人都熟悉的方法,團隊極大地提高了機器人的技能,并且很快地完成了訓練,使訓練實際工作的機器人成為一個更可行的企業。這些發現新發表在名為“ Good Robot!”的論文中。
“這里的問題是我們如何讓機器人學習技能?” 主要作者安德魯·洪特(Andrew Hundt)說。在約翰·霍普金斯大學計算互動與機器人實驗室工作的學生。“我有狗,所以我知道獎勵的工作,這就是我設計學習算法的靈感。”
與天生具有高度直覺的大腦的人和動物不同,計算機是空白板,必須從頭開始學習一切。但是,真正的學習通常是通過反復試驗來完成的,機器人專家仍在研究如何從錯誤中有效學習。
該團隊在這里通過設計一種獎勵系統來實現這一目標,該獎勵系統可以像對待狗一樣對待機器人,為機器人工作。狗可能會因為做得好的工作而得到餅干,而機器人則獲得了數字積分。
洪特回憶說,他曾經教過他的小混混小狗叫利亞(Leah)命令“離開它”,這樣她就可以無視步行中的松鼠。他使用兩種類型的零食,普通的教練零食和更好的東西,例如奶酪。當莉亞興奮而無所事事時,她一無所有。但是當她冷靜下來并移開視線時,她得到了好東西。“那時候我給了她奶酪,然后說,'離開!好呀!'”
同樣,要堆積塊,發現機器人需要學習如何專注于建設性行動。當機器人探索積木時,它很快了解到正確的堆疊行為可以賺取高分,而錯誤的堆疊則不能賺到高分。伸出手,但不理解障礙?沒有分數 敲一堆?絕對沒有分。通過將最后一個區塊放在四個區塊的堆棧之上,Spot獲得了最大的收益。
訓練策略不僅有效,而且花了幾天的時間來告訴機器人過去需要數周的時間。通過首先訓練類似于視頻游戲的模擬機器人,然后使用Spot運行測試,該團隊能夠減少練習時間。