您現在的位置是:首頁 >要聞 > 2020-10-26 11:19:29 來源:
決定下一步行動的機器人需要優先級幫助
隨著機器人在諸如搜索和救援任務等危險情況下替代人類時,它們需要能夠快速評估并做出決策-像人類一樣做出反應和適應。伊利諾伊大學香檳分校的研究人員使用了基于“奪旗”游戲的模型來開發深度強化學習的新方法,以幫助機器人評估其下一步行動。
研究人員之所以選擇“奪旗”,是因為它是由兩個團隊(每個團隊有多個隊友)組成的,對手的團隊也在做出決定。
研究員Huy Tran表示:“機器人可以通過一種名為強化學習的試驗和錯誤過程來學習如何在競爭性游戲等環境中做出反應。他們可以通過玩游戲來了解在給定情況下應采取的行動。”在UIUC的航空航天工程系。“挑戰在于弄清楚如何創建也能適應意外情況的代理。”
Tran說,他的團隊意識到機器人在確定任務優先級時需要幫助。
“考慮到捕獲標志的總體任務,實際上我們有一個子任務可以完成,我們在一個層次結構中進行建模。我們想探索的是這種類型的層次結構是否會有助于適應。”
通過分層的深度強化學習,Tran表示任務被拆分了—奪取旗幟或標記對方團隊的成員以消除它們—因此該模型可以處理更復雜的問題。
“通過將任務分解為子任務,我們可以改善適應性。我們培訓了一位高級決策者,他為每個代理分配了子任務以供其關注。” 特蘭說。Tran說,分層結構有助于簡化模型的更新。僅層次控制器將需要更新,而不是每個代理都需要更新。
“這種方法有可能解決有趣且具有挑戰性的問題,但是在現實環境中部署這些系統之前,我們仍然需要解決許多問題。例如,我們了解到該框架可以幫助適應”,Tran說,“但我們認識到,在這項研究中,我們根據對游戲運行方式的直覺決定了子任務應該是什么。這并不理想,因為它有我們自己的偏見。我們現在要做的是尋找新的技術,使代理商能夠自己弄清楚那些次目標是什么。”
Neale Van Stralen,Seung Hyun Kim,Huy T. Tran和Girish Chowdhary撰寫了研究“評估分層深度強化學習的適應性能”。該研究由美國國防高級研究計劃局資助,并在2020 IEEE國際機器人與自動化會議(ICRA)上發表,并在會議記錄中發表。一段簡短的視頻說明了包括分層控制器在起作用的工作。