您現在的位置是:首頁 >人工智能 > 2022-07-21 16:48:42 來源:
使用人工智能訓練機器人團隊一起工作
當通信線路開放時,機器人或無人機等個體代理可以協同工作,協作完成任務。但是,如果他們沒有配備正確的硬件或信號被阻塞,從而無法進行通信怎么辦?伊利諾伊大學厄巴納-香檳分校的研究人員從這個更困難的挑戰開始。他們開發了一種使用多智能體強化學習(一種人工智能)訓練多個智能體協同工作的方法。
伊利諾伊州的航空工程師HuyTran說:“當代理人可以互相交談時,會更容易。”“但我們希望以一種去中心化的方式來做到這一點,這意味著他們不會互相交談。我們還關注代理的不同角色或工作應該是什么并不明顯的情況。”
Tran說,這種情況要復雜得多,也是一個更難的問題,因為不清楚一個代理與另一個代理應該做什么。
“有趣的問題是,隨著時間的推移,我們如何學會一起完成一項任務,”Tran說。
Tran和他的合作者使用機器學習來解決這個問題,方法是創建一個實用函數,該函數告訴代理什么時候做對團隊有用或有益的事情。
“對于球隊的進球,很難知道誰為勝利做出了貢獻,”他說。“我們開發了一種機器學習技術,使我們能夠識別個人代理何時為全球團隊目標做出貢獻。如果你從運動的角度來看,一名足球運動員可能會得分,但我們也想知道其他隊友的行動“這導致了進球,就像助攻一樣。很難理解這些延遲效應。”
圖片來源:伊利諾伊大學航空航天工程系
研究人員開發的算法還可以識別代理或機器人何時在做對目標沒有貢獻的事情。“與其說機器人選擇做錯事,不如說是對最終目標無用的事情。”
他們使用模擬游戲來測試他們的算法,例如奪旗游戲和流行的電腦游戲星際爭霸。
“星際爭霸可能有點難以預測——我們很高興看到我們的方法在這種環境下也能很好地工作。”
Tran說,這種算法適用于許多現實生活中的情況,例如監視、機器人在倉庫中協同工作、交通信號控制、自動車輛協調交付或控制電網。
Tran說,SeungHyunKim在攻讀機械工程的本科生時就完成了這個想法背后的大部分理論,而航空專業的學生NealeVanStralen則幫助實施了這個想法。Tran和GirishChowdhary為兩名學生提供建議。這項工作最近在自治代理和多代理系統同行評審會議上提交給AI社區。
這項名為“解開多智能體強化學習中協調的后繼特征”的研究發表在2022年5月舉行的第21屆自主智能體和多智能體系統國際會議論文集上。