• 您現在的位置是:首頁 >要聞 > 2020-12-12 08:36:01 來源:

    特工在捉迷藏游戲中表現出令人驚訝的行為

    導讀 研究人員在讓他們的AI野心發揮出巨大的捉迷藏游戲中取得了令人震驚的結果。特工的環境有墻和可移動的盒子,用于挑戰,其中一些是藏身者,而

    研究人員在讓他們的AI野心發揮出巨大的捉迷藏游戲中取得了令人震驚的結果。特工的環境有墻和可移動的盒子,用于挑戰,其中一些是藏身者,而另一些則是尋找者。一路上發生了很多事,令人驚訝。

    作者說到學到的東西后寫道:“我們觀察到代理商在玩簡單的捉迷藏游戲時發現了越來越復雜的工具使用,”代理商建立了“一系列六種不同的策略和對策,其中一些我們不知道我們的環境支持什么。”

    在本周早些時候發布的新論文中,該團隊透露了結果。他們的論文“來自Multi-Agent Autocurricula的緊急工具使用”有7位作者,其中6位列出了OpenAI代表,一位是Google Brain。

    作者評論了他們所面臨的挑戰。“創建可以解決各種各樣與人類有關的復雜任務的智能人工代理,一直是人工智能界的長期挑戰。”

    該團隊說:“我們發現代理創建了一個自我監督的自動課程,引發了多個不同的緊急策略回合,其中許多回合需要復雜的工具使用和協調。”

    通過捉迷藏,(1)追求者學會了追逐獸人,而逃逸者也得以逃脫(2)食者們學會了基本的工具使用方法-用箱子和墻壁建造堡壘。(3)搜尋者學會了使用坡道跳入藏身者的庇護所(4)藏身者學會了將坡道移到要建造堡壘的遠處并將其鎖定到位(5)尋找者學會了可以從鎖定的坡道跳至箱子(6)藏匿者學會了在建造堡壘之前將未使用的盒子鎖上。

    這六種策略是隨著代理人在捉迷藏中相互訓練而出現的,每種新策略都為代理人進入下一階段創造了以前不存在的壓力,而沒有任何直接誘因促使代理人與對象互動或探索。這些策略是多代理競爭和“捉迷藏”動力學引起的“自動課程”的結果。

    該博客的作者說,他們了解到“代理商通常會以一種意想不到的方式找到利用您構建的環境或物理引擎的方法。”

  • 成人app