您現在的位置是:首頁 >人工智能 > 2022-05-16 15:48:28 來源:
為現實世界訓練更智能的機器人
2021 年秋天,數十名計算機科學家將他們最好的作品提交給了由神經信息處理系統會議 (NeurIPS) 主辦的 AI 機器人挑戰賽,這是一項面向杰出研究人員的年度機器學習活動。參與者花了幾個月的時間準備他們的代理人,以便在 Minecraft 虛擬世界中的四項“幾乎栩栩如生”的任務上勝過競爭對手:
為了模仿現實世界情況的復雜性,組織者要求比賽中的每個代理通過觀看人類演示來學習任務,而不使用通常會強化所需機器人行為的獎勵。與之前的比賽規則相比,這是一個重大變化,這意味著大多數團隊將不得不應對更慢、更復雜的機器人訓練過程。
對于 在截止日期前幾周作為黑曜石隊參加比賽的Divyansh Garg和 Edmund Mills 來說,這項要求提供了一個大放異彩的機會。與其他團隊相比,他們用更少的時間和更少的資源登上了排行榜的榜首,并在模仿學習類別中排名第一(指定為與環境交互以學習獎勵或政策的代理)。令他們驚訝的是,黑曜石團隊也獲得了第二名——這是一項值得注意的成就,因為他們的代理在玩游戲時沒有使用人工反饋來提高其性能,而他們的許多競爭對手卻這樣做了。
黑曜石團隊取得顯著成功的關鍵是一種突破性的模仿學習方法,稱為 IQ-Learn。在正式稱為 MineRL 解決幾乎逼真任務 (BASALT) 挑戰的代理的比賽前幾個月,Garg 與 計算機科學系副教授Stefano Ermon合作開發了這種新方法在斯坦福。 IQ-Learn 已經可以比人類專家更好地玩經典的 Atari 游戲。它正迅速成為訓練在動態環境中工作的 AI 代理的最先進技術。
對深度學習的熱情
今天的工業機器人非常擅長通過稱為行為克隆的過程來學習重復精確的任務。但是當機器以前沒有遇到過的環境發生變化時,它就無法即時調整。錯誤加劇,機器永遠無法恢復。如果我們期望有一天人工智能智能體能夠駕駛汽車、洗碗或洗衣服,和人類一樣或更好,我們需要不同的方式來教它們。
作為斯坦福大學計算機科學專業的學生,??在機器人學習和生成建模方面擁有豐富經驗,Garg 認識到智能機器的下一個前沿將涉及構建能夠學習在不斷變化的環境中完成復雜任務的多功能代理。
“人類可以在一小時內學會的東西,機器人需要 10 年,”他說。“我想設計一種算法,可以像人類一樣有效地學習和轉移行為。”
模仿專家
在 Apple 與機器學習研究員 Ian Goodfellow 實習期間,Garg 逐漸了解了幾個關鍵概念,這些概念為科學家們如何訓練更智能的代理提供了依據:
強化學習(RL) 方法使代理能夠與環境進行交互,但研究人員必須包含一個獎勵信號,讓機器人學習策略或期望的動作。
RL 的一個子領域稱為 Q Learning ,它允許代理從已知獎勵開始,然后學習深度學習社區所謂的基于能量的模型或 Q 函數。借用統計物理學領域,Q 函數可以在小數據集中找到關系,然后推廣到遵循相同模式的更大數據集。通過這種方式,Q 函數可以代表機器人遵循的預期策略。
一種稱為 模仿學習的相關方法 很有希望,因為它使代理能夠通過觀看專家(人類)執行任務的視覺演示來學習策略。
在過去的五年中,逆強化學習 一直被認為是最先進的,因為從理論上講,它使模仿學習更進了一步。在這種情況下,代理的目標不是嘗試學習策略,而是找出解釋人類示例的獎勵。這里的問題是逆強化學習需要一個對抗性強化過程——這意味著模型必須在數學上解決兩個未知變量:獎勵和策略。根據 Garg 的說法,這個過程很難穩定,并且不能很好地擴展到更復雜的情況。
以這些概念為背景,Garg 開始思考如何通過更簡單的模仿學習方法獲得更好的結果。一個煩人的問題讓他徹夜難眠:“如果你可以只求解一個未知變量而不是兩個呢?” 他推斷,如果獎勵和政策這兩個變量可以用一個隱藏的 Q 函數來表示,并且如果代理通過觀看人類演示來學習這個 Q 函數,它就可以避免對有問題的對抗性訓練的需求。
Garg 用他的寒假研究了一種算法并對其進行編碼。當它第一次奏效時,他感到很驚訝。經過一個月的開發,該算法在簡單任務上擊敗了所有其他現有方法,并且被證明非常穩定。
他回憶說,“Ermon 教授看著結果說,‘這很好,但為什么會奏效?’ 我們不知道任何可以解釋它的理論,所以我接受了挑戰,編寫了一個可以證明算法是最優的數學框架。”
專家級性能
快進到 2021 年夏天,這種新的逆軟 Q 學習方法(簡稱 IQ-Learn)的性能比以前的人類學習方法好 3 到 7 倍。Garg 和他的合作者首先用幾個基于控制的視頻游戲(Acrobot、CartPole 和 LunarLander)測試了代理的能力。在每場比賽中,代理都比任何其他方法更快地達到專家級表現。
接下來,他們在幾款經典的 Atari 游戲(Pong、Breakout 和 Space Invaders)上測試了該模型,發現他們的創新在更復雜的游戲環境中也能很好地擴展。Garg 回憶說:“我們比以前的最佳表現高出 5 倍,同時需要的環境步驟減少了三倍,達到了接近專家級的性能。” (環境步驟是指代理為達到此性能水平而引入的狀態的許多變化。)
由此產生的科學論文獲得了進入 2021 年 NeurIPS 會議的 Spotlight 稱號。正是憑借這種自信和動力,Garg 提議在 MineRL 挑戰中嘗試 IQ-Learn。
沒有人參與的成功
可以肯定的是,Minecraft 中的一些“幾乎栩栩如生”的任務對于黑曜石團隊來說是困難的。在挑戰的某一時刻,他們的 AI 機器人意外地通過平鋪柵欄建造了一座摩天大樓。它還設法將一個村民而不是動物關在籠子里。但加格對結果很滿意。他們的人工智能機器人成功地學會了建造墻壁、建造柱子和安裝火把。第一名的團隊總共使用了 82,000 張人工標記的圖像來幫助識別游戲中的場景,并花費了大約五個月的時間為每項任務編寫領域專業知識。相比之下,Garg 和 Mills 在沒有向模型添加任何領域知識的情況下贏得了他們的位置,并且只用了三周的時間進行準備。
“IQ-Learn 的表現超出了我們的預期,”Garg 說。“這是一種擴展智能機器的新范例,它將能夠完成從自動駕駛到幫助提供醫療保健的所有工作。”
Garg 設想有一天,我們將能夠教機器人如何在任何情況下抓取物體,只需向它們展示人類撿起物體的視頻,甚至可以通過響應語音命令來實現。如果我們想訓練代理在多維世界中感知和行動,我們需要在有限的數據和時間的情況下啟用運行良好的更快模型。效率似乎是決定機器人在現實生活中的用途的決定因素。