• 您現在的位置是:首頁 >人工智能 > 2022-07-28 16:54:21 來源:

    一種在現實世界中快速教授機器人新行為的算法

    導讀 訓練機器人完成現實世界中的任務可能是一個非常耗時的過程,其中包括構建一個快速高效的模擬器,在其上進行大量試驗,然后將這些試驗中學到

    訓練機器人完成現實世界中的任務可能是一個非常耗時的過程,其中包括構建一個快速高效的模擬器,在其上進行大量試驗,然后將這些試驗中學到的行為轉移到現實世界中。然而,在許多情況下,由于環境或任務的不可預測的變化,在模擬中獲得的性能與在現實世界中獲得的性能不匹配。

    加州大學伯克利分校(UCBerkeley)的研究人員最近開發了DayDreamer,這是一種可用于訓練機器人更有效地完成現實世界任務的工具。他們的方法在arXiv上預先發表的一篇論文中進行了介紹,該方法基于世界的學習模型,使機器人能夠預測其運動和動作的結果,從而減少了在現實世界中進行大量試錯訓練的需要。

    進行這項研究的研究人員之一DanijarHafner告訴TechXplore:“我們希望構建能夠直接在現實世界中持續學習的機器人,而無需創建模擬環境。”“我們之前只學習過電子游戲的世界模型,所以看到同樣的算法也能讓機器人在現實世界中快速學習,真是太令人興奮了!”

    使用他們的方法,研究人員能夠高效、快速地教機器人在現實世界中執行特定行為。例如,他們訓練了一只機器狗在短短一小時內從背部滾下來、站起來走路。

    訓練完成后,團隊開始推動機器人,發現在10分鐘內,它也能夠承受推力或快速回滾。該團隊還在機械臂上測試了他們的工具,訓練他們撿起物體并將它們放置在特定的位置,而不告訴他們物體最初的位置。

    “我們看到機器人適應了光照條件的變化,例如一天中隨著太陽移動的陰影,”哈夫納說。“除了在現實世界中快速、持續地學習之外,沒有任何變化的相同算法在四種不同的機器人和任務中運行良好。因此,我們認為世界模型和在線適應將在機器人技術的發展中發揮重要作用。”

    基于強化學習的計算模型可以隨著時間的推移教授機器人的行為,方法是獎勵他們想要的行為,例如良好的對象抓取策略或以合適的速度移動。通常,這些模型是通過漫長的試錯過程進行訓練的,使用可以加速的模擬和現實世界中的實驗。

    另一方面,由Hafner及其同事開發的算法Dreamer根據其過去的“經驗??”構建了一個世界模型。然后可以使用這個世界模型來教機器人基于“想象的”交互的新行為。這顯著減少了在現實環境中進行試驗的需要,從而大大加快了訓練過程。

    “直接預測未來的感官輸入將太慢且太昂貴,尤其是在涉及像相機圖像這樣的大輸入時,”哈夫納說。“世界模型首先學習將其在每個時間步長的感官輸入(電機角度、加速度計測量值、相機圖像等)編碼為一個緊湊的表示。給定一個表示和一個電機命令,然后它學會預測結果表示下一個時間步驟。”

    Dreamer制作的世界模型允許機器人“想象”未來的表征,而不是處理原始的感官輸入。這反過來又允許模型使用單個圖形處理單元(GPU)并行計劃數千個動作序列。這些“想象的”序列有助于快速提高機器人在特定任務上的表現。

    “強化學習中潛在特征的使用已經在表征學習的背景下進行了廣泛的研究;其想法是可以創建大型感官輸入(相機圖像、深度掃描)的緊湊表征,從而減小模型大小并可能減少所需的培訓時間,”另一位參與該研究的研究員AlejandroEscontrela告訴TechXplore。“然而,表征學習技術仍然需要機器人與現實世界或模擬器長時間交互來學習任務。Dreamer允許機器人通過使用其學習的表征作為準確且超高效的方式從想象的交互中學習”模擬器。這使機器人能夠在學習的世界模型中進行大量的訓練。”

    在訓練機器人的同時,Dreamer不斷收集新的經驗并利用它們來增強其世界模型,從而改善機器人的行為。他們的方法使研究人員能夠在一小時內訓練一個四足機器人行走并適應特定的環境刺激,而無需使用以前從未實現過的模擬器。

    “在未來,我們認為這項技術將使用戶能夠直接在現實世界中教授機器人許多新技能,從而無需為每項任務設計模擬器,”哈夫納說。“它還為構建適應硬件故障的機器人打開了大門,例如盡管其中一條腿的電機壞了,但仍能行走。”

    在最初的測試中,Hafner、Escontrela、PhilipWu和他們的同事也使用他們的方法訓練機器人撿起物體并將它們放置在特定的位置。這項由倉庫和裝配線上的工人每天執行的任務對于機器人來說可能很難完成,尤其是當它們預期拾取的物體的位置未知時。

    Dreamer遵循簡單的物理機器人在線學習流程,無需模擬器。與現實世界的交互被添加到存儲所有過去經驗的回放緩沖區中。世界模型隨機學習從重放緩沖區中獲取的序列。該行為使用“演員評論家”算法從世界模型的預測中學習。當前行為用于與世界交互以收集新體驗,從而關閉循環。信用:吳等人。

    “與這項任務相關的另一個困難是,在機器人真正抓住某些東西之前,我們無法向它提供中間反饋或獎勵,因此在沒有中間指導的情況下,機器人有很多探索空間,”哈夫納說。“在10小時的完全自主操作中,使用Dreamer訓練的機器人接近了人類遠程操作員的性能。這一結果表明,世界模型是倉庫和裝配線自動化站的一種有前途的方法。”

    在他們的實驗中,研究人員成功地使用Dreamer算法訓練了四個形態不同的機器人完成各種任務。使用傳統的強化學習訓練這些機器人通常需要大量的手動調整,在沒有額外調整的情況下在任務中表現良好。

    “根據我們的結果,我們預計會有更多的機器人團隊開始使用和改進Dreamer,以解決更具挑戰性的機器人問題,”Hafner說。“擁有開箱即用的強化學習算法可以讓團隊有更多時間專注于構建機器人硬件并指定他們想要使用世界模型自動化的任務。”

    該算法可以很容易地應用于機器人,其代碼很快就會開源。這意味著其他團隊很快將能夠使用它來使用世界模型訓練自己的機器人。

    Hafner、Escontrela、Wu和他們的同事現在想進行新的實驗,為四足機器人配備攝像頭,這樣它不僅可以學會走路,還可以識別附近的物體。這應該允許機器人處理更復雜的任務,例如避開障礙物、識別環境中感興趣的對象或在人類用戶旁邊行走。

    “機器人技術的一個公開挑戰是用戶如何直觀地為機器人指定任務,”Hafner補充道。“在我們的工作中,我們將機器人優化為Python函數的獎勵信號實現了,但最終,通過直接告訴機器人何時做對或做錯來根據人類偏好教機器人會很好。這可以通過按下按鈕來實現給予獎勵,甚至讓機器人了解人類語言。”

    到目前為止,該團隊僅使用他們的算法來訓練機器人完成特定任務,這些任務在實驗開始時就已明確定義。然而,在未來,他們還希望訓練機器人在不處理明確定義的任務的情況下探索他們的環境。

    “一個有希望的方向是訓練機器人在沒有任務的情況下通過人為的好奇心探索周圍環境,然后更快地適應用戶指定的任務,”哈夫納補充道。

  • 成人app