• 您現在的位置是:首頁 >財經 > 2020-12-10 10:34:38 來源:

    一種無需人工演示就能訓練機器人的模仿學習方法

    導讀 大多數人可以通過觀察他人僅執行一次任務來學習如何完成給定任務。但是,被編程為通過模仿人類學習的機器人通常需要在一系列人類演示中進行

    大多數人可以通過觀察他人僅執行一次任務來學習如何完成給定任務。但是,被編程為通過模仿人類學習的機器人通常需要在一系列人類演示中進行訓練,然后才能有效地復制所需的行為。

    研究人員最近能夠使用元學習方法,通過讓機器人觀察單個人類演示,來教機器人執行新任務。但是,這些學習技術通常需要現實世界中的數據,這些數據可能昂貴且難以收集。

    為了克服這一挑戰,倫敦帝國理工學院的研究人員開發了一種新方法,該方法無需使用現實世界中的人類演示,就可以在機器人中進行一次仿制學習。他們的方法在arXiv上預先發表的一篇論文中提出,使用了稱為任務嵌入式控制網絡(TecNets)的算法,該算法允許人工代理從單個或多個演示中學習如何完成任務以及人工生成的訓練數據。

    研究人員在論文中寫道:“我們證明,通過嵌入任務的控制網絡,我們可以通過嵌入人類示范來推斷控制策略,這些示范可以制定控制策略并實現一次模仿學習。”

    由研究人員提出的方法不需要與現實中人類的任何交互機器人的訓練。該方法使用TechNets來推斷控制策略,嵌入可演示給定控制策略并最終實現一鍵式模仿學習的人類演示。

    為了消除訓練過程中對現實世界中的人類演示的需求,研究人員使用了模擬人類演示的視頻數據集,這些視頻數據集是使用PyRep(最近發布的用于機器人學習研究的工具包)生成的。研究人員使用PyRep對人類3-D手臂進行建模,然后將其分解為各種形狀,以再現類似于人類觀察到的動作。

    然后,他們創建了一個由視頻組成的數據集,該模擬手臂在其中執行了許多任務,并用它來訓練機器人系統。最終,機器人僅通過分析這些模擬視頻并在現實世界中進行一次人工演示就能夠學習如何完成任務。

    研究人員在論文中解釋說:“重要的是,我們在訓練期間不使用真實的手臂來提供演示,而是在以前從未見過的應用程序中利用域隨機化:在人類上實現從模擬到真實的傳輸,”研究人員在論文中解釋說。

    該團隊在模擬和現實世界中都評估了這種新的單次學習方法,使用它來訓練機器人來完成涉及放置和推動對象的任務。值得注意的是,他們的學習方法所取得的結果可與使用更傳統的基于模仿學習的方法所取得的結果相提并論,盡管它需要對機器人進行人工生成的視頻而非真實的人類演示進行訓練。

  • 成人app