• 您現在的位置是:首頁 >動態 > 2020-12-10 10:36:12 來源:

    使用模仿和強化學習來解決長期的機器人任務

    導讀 強化學習(RL)是一種廣泛使用的機器學習技術,它需要使用獎勵和懲罰系統來訓練AI代理或機器人。到目前為止,機器人技術領域的研究人員主要將

    強化學習(RL)是一種廣泛使用的機器學習技術,它需要使用獎勵和懲罰系統來訓練AI代理或機器人。到目前為止,機器人技術領域的研究人員主要將RL技術應用于在相對較短的時間內完成的任務,例如向前移動或抓取物體。

    Google和伯克利AI Research的研究人員團隊最近開發了一種將RL與模仿學習相結合的新方法,該過程稱為中繼策略學習。這種方法在arXiv上預發表的論文中引入并在大阪的機器人學習會議(CoRL)2019上提出,可用于訓練人工代理來解決多階段和長期的任務,例如跨越對象的操縱任務在更長的時間內

    進行這項研究的研究者之一Abhishek Gupta告訴TechXplore:“我們的研究起源于許多使用強化學習(RL)進行非常長的任務的實驗,但大多沒有成功。” “如今,機器人技術中的RL主要用于可以在短時間內完成的任務,例如抓緊,推動物體,向前走等。盡管這些應用具有很大的價值,但我們的目標是將強化學習應用于需要多個子目標并在更長的時間內進行的任務,例如擺桌子或打掃廚房。”

    在開始開發方法之前,Gupta和他的同事回顧了以前的文獻,試圖確定為什么使用當前的RL技術尤其難以解決更長的任務。他們在他們的論文中指出,通常有兩個主要原因。

    首先,機器人很難自行確定最佳解決方案來解決長期而復雜的任務。其次,代理很難成功地解決僅在長序列結束時才提供反饋的長任務。中繼策略學習是他們提出的一種新的學習方法,旨在解決這些挑戰。

    Gupta說:“為了解決讓機器人自行解決長期任務的挑戰,我們決定簡化問題并使用人工提供的演示工具。” “解決長任務很困難,因為要讓機器人自己發現有趣的行為非常困難,人類提供的演示可以用作在環境中進行有趣的事情的指南。”

  • 成人app