您現在的位置是:首頁 >人工智能 > 2021-04-23 23:12:16 來源:
用現實世界的機器人進行深度強化學習
我們宣布發布我們最先進的非政策模型免費強化學習算法,軟扮演評論家(SAC)。該算法是在加州大學伯克利分校和谷歌大腦聯合開發的,我們一直在內部使用它進行機器人實驗。據我們所知,軟演員評論家是當今最有效的無模型算法之一,使其特別適合現實世界的機器人學習。在這篇文章中,我們將針對最先進的無模型RL算法對SAC進行基準測試,并展示一系列真實世界的機器人示例,從操作到運動。我們還發布了SAC的實施,這是專門為現實世界的機器人系統設計的。
真實機器人深度RL的理想特性
是什么使得真實世界系統的理想深度RL算法?真實世界的實驗帶來了額外的挑戰,例如數據流中的持續中斷,對低延遲推理的要求以及平滑探索以避免機器人的機械磨損,這對算法和實施都提出了額外的要求。算法。
關于算法,需要幾個屬性:
樣本效率。現實世界中的學習技能可能需要相當長的時間。原型設計新任務需要多次試驗,學習新技能所需的總時間很快就會增加。因此,良好的樣本復雜性是成功獲得技能的第一個先決條件。
沒有敏感的超參數。在現實世界中,我們希望避免參數調整,原因很明顯。最大熵RL提供了一個強大的框架,可以最大限度地減少對超參數調整的需求。
非政策學習。如果我們可以重用為另一個任務收集的數據,則算法是非策略的。在典型情況下,我們需要在對新任務進行原型設計時調整參數并確定獎勵功能,并且使用非策略算法允許重用已經收集的數據。
下面描述的軟扮演者評論家(SAC)是一種非政策性的無模型深度RL算法,它與這些要求完全一致。特別是,我們展示了它的樣本效率足以在幾個小時內解決現實世界的機器人任務,對超參數具有魯棒性,并且可以在具有單組超參數的各種模擬環境中工作。
除了所需的算法屬性之外,現實世界中的實驗還為實現設置了額外的要求。我們的版本支持許多這些功能,我們發現這對于使用真實機器人學習至關重要,也許最重要的是:
異步采樣。推理需要快速以最小化控制環路中的延遲,并且我們通常希望在環境重置期間繼續訓練。因此,數據采樣和培訓應該在獨立的線程或進程中運行。
停止/恢復訓練。使用真正的硬件時,無論出現什么問題,都會出錯。我們應該期望數據流中斷。
動作平滑。典型的高斯探測使得執行器在高頻下抖動,可能會損壞硬件。因此,在時間上相關的探索是重要的。
軟性演員 - 評論家
軟作家評論家是基于最大熵強化學習框架,它考慮了熵增強目標
?(π)= E.π[ Σ?r (s?,a?)- α 日志(π(a?| 小號?)) ],
其中和是狀態和動作,期望策略和系統的真實動態。換句話說,最優政策不僅最大化了預期收益(第一個加權),而且最大化了自身的預期熵(第二個加權)。兩者之間的權衡取決于非負溫度參數,我們總是可以通過設置來恢復傳統的最大預期回報目標。在技術報告中,我們表明我們可以將此目標視為預期收益的熵約束最大化,并自動學習溫度參數,而不是將其視為超參數。小號?一個?αα = 0
這個目標可以用幾種方式解釋。我們可以將熵項視為政策之前的無信息(統一)先驗,但我們也可以將其視為規范者或嘗試在探索(最大化熵)和利用(最大化回報)之間進行權衡。在我們之前的文章中,我們提供了更廣泛的概述和提出的最大熵RL獨有的應用程序,并在最近的教程中討論了目標的概率視圖。軟作家評論家通過使用神經網絡參數化高斯策略和Q函數來最大化該目標,并使用近似動態編程來優化它們。我們將軟性演員評論家的進一步細節推遲到技術報告中。在這篇文章中,我們將目標看作是一種基礎方法,可以獲得更好的強化學習算法,這些算法具有一致性并且樣本效率足以適用于真實世界的機器人應用程序,并且 - 或許令人驚訝地 - 可以產生這樣的狀態。在模擬基準測試中,常規,最大預期回報目標(無熵正則化)下的藝術表現。
模擬基準
在我們進入實際實驗之前,我們將標準基準任務上的SAC與其他流行的深度RL算法,深度確定性策略梯度(DDPG),雙延遲深度確定性策略梯度(TD3)和近端策略優化(PPO)進行比較。下圖比較了來自OpenAI Gym的三個具有挑戰性的運動任務的算法,HalfCheetah,Ant和Humanoid。實線表示總平均回報,陰影對應于五個隨機種子的最佳和最差試驗。實際上,以藍色顯示的柔和的演員評論家可以獲得最佳性能,而且對于真實世界的應用程序來說更重要 - 它在最壞的情況下也表現良好。我們在技術報告中包含了更多基準測試結果。
真實世界中的深度RL
我們通過從頭開始解決三個任務而不依賴于模擬或演示來測試現實世界中的軟扮演者 - 評論家。我們的第一個實際任務涉及Minitaur機器人,一個帶有八個直接驅動執行器的小型四足動物。動作空間由擺動角度和每個支腿的延伸部分組成,然后將其映射到所需的電動機位置并用PD控制器跟蹤。觀察結果包括電機角度以及基座的側傾角和俯仰角以及角速度。這項學習任務為現實強化學習提出了重大挑戰。機器人是欠驅動的,因此必須精確地平衡腿上的接觸力以促進前進。未經訓練的政策可能失去平衡和摔倒,太多的跌落最終會損壞機器人,從根本上提高樣本效率。下面的視頻說明了學到的技能。雖然我們僅在平坦地形上訓練我們的政策,但我們在不同的地形和障礙物上進行了測試。由于軟性演員 - 評論家學習強有力的政策,由于培訓時的熵最大化,政策可以很容易地推廣到這些擾動,而無需任何額外的學習。
Minitaur機器人(Google Brain,Tuomas Haarnoja,Sehoon Ha,Jie Tan和Sergey Levine)。
我們的第二個真實世界的機器人任務涉及訓練一個3指靈巧的機器人手來操縱一個物體。這只手是基于Dynamixel Claw手,在另一篇文章中討論過。這手牌有9個DoF,每個都由一個Dynamixel伺服電機控制。該策略通過發送車載PID控制器的目標關節角度位置來控制手。操作任務需要手旋轉“閥門” - 類似對象,如下面的動畫所示。為了感知閥門,機器人必須使用右下方插圖中顯示的原始RGB圖像。機器人必須旋轉閥門,使彩色掛鉤朝右(見下面的視頻)。對于每一集,閥門的初始位置被隨機均勻地重置,迫使策略學習使用原始RGB圖像來感知當前的閥門方向。閥門上連接有一個小型電動機,可自動復位,并為確定獎勵功能提供地面真實位置。該電機的位置未提供給該政策。
用靈巧的手旋轉閥門,直接從原始像素(加州大學伯克利分校,Kristian Hartikainen,Vikash Kumar,Henry Zhu,Abhishek Gupta,Tuomas Haarnoja和Sergey Levine)學習。
在最后的任務中,我們訓練了一個7-DoF Sawyer機器人來堆疊樂高積木。該策略接收關節位置和速度,以及作為輸入的末端效應器力,并將扭矩命令輸出到七個關節中的每一個。最大的挑戰是在施加向下的力之前準確地對準螺柱以克服它們之間的摩擦。
與Sawyer(加州大學伯克利分校,Aurick Zhou,Tuomas Haarnoja和Sergey Levine)疊加樂高積木。
柔軟的演員 - 評論家迅速解決了所有這些任務:Minitaur運動和砌塊堆疊任務都需要2個小時,而來自圖像觀察的閥門旋轉任務需要20個小時。我們還通過提供實際閥門位置作為對策略的觀察,學習了沒有圖像的閥門旋轉任務的策略。柔軟的演員評論家可以在3小時內學習這個更簡單的閥門任務版本。為了進行比較,之前的工作使用PPO在7.4小時內學習了沒有圖像的相同任務。
結論
柔軟的演員 - 評論家是向現實世界機器人邁向可行的深度RL的一步。仍然需要完成將這些方法擴展到更具挑戰性的任務的工作,但我們相信我們正在接近關鍵點,即深度RL可以成為機器人任務的實用解決方案。同時,您可以將機器人連接到我們的工具箱并開始學習!