您現在的位置是:首頁 >要聞 > 2020-12-08 08:46:49 來源:
研究人員介紹了減少機器學習時間的新算法
導讀 中國科學院深圳先進技術研究所(SIAT)的李慧云教授領導的研究團隊介紹了一種簡單的深度強化學習(DRL)算法,該算法采用m-out-of-n引導程序技
中國科學院深圳先進技術研究所(SIAT)的李慧云教授領導的研究團隊介紹了一種簡單的深度強化學習(DRL)算法,該算法采用m-out-of-n引導程序技術,并具有多個深度確定性策略梯度(DDPG)算法結構。
新算法被稱為“自舉聚合多DDPG”(BAMDDPG),加速了訓練過程,并提高了智能人工研究領域的性能。
研究人員在二維機器人和開放式賽車模擬器(TORCS)上測試了他們的算法。在二維機器人手臂博弈中的實驗結果表明,集合策略所獲得的報酬比子策略所獲得的報酬要高10%-50%,而在TORCS上的實驗結果表明,該新算法可以學習到成功的控制策略。培訓時間減少了56.7%。
在連續動作空間上運行的DDPG算法在強化學習中引起了極大的關注。然而,即使對于簡單的系統,通過貝葉斯信念狀態空間中的動態編程進行的探索策略也是相當低效的。當學習最佳策略時,這通常會導致標準引導失敗。
所提出的算法使用集中式體驗重放緩沖區來提高探索效率。具有隨機初始化功能的n出n引導程序可以以較低的計算成本產生合理的不確定性估計,從而有助于訓練的收斂。建議的自舉和聚合DDPG可以減少學習時間。
BAMDDPG使每個代理可以使用其他代理遇到的經驗。由于每個代理都擁有更廣闊的視野和更多的環境信息,因此這使BAMDDPG子政策的培訓更加有效。
此方法對于順序和迭代訓練數據有效,在該數據中,數據表現出長尾分布,而不是獨立的相同分布的數據假設所暗示的范數分布。對于具有連續動作和狀態空間的任務,它可以用更少的培訓時間來學習最佳策略。
該研究的標題為“具有多個深度確定