• 您現在的位置是:首頁 >要聞 > 2020-12-04 15:13:29 來源:

    受嬰兒行為啟發而改善機器學習的技術

    導讀 從出生的第一年開始,人類就具有天生的能力,他們可以不斷地學習并建立世界的心理模型,只需觀察并與周圍的事物或人互動即可。認知心理學研

    從出生的第一年開始,人類就具有天生的能力,他們可以不斷地學習并建立世界的心理模型,只需觀察并與周圍的事物或人互動即可。認知心理學研究表明,人類會廣泛利用以前獲得的知識,尤其是在遇到新情況或做出決策時。

    盡管最近在人工智能(AI)領域取得了重大進展,但大多數虛擬代理仍需要數百小時的培訓才能在幾個任務中達到人類水平的性能,而人類可以學習如何在幾小時或更短的時間內完成這些任務。最近的研究強調了人類如此迅速地獲取知識的能力的兩個關鍵因素,即直觀的物理學和直觀的心理學。

    從開發的早期階段就在人類中觀察到的這些直覺模型可能是未來學習的核心推動者。基于這一想法,韓國高級科學技術研究院(KAIST)的研究人員最近開發了一種內在的獎勵歸一化方法,該方法可以使AI代理選擇最能改善其直覺模型的動作。在arXiv上預先發表的論文中,研究人員專門提出了一種圖形物理網絡,該網絡與受人類嬰兒觀察到的學習行為啟發的深度強化學習相集成。

    研究人員在論文中解釋說:“想像人類嬰兒在一間房間里,玩具擺在可以觸及的距離處。” “他們不斷地對物體進行抓取,投擲和執行動作;有時,他們觀察到動作的后果,但有時,他們失去興趣并轉移到另一個物體上。'兒童為科學家'的觀點表明,人類嬰兒是具有內在動機去進行自己的實驗,發現更多信息,并最終學會區分不同的對象并為它們創建更豐富的內部表示。”

    心理學研究表明,人類在生命的最初幾年中一直在不斷地探索周圍的環境,這使他們能夠形成對世界的關鍵理解。此外,當孩子觀察到的結果不符合他們先前的期望(即違反期望)時,通常會鼓勵他們做進一步的實驗以更好地了解自己所處的狀況。

    KAIST的研究人員團隊嘗試使用強化學習方法在AI代理中重現這些行為。在他們的研究中,他們首先引入了圖形物理網絡,該網絡可以提取對象之間的物理關系并預測其在3-D環境中的行為。隨后,他們將該網絡與深度強化學習模型集成在一起,引入了一種內在的獎勵歸一化技術,該技術鼓勵AI代理探索和識別將不斷改善其直覺模型的動作。

    研究人員使用3D物理引擎證明了他們的圖形物理網絡可以有效地推斷不同物體的位置和速度。他們還發現,他們的方法使深度強化學習網絡能夠不斷改善其直覺模型,鼓勵其僅基于內在動機與對象進行交互。

    在一系列評估中,由這組研究人員設計的新技術取得了非凡的準確性,其中AI代理執行了更多的不同探索操作。將來,它可以為機器學習工具的發展提供信息,這些工具可以更快,更有效地從過去的經驗中學習。

    研究人員在論文中解釋說:“我們已經在不同質量和半徑的球形物體的場景中測試了網絡在靜止和非靜止問題上的作用。” “我們的希望是,這些經過預訓練的直覺模型將在以后用作其他面向目標的任務(如ATARI游戲或視頻預測)的先驗知識。”

  • 成人app