您現在的位置是:首頁 >要聞 > 2020-12-09 15:05:43 來源:
人工智能學習技術可以說明大腦獎勵路徑的功能
導讀 來自DeepMind,大學學院和哈佛大學的一組研究人員發現,將學習技術應用于AI系統的經驗教訓可能有助于解釋獎勵途徑如何在大腦中發揮作用。該
來自DeepMind,大學學院和哈佛大學的一組研究人員發現,將學習技術應用于AI系統的經驗教訓可能有助于解釋獎勵途徑如何在大腦中發揮作用。該小組在《自然》雜志上發表的論文中描述了將計算機中的分布強化學習與小鼠大腦中的多巴胺處理進行比較,以及他們從中學到的知識。
先前的研究表明,大腦中產生的多巴胺與獎勵過程有關,多巴胺是在發生好事時產生的,其表達會帶來愉悅的感覺。一些研究還表明,大腦中對多巴胺的存在做出反應的神經元都以相同的方式做出反應-事件會使人或小鼠感覺好壞。其他研究表明,神經元反應更多是一個梯度。在這項新工作中,研究人員發現了支持后一種理論的證據。
分布式強化學習是一種基于強化的機器學習。在設計諸如Starcraft II或Go之類的游戲時,經常使用它。它會跟蹤好動作與壞動作之間的關系,并學會減少壞動作的數量,并發揮更多的性能。但是,這樣的系統不會對所有好的和壞的動作都一視同仁-每個動作在記錄時都經過加權,權重是做出未來動作選擇時所使用的計算的一部分。
研究人員指出,人類似乎也使用類似的策略來提高他們的游戲水平。倫敦的研究人員懷疑,人工智能系統與大腦進行獎勵處理的方式之間的相似性也可能相似。為了找出它們是否正確,他們對小鼠進行了實驗。他們將能夠插入單個多巴胺神經元反應的設備插入大腦。然后,對小鼠進行培訓以執行一項任務,在這些任務中,它們會以期望的方式獲得獎勵。
小鼠神經元反應表明,它們并非都像先前理論所預測的那樣以相同的方式反應。取而代之的是,他們以可靠的不同方式做出了反應,這表明小鼠所體驗到的快樂程度更多地是一種梯度,正如該團隊所預測的那樣。