您現在的位置是:首頁 >要聞 > 2020-11-26 09:26:01 來源:
深度強化學習像孩子一樣教機器人
當孩子們玩玩具時,他們會了解周圍的世界,而如今的機器人并沒有什么不同。在加州大學伯克利分校的機器人學習實驗室中,成群的機器人正在努力完成與孩子們相同的任務:將木塊放在形狀分類立方體的正確插槽中,將一種塑料樂高積木連接到另一塊塑料積木,將零散的零件連接到玩具飛機。
電氣工程和計算機科學教授,機器人學習實驗室主任Pieter Abbeel說,然而,真正的創新不是這些機器人的成就,而是它們的運行方式。
從兒童本能地學習和適應各種不可預測的環境的方式中汲取靈感,Abbeel和助理教授Sergey Levine正在開發算法,使機器人能夠從過去的經驗中學習,甚至可以從其他機器人中學習。基于一種名為“深度強化學習”的原理,他們的工作使機器人超越了展示類人智力的關鍵門檻,能夠獨立解決問題并以更快,更有效的方式完成新任務。
“如果您看到機器人通過強化學習來做某事,則意味著它實際上知道如何從自己的試驗和錯誤中獲得新技能,”阿比耶爾說。“這比完成的特定任務重要得多。”
盡管當今最先進的機器人仍然無法匹敵幼兒的腦力,但這些研究人員已準備好為機器人配備尖端的人工智能(AI)功能,從而使他們能夠概括任務,即興發揮對象并應對意料之外的挑戰在他們周圍的世界中。
做出“好的”決定
在過去的80年中,在數學,經濟理論和AI方面看似無關的創新已經融合在一起,使機器人非常接近逼近人類智能的事物。
1947年,數學家約翰·馮·諾依曼(John von Neumann)和經濟學家奧斯卡·莫根斯特恩(Oskar Morgenstern)提出了一個定理,該定理構成了稱為期望效用理論的基礎。簡而言之,該理論認為,如果給定了一系列選擇機會,一個人將選擇能夠產生最大程度個人滿意度的結果的選擇。而且,我們可以用數字值表示期望的結果,即“獎勵”。
“這個數字代表了他們想要的東西,”阿比貝爾說。“因此,該定理表明,獎勵是完全通用的。您唯一需要的就是數字。”
然后,研究人員通過向計算機提供數值激勵來學習如何玩棋盤游戲,從而將該理論應用于計算機。
下棋。如果計算機的目標是盡可能快地對付其對手,那么該結果將分配給游戲中最高的數字。計算機探究要進行哪些操作以實現核對:“好”步為計算機賺取高分,而“壞”步則為低分。