您現在的位置是:首頁 >人工智能 > 2021-04-27 23:52:29 來源:
機器人通過反復試驗掌握新技能
加州大學伯克利分校的研究人員已經開發出算法,使機器人能夠通過試驗和錯誤學習運動任務,使用的過程更接近人類學習的方式,標志著人工智能領域的一個重要里程碑。
他們展示了他們的技術,一種強化學習,讓機器人完成各種任務 - 將衣架放在架子上,組裝玩具飛機,擰上水瓶蓋等等 - 沒有預先編程的細節關于它的周圍環境
“我們在這里報道的是一種賦予機器人學習能力的新方法,”加州大學伯克利分校電子工程與計算機科學系教授Pieter Abbeel說。“關鍵是,當機器人面對新事物時,我們不必重新編程。完全相同的軟件,編碼機器人可以學習的方式,用于讓機器人學習我們提供的所有不同任務它。”
這項工作是加州大學社會利益信息技術研究中心(CITRIS)新的人員和機器人計劃的一部分。新的多校區,多學科研究計劃旨在保持人工智能,機器人和自動化在人類需求方面的令人眼花繚亂的進步。
“大多數機器人應用都處于受控環境中,物體處于可預測的位置,”Darrell說。“將機器人置于現實環境中的挑戰,如家庭或辦公室,是這些環境不斷變化。機器人必須能夠感知并適應周圍環境。”
神經啟發
幫助機器人通過3D世界的常規但不切實際的方法包括對其進行預編程以處理各種可能的場景或創建機器人操作的模擬環境。
取而代之的是,加州大學伯克利分校的研究人員轉向了一種新的人工智能分支,稱為深度學習,當人類大腦感知并與世界相互作用時,它會受到人類大腦神經回路的啟發。
“盡管我們的多功能性,人類并非天生具有可以像瑞士軍刀那樣部署的行為,我們不需要編程,”萊文說。“相反,我們從經驗和其他人類學習生活過程中的新技能。這種學習過程深深植根于我們的神經系統,我們甚至無法準確地與另一個人溝通如何執行所產生的技能。他們最多希望能夠在他們自己學習的同時提供指導和指導。“
在人工智能領域,深度學習程序創建“神經網絡”,其中人工神經元層處理重疊的原始感覺數據,無論是聲波還是圖像像素。這有助于機器人識別正在接收的數據中的模式和類別。在他們的iPhone上使用Siri,谷歌的語音到文本程序或谷歌街景的人可能已經從深度學習在語音和視覺識別方面取得的重大進步中獲益。
然而,將深度強化學習應用于運動任務更具挑戰性,因為任務超越了對圖像和聲音的被動識別。
“在非結構化的3D環境中移動是一個完全不同的球賽,”芬恩說。“沒有標記的方向,也沒有提前解決問題的例子。沒有像語音和視覺識別程序那樣的正確解決方案的例子。”
實踐是完美的
在實驗中,加州大學伯克利分校的研究人員使用Willow Garage Personal Robot 2(PR2),他們昵稱為BRETT,或伯克利機器人,以消除繁瑣的任務。
他們為BRETT提供了一系列電機任務,例如將塊放入匹配的開口或堆疊樂高積木。控制BRETT學習的算法包括獎勵功能,該功能根據機器人對任務的處理程度提供分數。
BRETT接收現場,包括相機所看到的自己手臂和手的位置。該算法基于機器人的運動通過分數提供實時反饋。使機器人更接近完成任務的移動得分高于不完成任務的移動。分數通過神經網絡反饋,因此機器人可以了解哪些動作更適合手頭的任務。
這種端到端的培訓過程是機器人自學的能力的基礎。當PR2移動其關節并操縱物體時,該算法計算出需要學習的神經網絡的92,000個參數的良好值。
使用這種方法,當給定任務開始和結束的相關坐標時,PR2可以在大約10分鐘內掌握典型的分配。當機器人沒有給出場景中物體的位置并且需要一起學習視覺和控制時,學習過程大約需要三個小時。
Abbeel表示,隨著處理大量數據的能力的提高,該領域可能會有顯著的改進。
“隨著更多的數據,你可以開始學習更復雜的東西,”他說。“在我們的機器人可以學會清理房屋或分類洗衣房之前,我們還有很長的路要走,但我們的初步結果表明,這些深度學習技術在使機器人能夠完全從中學習復雜的任務方面具有變革性的影響。在接下來的五到十年中,我們可能會看到通過這一系列工作在機器人學習能力方面取得了重大進展。“