您現在的位置是:首頁 >人工智能 > 2021-04-28 12:49:36 來源:
計算機系統預測物體對物理力的反應
麻省理工學院大腦和認知科學教授Josh Tenenbaum負責研究智能,智能和機器中心的智力發展,該中心是麻省理工學院的一個多學科,多學科項目,旨在解釋和復制人類智能。
在今年的神經信息處理系統會議上展示他們的工作,Tenenbaum和他的一個學生吳嘉俊是四篇論文的共同作者,這些論文研究了智能代理人駕馭世界所需的基本認知能力:辨別不同的對象和推斷他們如何應對物理力量。
通過構建開始接近這些能力的計算機系統,研究人員相信他們可以幫助回答有關人類在發展的哪個階段使用什么信息處理資源的問題。在此過程中,研究人員還可能會產生一些對機器人視覺系統有用的見解。
“這里的共同主題是學會理解物理學,”Tenenbaum說。“首先要看到完整的三維物體形狀,一個場景中的多個物體,以及它們的物理特性,如質量和摩擦力,然后推斷這些物體將如何隨時間推移而移動。嘉俊的四篇論文涉及整個空間總之,我們開始能夠建造能夠捕捉越來越多人對物理世界的基本了解的機器。“
其中三篇論文涉及從視覺和聽覺數據中推斷出有關物體物理結構的信息。第四部分涉及預測對象在該數據的基礎上的行為方式。
雙向街道
將所有四篇論文結合在一起的其他東西是他們不尋常的機器學習方法,這是一種計算機通過分析大量訓練數據來學習執行計算任務的技術。在典型的機器學習系統中,訓練數據被標記:例如,人類分析員將在視覺場景中識別對象或者轉錄口語句子的單詞。系統試圖了解數據的哪些特征與哪些標簽相關,并且判斷它標記以前看不見的數據的程度。
在Wu和Tenenbaum的新論文中,系統經過訓練,可以推斷出世界的物理模型 - 例如,大多數隱藏在視野中的物體的三維形狀。但后來它向后工作,使用模型重新合成輸入數據,并根據重建數據與原始數據的匹配程度判斷其性能。
例如,使用可視圖像在場景中構建對象的三維模型需要剝離任何遮擋對象; 濾除混雜的視覺紋理,反射和陰影; 并推斷看不見的表面的形狀。然而,一旦Wu和Tenenbaum的系統構建了這樣的模型,它就會在空間中旋轉并添加視覺紋理,直到它可以逼近輸入數據。
實際上,研究人員的四篇論文中有兩篇論述了從視覺數據推斷三維模型的復雜問題。在這些論文中,麻省理工學院的其他四位研究人員,包括威廉弗里曼,帕金斯電氣工程和計算機科學教授,以及DeepMind,上海科技大學和上海交通大學的同事也加入了這些研究。
分而治之
研究人員的系統基于麻省理工學院神經科學家David Marr的有影響力的理論,他于1980年在悲慘的年齡35歲時去世.Marr假設在解釋視覺場景時,大腦首先創造了他所謂的2.5-D草圖。它包含的對象 - 表示面向觀察者的對象的表面。然后,在2.5-D草圖的基礎上 - 不是關于場景的原始視覺信息 - 大腦推斷出物體的完整的三維形狀。
“這兩個問題都非常困難,但有一種很好的方法可以解開它們,”吳說。“你可以一次做一個,所以你不必同時處理它們,這更難。”
吳和他的同事的系統需要接受數據訓練,包括視覺圖像和圖像描繪的物體的三維模型。構建真實照片中描繪的物體的精確三維模型將非常耗時,因此最初,研究人員使用合成數據訓練他們的系統,其中視覺圖像是從三維模型生成的,而不是相反。創建數據的過程就像創建計算機動畫電影一樣。
然而,一旦系統接受了合成數據的訓練,就可以使用真實數據對其進行微調。這是因為它的最終性能標準是重建輸入數據的準確性。它仍在構建三維模型,但它們不需要與人工構建的模型進行性能評估。
在評估他們的系統時,研究人員使用了一種稱為交叉過度的測量方法,這在該領域很常見。在這一措施上,他們的系統優于其前輩。但是,給定的交叉結合分數為3-D模型的平滑度和形狀的局部變化留下了很大的空間。因此吳和他的同事們也對模型對源圖像的保真度進行了定性研究。在該研究的參與者中,74%的人更喜歡新系統的重建與其前身的重建。
一切都在下降
在Wu和Tenenbaum的另一篇論文中,他們再次由Freeman和麻省理工學院,劍橋大學和上海科技大學的研究人員加入,他們培訓了一個系統來分析被丟棄物體的錄音,以推斷出諸如物體的形狀,構成和落下的高度。同樣,系統被訓練以產生對象的抽象表示,而該對象又用于合成當從特定高度掉落時對象將產生的聲音。根據合成聲音和源聲音之間的相似性來判斷系統的性能。
最后,在他們的第四篇論文中,DeepMind和牛津大學的Wu,Tenenbaum,Freeman及其同事描述了一個系統,該系統開始模擬人類對作用于世界物體的物理力的直觀理解。本文回顧了之前論文所留下的內容:假設系統已經推導出物體的三維形狀。
這些形狀很簡單:球和立方體。研究人員訓練他們的系統執行兩項任務。第一個是估計在臺球桌上行進的球的速度,并在此基礎上預測它們在碰撞后的行為方式。第二個是分析堆疊立方體的靜態圖像,并確定它們是否會掉落,如果是,立方體將落在何處。
吳開發了一種代表性的語言,他稱之為場景XML,可以定量地描述視覺場景中物體的相對位置。系統首先學會用該語言描述輸入數據。然后它將該描述提供給稱為物理引擎的東西,該物理引擎模擬作用于所表示對象的物理力。物理引擎是計算機動畫的主要部分,它們產生衣服,墜落物體等的運動,以及科學計算,它們用于大規模的物理模擬。
在物理引擎預測了球和盒子的運動之后,該信息被饋送到圖形引擎,其輸出再次與源圖像進行比較。與視覺辨別工作一樣,研究人員在使用真實數據進行精煉之前,先對合成數據進行系統訓練。
在測試中,研究人員的系統再次優于其前輩。事實上,在一些涉及臺球的測試中,它也經常勝過人類觀察者。