• 您現在的位置是:首頁 >財經 > 2021-04-28 11:28:17 來源:

    麻省理工學院CSAIL設計可以隨時間跟蹤對象的AI

    導讀 人類利用對物理世界的隱含理解來預測物體的運動 - 并推斷它們之間的相互作用。如果你看到三個框架顯示罐頭傾倒 - 一個罐子整齊地堆疊在

    人類利用對物理世界的隱含理解來預測物體的運動 - 并推斷它們之間的相互作用。如果你看到三個框架顯示罐頭傾倒 - 一個罐子整齊地堆疊在一起,第二個用手指在堆棧的底部,第三個顯示罐子在它們的側面 - 你可能會猜到手指對他們的死亡負有責任。

    麻省理工學院CSAIL設計可以隨時間跟蹤對象的AI

    機器人努力實現這些邏輯上的飛躍。但在麻省理工學院計算機科學與人工智能實驗室的一篇論文中,研究人員描述了一個系統 - 被稱為時間關系網絡(TRN) - 它基本上學習了物體如何隨時間變化。

    他們不是第一個這樣做的人 - 百度和谷歌是調查人工智能輔助時空建模的公司之一 - 但麻省理工學院的團隊聲稱他們的方法在以前方法的準確性和效率之間取得了很好的平衡。

    “我們建立了一個人工智能系統來識別物體的變形,而不是物體的外觀,”該報的第一作者Bolei Zhou告訴麻省理工學院新聞。“系統不會遍歷所有幀 - 它會拾取關鍵幀[原文如此],并使用幀的時間關系識別正在發生的事情。這提高了系統的效率,使其準確實時運行。“

    研究人員在三個數據集上訓練了卷積神經網絡 - 一類非常擅長分析視覺圖像的機器學習模型:TwentyBN的Something-Something,包含174個動作類別中的20,000多個視頻; 杰斯特,有15萬個視頻,有27個手勢; 和卡內基梅隆大學的Charades,包括10,000個視頻,包括157個分類活動。

    然后,他們將網絡放在視頻文件上,它通過按組排序幀進行處理,并指定屏幕上的對象與學習活動相匹配的概率 - 例如撕開一張紙或舉手。

    那怎么辦?由于信息量有限,該模型設法實現了Jester數據集的95%%準確率,并且在預測活動方面優于現有模型。在處理了25%%的視頻幀后,它超越了基線,甚至設法區分了“假裝打開書”和“打開書”之類的行為。

    在未來的研究中,團隊計劃通過實現對象識別和添加“直觀物理”來改進模型的復雜性 - 即理解對象的真實世界屬性。

    “因為我們知道這些視頻中的很多物理知識,我們可以訓練模塊來學習這些物理定律,并用它來識別新的視頻,”周說。“我們還開源所有代碼和模型。活動理解現在是一個令人興奮的人工智能領域。

  • 成人app