• 您現在的位置是:首頁 >財經 > 2021-05-10 09:52:48 來源:

    Facebook和谷歌的人工智能會產生3D人體姿勢

    導讀 預測3D人體姿勢可能不屬于大多數人的范圍,但機器人技術,計算機圖形學和其他主要關注運動學的領域 - 與物體運動有關的力學分支 - 可以

    預測3D人體姿勢可能不屬于大多數人的范圍,但機器人技術,計算機圖形學和其他主要關注運動學的領域 - 與物體運動有關的力學分支 - 可以從能夠做到這一點的系統中受益。姿勢預測是之前應用人工智能(AI)的一項任務,最近由谷歌推出,但一些先前的工作遇到了障礙:它在不自然的方向拉伸數字關節和骨骼,特別是當關節旋轉時。

    Facebook和谷歌的人工智能會產生3D人體姿勢

    Facebook的人工智能研究部門,谷歌大腦和蘇黎世聯邦理工學院的新研究有望解決這個問題,幸運的是。在本周發布在預印本服務器Arxiv.org上的一篇論文(“ 基于四元數的人體運動神經網絡 ”)中,研究人員描述了一個人工智能系統--QuaterNet--通過將聯合旋轉表示為稱為四元數的復數系統來改善姿勢生成,并通過懲罰聯合位置錯誤。

    正如本文的共同作者所解釋的那樣,循環神經網絡 - 一種能夠學習長期依賴性的AI算法 - 歷來用于執行短期和長期姿態預測,而卷積神經網絡 - 算法非常擅長于分析視覺圖像 - 已成功應用于長期生成運動(從一個地方移動到另一個地方)。但由于人體姿勢的固有隨機性,一個完美的模型仍然是難以捉摸的。

    “人體運動是一個具有高度不確定性的隨機過程,”研究人員寫道。“對于給定的過去,將來會有多個可能的未來幀序列,并且不確定性會隨著持續時間而增加。”

    大多數模型使用轉換運算符來預測先前姿勢的下一個姿勢。它們從它們攝取的記錄幀中輸出記錄的目標幀,這在大多數情況下都很有效。但它不會將它們暴露給自己的錯誤,因此會阻止它們從這些錯誤中恢復。

    相比之下,研究人員提出的系統采用卷積神經網絡,該網絡查看過去的幀,隨著時間的推移學習進行長期預測,因為它逐漸暴露于自己的預測中。同時,損失函數 - 將一個或多個變量的值映射到實數上的函數 - 作為輸入關節旋轉并計算每個關節的位置。共同作者說,這既改善了模型的穩定性,又減少了誤差。

    為了驗證該模型的短期姿勢預測能力,研究人員采購了Human3.6M,這是一個開源3D人體姿勢數據集,包含來自7名演員執行15次動作的360萬人類姿勢以及相應的圖像。在包含運動樣本的不同數據集上評估長期生成測試。

    在短期預測任務中,共同作者報告了人類3.6M基線的改進。并且在長期姿勢生成的情況下,其目標是在給定平均速度和地面軌跡的情況下生成姿勢序列,它們將模型表征為“定性地”與最近的工作相比較,同時允許更好地控制時間和空間約束。

    他們留待未來的工作將QuaterNet擴展到其他與運動相關的任務,例如動作識別或視頻的姿勢估計,以及使用“直接在四元數域中執行計算”的神經網絡。

  • 成人app