您現在的位置是:首頁 >人工智能 > 2021-05-02 21:55:26 來源:
使用現成的網絡攝像頭跟蹤3D人物
無論是用于計算機游戲,運動中的運動分析,還是醫學檢查,許多應用都要求人們及其動作以3D形式實時地以數字方式捕獲。到目前為止,只有使用昂貴的幾臺攝像機系統或讓人們穿著特殊的西裝才能實現這一點。馬克斯普朗克計算機科學研究所的計算機科學家現已開發出一種只需要一臺攝像機的系統。它甚至可以估計在預先錄制的視頻中行動的人的3D姿勢,例如YouTube視頻。因此,它在角色控制,虛擬現實和智能手機無處不在的動作捕捉方面提供了新的應用。
“這可以讓你用阿爾卑斯山的手機拍攝視頻并進行身體追蹤。用3D實時拍攝,只需用移動設備上的相機 - 這是一個很大的飛躍,” Dushyant Mehta,圖形,視覺和視頻小組的博士生,由薩爾布呂肯馬克斯普朗克信息學研究所(MPI)的Christian Theobalt教授領導。
他和他的同事們一起開發了一個軟件系統,只需要一個傳統的攝像頭即可實時數字化地捕捉一個人及其動作。
“到目前為止,已經有幾臺攝像機,或像Kinect中所謂的深度攝像機,這項任務是必不可少的,”圖形,視覺和視頻組的研究員Srinath Sridhar解釋道。
新系統基于一個神經網絡,研究人員稱之為“卷積神經網絡”,簡稱CNN,通常與“深度學習”一詞有關。MPI研究人員開發了一種新方法,借助神經網絡從視頻流的二維信息中計算出人的三維姿態。
他們網站上的一個短片由科學家制作,展示了它的外觀。研究人員在房間后面與俱樂部玩雜耍,而在前臺,監視器顯示相應的視頻錄制。研究人員的圖形在這里疊加了一個簡化的紅色棒圖。另一個3D視圖從側面顯示運動,顯示第一次實時捕獲完整的3D姿勢。無論研究人員移動或延伸他或她的肢體有多快或多遠,棒圖都會在3D中產生相同的運動,就像虛擬空間中更加充實的虛擬角色版本一樣,在左側的另一個顯示器上顯示。
研究人員將他們的系統稱為“VNect”。該系統既預測圖像中人物的3D姿勢,又將人物定位在圖像中。這允許系統避免在不包含人的圖像區域上浪費計算。在機器學習過程中使用數萬個帶注釋的圖像訓練系統的神經網絡。該系統根據關節角度提供3D姿勢信息,可以很容易地用于控制虛擬角色。
“VNect為更廣泛的觀眾提供3D電子游戲虛擬現實的身體姿勢跟蹤,因為他們不需要使用Kinect或其他相機,不需要佩戴特殊的坐姿,并且可以使用更容易使用的網絡攝像頭Mehta補充說:“它還可以實現第一人稱虛擬現實的全新體驗。” 除了這種交互式角色控制,VNect還是第一個用于估計社區視頻中人物3D姿態的系統,例如在線平臺YouTube上提供的那些。Christian Theobalt繼續說道:“還有許多其他應用可能,從人機交互到人機交互到工業4.0,人和機器人在工廠里一起工作。還要考慮自動駕駛,
但VNect仍有其局限性。姿勢估計的準確度略低于使用多相機或基于標記的姿勢估計所獲得的準確度。如果人的面部被遮擋,動作太快或者姿勢離受過訓練的姿勢太遠,則會遇到麻煩。多人閉塞也是一個問題。
盡管如此,斯里達爾確信該技術將進一步成熟并能夠處理越來越復雜的場景,以便它可以在日常生活中使用。