您現在的位置是:首頁 >生活 > 2021-04-10 21:45:21 來源:
Google的計算機視覺模型可跟蹤對象并為視頻著色
可以為黑白照片著色的人工智能并不是什么新鮮事,但谷歌的研究人員已經更進了一步。他們創造了一種機器學習系統,不僅可以為黑白視頻添加顏色,而且還可以將這些顏色限制在給定框架中的特定物體,人物和寵物上,就像兒童在翻書的線條中著色一樣。
“跟蹤視頻中的對象是計算機視覺中的一個基本問題,對于活動識別,對象交互或視頻風格化等應用至關重要,”該項目首席研究員Carl Vondrick在博客文章中寫道。“但是,教一臺機器來直觀地跟蹤物體是一項挑戰,部分原因是因為它需要用于訓練的大型標記跟蹤數據集,這對于大規模注釋是不切實際的。
在一篇名為“ 通過著色視頻跟蹤出現 ”的論文中,科學家描述了一種卷積神經網絡 - 一種在結構上非常適合對象跟蹤和視頻穩定的神經網絡 - 學習通過遮擋(即前景地形)跟蹤多個對象和其他障礙),并且“保持穩健”而不需要任何標記的訓練數據。
第一步是教算法對灰度電影著色。研究人員從Kinetics數據集中抓取了一些片段- 這是一系列YouTube視頻,涵蓋了“各種以人為本的行動” - 并將第一幀轉換為黑白。然后,他們訓練神經網絡預測后續幀中的原始顏色,結果證明是尤里卡時刻:因為模型必須重新著色移動的物體和區域,所以它實際上被迫學習如何跟蹤這些物體和區域。
學習從單一參考框架中復制顏色需要模型學習內部指向正確的區域,以便復制正確的顏色,”Vondrick寫道。“這迫使模型學習一種我們可用于跟蹤的顯式機制。”
生成的模型可以對視頻第一幀中指定的任何區域進行選項,如果給定參考點,甚至可以跟蹤人體姿勢。(研究人員使用它來模擬人體關節骨架。)更令人印象深刻的是,它優于幾種最先進的著色技術。
我們的研究結果表明,視頻著色提供的信號可用于學習如何在沒有監督的情況下跟蹤視頻中的對象,”Vondrick寫道。“此外,我們發現我們系統的故障與視頻著色失敗有關,這表明進一步改進視頻著色模型可以推進自我監督跟蹤的進展