您現在的位置是:首頁 >財經 > 2020-12-11 09:13:28 來源:
智能手機時代更快的視頻識別
機器學習的一個分支叫做深度學習,已經幫助計算機在定義明確的視覺任務(例如閱讀醫學掃描)方面超越了人類,但是隨著技術的發展,它可以解釋視頻和現實事件,因此模型變得越來越大,計算量也越來越大。
據一個估計,訓練視頻識別模型比訓練圖像分類模型可多花費50倍的數據和8倍的處理能力。這是一個問題,因為對訓練深度學習模型的處理能力的需求持續呈指數級增長,并且對AI的巨大碳足跡的擔憂也在增加。在許多AI應用正在發展的低功率移動設備上運行大型視頻識別模型仍然是一個挑戰。
麻省理工學院電氣工程與計算機科學系(EECS)的助理教授Song Han通過設計更有效的深度學習模型來解決這個問題。在國際計算機視覺會議上,Han,麻省理工學院研究生吉林和麻省理工學院IBM Watson AI實驗室研究員Chuang Gan概述了縮小視頻識別模型的方法,以加快訓練速度并改善智能手機等設備的運行時性能。移動設備。通過將最新模型中的1.5億個參數減少到2500萬個參數,他們的方法可以將模型縮小到六分之一。
韓說:“我們的目標是使任何低功耗設備的人都可以使用AI。” “要做到這一點,我們需要設計高效的AI模型,該模型使用更少的能量并且可以在邊緣設備上平穩運行,而大量AI正在移動。
攝像機和視頻編輯軟件的成本下降,以及新的視頻流平臺的興起,使互聯網充滿了新的內容。每小時僅將30,000小時的新視頻上傳到YouTube。研究人員說,更有效地將內容分類的工具將有助于觀看者和廣告商更快地找到視頻。此類工具還將幫助醫院和療養院等機構在本地運行AI應用程序,而不是在云中運行AI應用程序,以保持敏感數據的私密性和安全性。
底層的圖像和視頻識別模型是神經網絡,可以對大腦如何處理信息進行松散建模。無論是數碼照片還是視頻圖像序列,神經網絡都在像素中尋找圖案,并對其所看到的內容建立越來越抽象的表示。通過足夠的示例,神經網絡可以“學習”以識別人,物體以及它們之間的關系。