您現在的位置是:首頁 >互聯網 > 2020-10-21 11:39:17 來源:
Google的VideoBERT算法可一次預測未來的烹飪視頻
導讀 Google LLC今天推出了VideoBERT,這是一種人工智能,它可以觀看視頻的一部分并像人類一樣推斷未來幾秒鐘內將發生的事情。要使計算機具備從
Google LLC今天推出了VideoBERT,這是一種人工智能,它可以觀看視頻的一部分并像人類一樣推斷未來幾秒鐘內將發生的事情。
要使計算機具備從視覺場景中理解和得出正確結論的能力,就需要非常復雜的算法。但是,對于Google的研究人員而言,挑戰不是建立算法,而是找到足夠的數據進行訓練。機器學習模型必須吸收大量信息才能理解甚至是基本概念,并且通常必須手動準備信息。
對于VideoBERT而言,這是不可行的,因為教授模型如何預測未來事件需要更多的示例視頻,而這些視頻是Google研究人員可以手工組裝的。他們還必須為每個剪輯的每個單獨的幀編寫描述,以便AI可以跟蹤正在發生的事情。因此,團隊提出了一個替代方案:免費提供的教學視頻。
在顯示如何烹飪煎蛋或填充輪胎的視頻中,演示任務的人通常會在執行任務時對每個步驟進行解釋,并敘述了研究人員用來替代他們本應做的逐幀描述否則為AI創建。該團隊編輯了超過一百萬個剪輯,涵蓋烹飪和園藝等類別。然后,他們將他們喂給VideoBERT,以教該模型如何跟蹤常見活動的進度。
培訓后,該模型被放到了一系列從未見過的烹飪視頻上。當視頻片段顯示一碗面粉和可可粉的視頻片段時,VideoBERT巧妙地預測到這些成分將被放入烤箱,變成布朗尼蛋糕或蛋糕。研究人員還設法利用算法的觀察技巧從視頻中提取食譜,其中廚師解釋了如何烹飪牛排。
Google開發的訓練VideoBERT的方法最終可以在更嚴重的應用程序中找到用處。例如,如果自動駕駛汽車能夠準確預測未來幾秒鐘內附近的車輛的位置,它們可能會變得更加安全。對于那些在人類工人附近操作的無人機和工業機器人來說,這種遠見也可能是一項重要資產。