您現在的位置是:首頁 >人工智能 > 2021-04-28 10:12:18 來源:
設計用于標記視覺場景的系統也可以檢測特定對象
物體識別 - 確定物體在數字圖像中的位置 - 是計算機視覺中的一個核心研究課題。
但是,一個看圖像的人會自發地對整個場景作出更高層次的判斷:它是一個廚房,一個露營地,或一個會議室。在計算機科學研究人員中,被稱為“場景識別”的問題受到的關注相對較少。
去年12月,在神經信息處理系統年會上,麻省理工學院的研究人員宣布編制了世界上最大的根據場景類型標記的圖像數據庫,有700萬個條目。通過利用被稱為“深度學習”的機器學習技術 - 這是神經網絡的經典人工智能技術的復興 - 他們用它來訓練最成功的場景分類器,即25到33之間百分比比其最好的前輩更準確。
在本周末舉行的國際學習代表大會上,研究人員將展示一篇新論文,證明在學習如何識別場景的過程中,他們的系統也學會了如何識別物體。這項工作意味著,場景識別和物體識別系統至少可以協同工作。但它也證明了它們可以證明是相輔相成的可能性。
“深度學習非常有效,但很難理解它為何起作用 - 網絡正在構建的內部表征是什么,”麻省理工學院計算機科學與工程副教授,資深作者安東尼奧·托拉爾巴說。新文章。“可能是場景的表現形式是沒有任何意義的場景的一部分,如角落或物體碎片。但它可能是它的對象:要知道某些東西是臥室,你需要看到床;要知道某個東西是會議室,你需要看一張桌子和椅子。這就是我們發現的,網絡真的找到了這些東西。“
第一作者,電子工程和計算機科學研究生Bolei Zhou加入了Torralba的新論文。主要研究科學家Aude Oliva和麻省理工學院計算機科學與人工智能實驗室的訪問科學家Agata Lapedriza; 和Aditya Khosla,Torralba小組的另一名研究生。
在引擎蓋下
與所有機器學習系統一樣,神經網絡嘗試識別與人類執行的注釋相關的訓練數據的特征 - 例如,語音記錄的轉錄,或與圖像相關聯的場景或對象標簽。但是,與生產當今手機中常見的語音識別軟件的機器學習系統不同,神經網絡對這些功能的外觀沒有先前的假設。
這聽起來像是災難的一個秘訣,因為系統可能最終會因為無關緊要的相關性而無關緊要。但神經網絡不是從人類指導中獲得方向感,而是從它們的結構中得出。它們被組織成層次:處理單元的庫 - 在大腦中的神經元上松散地建模 - 在每層中對它們被饋送的數據執行隨機計算。但是他們然后將結果提供給下一層,依此類推,直到最后一層的輸出與數據注釋相對應。隨著網絡接收更多數據,它會重新調整其內部設置,以嘗試生成更準確的預測。
麻省理工學院的研究人員網絡處理了數百萬輸入圖像后,一直重新調整其內部設置,在標記場景中準確率約為50% - 人類只有80%準確,因為他們對高級場景不同意標簽。但研究人員并不知道他們的網絡是如何做的。
然而,神經網絡中的單元對不同的輸入作出不同的響應。如果一個單元被調諧到特定的視覺特征,如果特定輸入完全沒有該特征,它將根本不響應。如果該功能明顯存在,它將作出強有力的回應。
麻省理工學院的研究人員確定了60個圖像,這些圖像在其網絡的每個單元中產生最強烈的響應; 然后,為了避免偏見,他們將圖像集合發送給亞馬遜的Mechanical Turk眾包網站上的付費工作人員,他們要求他們確定圖像之間的共性。
超越類別
“第一層,超過一半的單位被調整為簡單的元素 - 線條或簡單的顏色,”Torralba說。“當你在網絡中向上移動時,你開始發現越來越多的物體。還有其他的東西,比如地區或表面,可能是草或衣服。所以它們仍然是高度語義的,你也看到了增加。”
根據Mechanical Turk工作人員的評估,網絡頂部大約一半的單元被調整到特定的對象。“另一半,他們要么檢測到物體,要么做得不好,或者我們只是不知道他們在做什么,”托拉爾巴說。“他們可能正在檢測我們不知道如何命名的部分。或者可能是網絡還沒有完全融合,完全學會了。”
在正在進行的工作中,研究人員從頭開始并在相同的數據集上重新訓練他們的網絡,看它是否一致地收斂于相同的對象,或者它是否可以在不同的方向上隨機演變,仍然可以產生良好的預測。他們還在探索物體檢測和場景檢測是否可以相互反饋,以提高兩者的性能。“但我們希望這樣做的方式不會迫使網絡做一些它不想做的事情,”托拉爾巴說。