• 您現在的位置是:首頁 >市場 > 2020-11-20 10:04:45 來源:

    建立可以推理日常行為的機器學習模型

    導讀 事件發生時抽象地推理的能力是人類智能的定義特征。我們本能地知道,哭泣和書寫是交流的手段,從樹上掉下來的熊貓和飛機降落是下降時的變異

    事件發生時抽象地推理的能力是人類智能的定義特征。我們本能地知道,哭泣和書寫是交流的手段,從樹上掉下來的熊貓和飛機降落是下降時的變異。

    將世界組織成抽象的類別對計算機來說并不容易,但是近年來,研究人員通過訓練機器學習模型來學習單詞和圖像,并注入有關世界的結構信息以及物體,動物和動作之間的關系,從而使這一過程更加緊密。在本月舉行的歐洲計算機視覺會議上的一項新研究中,研究人員推出了一種混合語言視覺模型,該模型可以比較和對比在視頻上捕獲的一組動態事件,以闡明連接它們的高級概念。

    他們的模型在兩種類型的視覺推理任務上的表現均優于或優于人類:選擇在概念上最能完善場景的視頻,以及挑選不合適的視頻。例如,在顯示狗吠叫和一個人在狗旁邊his叫的視頻時,該模型通過從五個視頻集中挑選哭泣的嬰兒來完成了整個場景。研究人員將其結果復制到兩個用于訓練動作識別的AI系統的數據集上:MIT的Time-Moments和DeepMind的Kinetics。

    這項研究的資深作者,麻省理工學院尋求情報的共同主任,麻省理工學院高級研究科學家奧德·奧利瓦(Aude Oliva)說:“我們證明您可以將抽象構建到AI系統中,以執行接近人類水平的普通視覺推理任務。”以及MIT-IBM Watson AI Lab的MIT總監。“可以識別抽象事件的模型將提供更準確,邏輯上的預測,并且對決策更有用。”

    隨著深度神經網絡成為識別照片和視頻中的對象和動作的專家,研究人員將目光投向了下一個里程碑:抽象和訓練模型以推斷出所看到的東西。在一種方法中,研究人員將深網的模式匹配功能與符號程序的邏輯相結合,以教授一種模型來解釋場景中的復雜對象關系。在這里,研究人員利用另一種方法,利用嵌入詞義中的關系來賦予模型可視的推理能力。

    這項研究的合著者,麻省理工學院計算機科學與人工智能實驗室(CSAIL)的研究科學家Mathew Monfort說:“語言表示使我們能夠將從文本數據庫中學習到的上下文信息集成到我們的視覺模型中。” “奔跑”,“起重”和“拳擊”之類的詞共有一些共同特征,例如,與“駕駛”相比,它們與“鍛煉”的概念更緊密相關。

    研究人員使用WordNet(一個詞義數據庫),將Moments and Kinetics中每個動作類標簽與兩個數據集中其他標簽之間的關系映射。例如,“雕刻”,“雕刻”和“切割”等詞與“工藝”,“制作藝術”和“烹飪”等更高層次的概念相關。現在,當模型識別出雕刻等活動時,它可以從數據集中挑選出概念上相似的活動。

    這個抽象類的關系圖用于訓練模型執行兩個基本任務。給定一組視頻,該模型會為每個視頻創建一個數字表示,該數字表示與視頻中顯示的動作的單詞表示相一致。然后,抽象模塊組合為集合中的每個視頻生成的表示,以創建新的集合表示,該新的集合表示用于標識集合中所有視頻共享的抽象。

    為了了解該模型與人類相比的表現,研究人員要求人類受試者在線執行相同的視覺推理任務。令他們感到驚訝的是,該模型在許多情況下的表現都與人類一樣好,有時還會產生意外的結果。在設定完成任務的一種變體中,在觀看了有人包裹禮物并用膠帶覆蓋物品的視頻后,模型建議有人在海灘上將某人掩埋在沙子中的視頻。

    麻省理工學院的博士生卡米洛·福斯科說:“它實際上是在'覆蓋',但與其他片段的視覺特征卻大不相同。” “從概念上講,它是合適的,但我必須考慮一下。”

    該模型的局限性包括過分強調某些功能的趨勢。在一個案例中,它建議用一組嬰兒和一個球的視頻來完成一組體育視頻,顯然是將球與運動和比賽相關聯。

    研究人員說,可以訓練以更抽象地“思考”的深度學習模型可以用更少的數據進行學習。抽象也為更高層次,更像人類的推理鋪平了道路。

    Oliva說:“人類認知的一個標志就是我們有能力描述與其他事物相關的事物,以進行比較和對比。” “這是一種豐富而有效的學習方式,最終可以導致機器學習模型能夠理解類比,并且更接近與我們進行智能交流。”

  • 成人app