您現在的位置是:首頁 >要聞 > 2020-11-13 09:01:09 來源:
通過挖掘人類測試人員來增強AI
人工智能的進步取決于對大量數據的持續測試。通過該基準測試,研究人員可以確定AI的“智能”程度,發現弱點,然后開發更強大,更智能的模型。
但是,該過程很耗時。當AI系統處理一系列計算機生成的任務并最終達到最佳性能時,研究人員必須回到圖紙上,設計更新,更復雜的項目,以進一步增強AI的性能。
Facebook本周宣布,它已經找到了更好的工具來執行此任務-人員。為了創建更好,更靈活的AI,它構建了Dynabench,該平臺利用人和計算機模型來收集數據和基準AI。
它依賴于稱為動態對抗性數據收集的程序,正如周四發布的Facebook白皮書所解釋的那樣,它“徹底地重新思考了AI基準測試”。
通過與自然語言處理模型進行對話,人們嘗試通過使用語言上具有挑戰性的問題來破壞程序。該程序可能會跳出具有挑戰性的詞匯或習慣用法,或者可能會誤解諷刺。人類的問題越有挑戰性,人工智能就越會學會在棘手的地形上導航。
Facebook解釋說:“它衡量了人類對AI系統的欺騙程度,這比當前的靜態基準更好地表明了模型的質量。” “最終,該指標將更好地反映最重要情況下的AI模型的性能:與人互動時,他們的行為和反應以復雜,變化的方式發生,而這些方式無法反映在一組固定的數據點中。”
實際上,最近的研究發現傳統的基準測試并不可靠,發現自然語言學習模型中提供的答案中有多達三分之二實際上不知不覺地嵌入了測試中,并且僅允許模型記住答案。
Facebook研究員Douwe Kiela說,依靠錯誤的基準會阻礙AI的增長。
Kiela說:“最終,您的系統在測試上要比人類更好,但在整體任務上卻沒有更好。” “這非常具有欺騙性,因為它使我們看上去比實際情況要遠得多。”
正如Facebook白皮書所指出的那樣,Dynabench指標“將在最重要的情況下更好地反映AI模型的性能:與人互動時,他們的行為方式和反應方式復雜而變化,而固定方式無法體現數據點集。”
華盛頓大學的AI研究人員強調,由于機器學習能夠熟練地檢測人類無法感知的數據集相關性,因此當前AI的基準測試已失真:這些機器正確回答了問題,但沒有必要的“理解”含義。
崔業珍說:“我們看到了漢斯的聰明處境。” 她指的是1907年的一則啟示,即一匹馬可以執行數學任務。實際上,一位心理學家發現這匹馬正在對訓練者的身體提示做出反應,該提示將動物提示了適當的反應。最有趣的是,這名心理學家得知培訓師實際上并沒有意識到糟糕的情況會導致他的非自愿線索被閱讀。該場景已被稱為“觀察者期望效應”或“聰明漢斯效應”。
同樣,Dynabench希望確保AI不僅響應意外提示。
通過在dynabench.org上與其自然語言處理模型進行對話,邀請公眾參與Dynabench項目。
“我們想讓AI社區相信有更好的方法來衡量進度,” Kiela說。“希望它將導致更快的進度,并更好地理解為什么機器學習模型仍然會失敗。”