您現在的位置是:首頁 >動態 > 2021-04-19 17:04:10 來源:
亞馬遜團隊利用數百萬的Alexa互動來降低NLP錯誤率
開發一個能夠理解自然語言的AI系統不僅耗時 - 而且非常昂貴。開發人員必須收集數千個語音樣本并手動注釋,這個過程通常需要數周時間。這就是為什么亞馬遜的Alexa部門的研究人員追求轉移學習,它利用神經網絡 - 即模仿大腦中神經元的數學函數層 - 在先前注釋的樣本的大型數據集上訓練,以便在具有稀疏數據的新域中進行訓練。
在一篇新發表的論文(“智能代理中的語言無意識轉移學習”)中,Alexa AI科學家描述了一種技術,可以利用亞馬遜語音助手的數百萬次無注釋的交互,將錯誤減少8%%。他們將在今年晚些時候在夏威夷檀香山的人工智能促進協會(AAAI)展示他們的勞動成果。
這些相互作用用于訓練AI系統以生成嵌入 - 單詞的數字表示 - 使得具有相似功能的單詞緊密地組合在一起。正如Alexa AI的應用科學家Anuj Goyal和該研究的共同作者所解釋的那樣,嵌入傾向于通過與其他詞語“共現”來組合詞 - 也就是說,它們以特定順序彼此并排出現的頻率。
“兩個詞共同出現的詞越多,它們在嵌入空間中就越接近,”Goyal在一篇博客文章中寫道。“嵌入因此捕獲關于單詞的語義相似性的信息,而不需要人類對訓練數據的注釋。”
嵌入基于一種稱為嵌入式語言模型(ELMo)的方案,簡化為使其足夠有效地用于像Alexa這樣的實時系統。獨特的是,研究人員的變體是上下文敏感的 - 像“樹皮”這樣的詞在“狗的樹皮響亮”和“樹的樹皮很硬”中接受不同的嵌入。
在測試中,Alexa研究人員將ELMo及其優化版本(稱為ELMo Light(ELMoL))與未使用嵌入方案的網絡進行了比較。通過ELMo和ELMoL,他們對Alexa的2.5億個未注釋請求進行了嵌入層培訓,并對現有的Alexa服務使用了另外400萬個帶注釋的請求,以便在兩個標準的自然語言處理任務上訓練所有三個網絡。具體而言,網絡的任務是(1)意圖分類,或確定Alexa客戶想要執行的操作,以及(2)插槽標記,或確定應采取的操作實體。
一旦網絡經過培訓,就會對有限數據進行再培訓,以執行新任務。使用ELMo嵌入的網絡表現最佳,ELMoL網絡緊隨其后。(上述8%%的錯誤減少是通過100到500個訓練樣例實現的。)
“當最終再培訓的數據量 - 轉移學習步驟 - 很小時,這些改進是最大的,”Goyal寫道。“但這恰恰是轉學的最有用的背景。”
今天的新聞采用了一種技術,可以提高Alexa 一次性理解多步驟命令的能力,并且在亞馬遜科學家描述一種可以將Alexa技能選擇錯誤率降低40%%的AI驅動方法的幾個月之后 。