您現在的位置是:首頁 >綜合 > 2021-04-25 21:35:36 來源:
亞馬遜的研究人員提高了Alexa理解復雜命令的能力
亞馬遜的Alexa在一次性理解多步驟請求方面變得越來越精通。在一篇論文(“口語協調的解析協調”)和今天早上發表的隨附博客文章中,Alexa AI組織的應用科學家Sanchit Agarwal詳細介紹了一種將語音命令映射到行為的口語理解(SLU)系統(意圖)和實體(插槽)比現成的替代品準確度高26%%。
Agarwal及其同事的工作將在本月晚些時候在希臘雅典舉行的IEEE口語技術會議上展出。亞馬遜科學家描述了一種可以將Alexa的技能選擇錯誤率降低40%%的AI驅動方法,這一天他們的研究消息傳來。
“狹義[SLU系統]通常有嚴格的約束,例如只允許一個意圖與話語相關聯,只有一個值與一個插槽類型相關聯,”他寫道。“我們[建議]一種方法,使SLU系統能夠理解復合實體和意圖。”
正如Agarwal解釋的那樣,他和同事們使用了一個深層神經網絡 - 稱為神經元的數學函數層,它們的生物學等價物是松散的模型 - 從口語數據的結構中“教導”。首先,根據指示應被視為集合的詞組或“塊”的方案來標記語料庫:“B”表示塊的開頭,“I”表示塊的內部,或者“O”表示位于大塊之外的單詞。然后,在訓練之前,單詞進行嵌入,這個過程涉及用向量代替它們來代表它們。
接下來將嵌入傳遞給雙向長短期記憶(bi-LSTM)網絡,這是一種能夠學習長期依賴性的遞歸神經網絡,其輸出輸入句子中每個單詞的上下文嵌入。這些輸出與神經網絡層相結合,神經網絡層將每個嵌入映射到輸出“B”,“I”和“O”標簽上的分布,根據其最可能的輸出標簽對輸入的每個字進行分類。
另一個層(稱為條件隨機字段或CRF)學會了在輸出標簽之間進行關聯,并從所有可能的序列中選擇最可能的標簽。感謝一種稱為對抗性訓練的技術 - 在此期間,網絡被評估其預測標簽的好壞程度 - 該模型學會了概括。
“我們不是為不同的插槽類型(例如ListItem,FoodItem,Appliance等)構建單獨的解析器,而是構建了一個可以處理多種插槽類型的解析器,”Agarwal說。“例如,我們的解析器可以成功識別話語中的[列表項目]'將蘋果花生醬和果凍添加到我的列表中'和[電器]在話語'打開客廳燈和廚房燈'。