您現在的位置是:首頁 >動態 > 2021-04-09 08:58:45 來源:
亞馬遜科學家解釋了Alexa的耳語模式是如何工作
上周在亞馬遜舉行的一次活動中,亞馬遜推出了一系列功能,這些功能將通過其Alexa語音平臺推向新的和現有的智能揚聲器。其中一個是“低語模式”,這使得Alexa能夠通過竊竊私語來回應低聲說話。在今天發表的博客文章中,亞馬遜Alexa演講組的演講科學家Zeynab Raeesy透露了該功能的人工智能(AI)基礎。
大部分工作都在一篇論文(“基于LSTM的耳語檢測”)中詳細介紹,該論文將于12月在IEEE口語技術研討會上發表。
“如果你在一個孩子剛剛入睡的房間里,而其他人走進來,你可能會開始低聲說話,表明你正試圖讓房間保持安靜。另一個人也可能開始竊竊私語,“Raeesy寫道。“我們希望Alexa以這種自然,直觀的方式對會話線索做出反應。”
Raeesy解釋說,使低語言難以解釋的原因在于它主要是清音 - 也就是說,它不涉及聲帶的振動。與普通語音相比,它在低頻帶中往往具有更少的能量。
她和同事研究了兩種不同神經網絡的使用 - 數學函數層在人類大腦的神經元之后松散地建模 - 以區分正常和低聲的單詞。
兩個神經網絡在架構上存在差異 - 一個是 多層感知器(MLP),第二個是長期短期記憶(LSTM)網絡,它按順序處理輸入 - 但是在相同的數據上進行訓練。所述數據包括(1)對數濾波器組能量,或記錄不同頻率范圍內的信號能量的語音信號的表示,以及(2)“利用”低聲和正常語音之間的信號差異的一組特征。 “。
在測試中,他們發現LSTM通常比MLP表現更好,具有許多優點。正如Raeesy所解釋的那樣,Alexa的語音識別引擎的其他組件完全依賴于日志過濾器 - 銀行能量,并且為不同的組件提供相同的輸入數據使整個系統更加緊湊。
然而,這并非一帆風順 - 至少在最初階段。因為Alexa通過短暫的沉默(一種稱為“結束指向”的技術)識別命令的結束或回復,LSTM的信心傾向于朝著話語的尾端下降。為了解決這個問題,研究人員對整個話語的LSTM輸出進行了平均分析。最后,丟棄最后1.25秒的語音數據對于保持性能至關重要。