您現在的位置是:首頁 >動態 > 2021-04-08 08:54:31 來源:
研究人員開發了97%準確的離線語音識別
通常,語音識別的深度學習方法 - 采用神經元模擬數學函數層來解析人類語音的系統 - 依靠強大的遠程服務器進行大量處理。但是,滑鐵盧大學和創業公司DarwinAI的研究人員聲稱已經開創了一種設計語音識別網絡的策略,該策略不僅能夠達到最先進的精度,而且能夠生成足夠強大的模型,以便在低端智能手機上運行。
他們在預印本服務器Arxiv.org上發表的論文中描述了他們的方法(“ EdgeSpeechNets:用于邊緣語音識別的高效深度神經網絡 ”)。它建立在亞馬遜的Alexa機器學習團隊的基礎之上,該團隊在今年早些時候開發了可在本地執行的導航,溫度控制和音樂播放算法; 高通公司在5月聲稱已經創建了95%%準確的設備上語音識別模型; 愛爾蘭都柏林創業公司Voysis于9月宣布推出用于移動設備的離線WaveNet語音模型; 和英特爾。
“在這項研究中,我們探索了一種人機協同設計策略,用于通過人為驅動的原理網絡設計原型和機器驅動設計探索的結合,構建用于語音識別的低占用空間[深度神經網絡]架構,”研究人員寫道。“通過設計一系列高效的[深度神經網絡](昵稱為Ed??geSpeechNets)來限制詞匯識別,證明了這種設計策略的有效性。”
該團隊首先構建了一個原型,該原型執行有限詞匯量的語音識別或關鍵詞識別 - 能夠從語音流中快速識別特定關鍵詞。然后他們決定采用一種設計方法,將音頻信號轉換為稱為梅爾頻率倒譜系數的數學表示,利用深度殘差學習來獲得比傳統技術更大的“更強的表現能力”。
接下來,他們開始進行生成綜合,這是一種機器驅動的設計策略,可以構建深度神經網絡,并強調性能。在這種情況下,研究人員使用了一種配置,確保語音模型的驗證準確度至少達到95%%。
為了評估生產的EdgeSpeechNets的性能,該團隊使用了Google Speech Commands數據集,這是一個包含65,000個一秒鐘30個短字樣本和背景噪聲樣本的數據集。
其中一個型號 - EdgeSpeechNet-A - 與最先進的語音識別模型(res15)相比,精度提高了1%%,同時要求的處理能力顯著降低。此外,它的測試精度達到了97%%,優于之前公布的結果。
另一款型號 - EdgeSpeechNet-D - 搭載摩托羅拉Moto E手機的1.4GHz Cortex-A53處理器,預測延遲為34毫秒,內存占用小于1MB - 延遲減少10倍,內存占用比上述減少16.5%%最先進的神經網絡。
另一個模型 - EdgeSpeechNet-C,其中最小的一個 - 比最先進的設備具有更高的精度,減少了7.8個參數(用于控制訓練過程的某些屬性的函數參數)和10.7個乘法加法運算。
研究人員寫道:“...... EdgeSpeechNets在更小的尺寸下具有更高的精度,而且計算成本低于最先進的深度神經網絡。” “這些結果表明,EdgeSpeechNets能夠實現最先進的性能,同時仍然明顯更小,并且需要的計算量更少,因此非常適合于設備邊緣語音接口應用。”
在未來的工作中,他們計劃將人機協同深度神經網絡設計策略應用于視覺感知和自然語言處理等領域。