• 您現在的位置是:首頁 >動態 > 2021-04-19 06:47:33 來源:

    Google AI技術可將語音識別錯誤降低29%

    導讀 這些天語音識別非常好。EdgeSpeechNet等最先進的模型在去年年底的研究論文中有詳細介紹,能夠達到97%%的準確率。但即便是最好的系統也會偶

    這些天語音識別非常好。EdgeSpeechNet等最先進的模型在去年年底的研究論文中有詳細介紹,能夠達到97%%的準確率。但即便是最好的系統也會偶然發現不常見的罕見詞匯。

    Google AI技術可將語音識別錯誤降低29%

    為了縮小差距,谷歌和加利福尼亞大學的科學家提出了一種方法,可以利用純文本數據訓練的拼寫校正模型。在預印本服務器Arxiv.org上發表的一篇論文(“ 用于端到端語音識別的拼寫校正模型 ”)中,他們報告說,在使用800字,960小時語言建模LibriSpeech數據集的實驗中,他們的技術顯示相對于基線,單詞錯誤率(WER)相對改善18.6%%。在某些情況下,它甚至可以減少29%%的錯誤。

    他們寫道:“目標是將一個受[文本]數據培訓的模塊納入端到端框架,目的是糾正系統所犯的錯誤。” “具體來說,我們使用文本到語音(TTS)系統調查使用不成對的......數據[生成]音頻信號,這個過程類似于機器翻譯中的反向翻譯。”

    正如本文作者所解釋的那樣,大多數自動語音識別(ASR)系統共同訓練三個組成部分:一個學習音頻信號與構成語音的語言單位之間關系的聲學模型,一個為單詞序列分配概率的語言模型,以及一種機制,用于對聲學幀和識別的符號進行對齊。所有這三者都使用單個神經網絡(在生物神經元之后建模的分層數學函數)和轉錄的音頻 - 文本對,因此,當語言模型遇到語料庫中不經常出現的單詞時,通常會遭受性能下降。

    然后,研究人員開始將上述拼寫校正模型納入ASR框架 - 一種將輸入和輸出句子解碼為稱為“詞組”的子詞單元的模型,它采用嵌入詞(即映射到向量的特征)實數)并將它們映射到更高級別的表示。他們使用純文本數據和使用文本到語音(TTS)系統(并行WaveNet)生成的相應合成音頻信號來訓練LAS 語音識別器,這是2017年Google Brain研究人員首次描述的端到端模型,然后創建一組TTS對。然后,他們“教導”拼寫糾正器糾正識別器通過給它們提供的潛在錯誤。

    為了驗證模型,研究人員訓練了一個語言模型,生成了一個TTS數據集來訓練LAS模型,并產生了錯誤假設來訓練拼寫校正模型,其中包含了來自LibriSpeech數據集的4000萬個文本序列,過濾掉了500,000個序列僅包含單字母單詞和短于90字的單詞。他們發現,通過糾正來自LAS的條目,語音校正模型可以生成具有“顯著”較低的字錯誤率的擴展輸出。

  • 成人app