您現在的位置是:首頁 >財經 > 2021-04-25 19:17:26 來源:
Google開源人工智能可以區分語音準確率達92%
導讀 Diarization - 將語音樣本劃分為獨特的同類片段的過程,根據誰說什么,何時 - 對機器來說不像人類那樣容易,并且訓練機器學習算法來執
Diarization - 將語音樣本劃分為獨特的同類片段的過程,根據誰說什么,何時 - 對機器來說不像人類那樣容易,并且訓練機器學習算法來執行它比使用它更難聲音。強大的二值化系統必須能夠將新個體與之前未遇到的語音段相關聯。
但谷歌的人工智能研究部門已經朝著高性能模式取得了令人鼓舞的進展。在一篇新論文(“ 全監督演講者Diarization ”)和隨附的博客文章中,研究人員描述了一種新的人工智能(AI)系統,該系統“以更有效的方式利用受監督的揚聲器標簽”。
該論文的作者聲稱核心算法實現了對于實時應用程序而言足夠低的在線分類錯誤率(DER) - 在NIST SRE 2000 CALLHOME基準測試中為7.6%%,而谷歌之前的方法為8.8%%DER - 可在開放時使用Github上的源代碼。
谷歌研究人員的新方法通過遞歸神經網絡(RNN)模擬說話者的嵌入(即,單詞和短語的數學表示),RNN是一種機器學習模型,可以使用其內部狀態來處理輸入序列。每個發言者都以自己的RNN實例開始,該實例在給定新嵌入的情況下不斷更新RNN狀態,使系統能夠學習在發言者和話語之間共享的高級知識。
“由于該系統的所有組件都可以以監督的方式學習,因此在可以獲得帶有高質量時間標記的揚聲器標簽的訓練數據的情況下,它優于無監督系統,”研究人員在論文中寫道。“我們的系統受到全面監督,并且能夠從帶有時間標記的揚聲器標簽的示例中學習。”
在未來的工作中,團隊計劃優化模型,以便它可以集成上下文信息以執行離線解碼,他們期望這將進一步減少DER。他們還希望直接對聲學特征進行建模,以便整個揚聲器系統可以進行端到端的訓練。