您現在的位置是:首頁 >互聯網 > 2020-11-02 11:44:50 來源:
亞馬遜已經建立了一個人工智能系統可以訓練機器人像新聞閱讀器一樣說話
Amazon.com Inc.提出了一個新的人工智能系統,該系統可以訓練Alexa等數字語音助手來學習新的講話方式,例如類似于新聞閱讀器,只需幾個小時。
亞馬遜應用科學經理特雷弗·伍德(Trevor Wood)在今天的博客文章中說,新的文本語音轉換系統可以代替傳統的語音訓練方法,后者通常要求演員以目標風格說話數十小時才能訓練模型。
“對于用戶來說,由神經網絡產生的合成語音聽起來比通過級聯方法產生的語音自然得多,級聯方法將存儲在音頻數據庫中的簡短語音片段串在一起,”伍德寫道。“隨著[我們的系統]提供的更高的靈活性,我們可以輕松地改變合成語音的說話方式。”
亞馬遜將其新模式稱為“神經文本語音轉換”或NTTS,稱其有兩個關鍵組成部分。一個是“生成神經網絡”,其工作原理是將音素序列轉換成聲譜圖序列,這些音素序列是將一個單詞與另一個單詞區分開的獨特聲音單元。由于它們隨時間變化,因此它們又是這些聲音的頻譜的視覺表示。伍德說,聲譜圖“強調人腦在處理語音時所使用的功能”。
另一個組件稱為“聲碼器”,它有助于將這些頻譜圖轉換為用于訓練文本到語音模型的連續音頻信號。
Wood的博客文章中詳細介紹了復雜的技術過程,但最重要的是,它似乎運行良好。新的訓練方法可以將神經文本語音轉換語音數據與幾個小時的補充數據結合起來,以產生一個模型,該模型可以區分特定于特定說話風格的獨特語音元素。
伍德寫道:“當在操作過程中以口語風格的代碼呈現時,網絡會預測適合該風格的韻律模式,并將其應用于單獨生成的,與風格無關的表示形式。” “通過較少的額外培訓數據即可獲得高質量,從而可以快速擴展說話風格。”
伍德說:“偏愛中性風格的NTTS反映了由于神經生成方法而引起的普遍語音合成質量的廣泛報道。” “ NTTS新聞播音員語音的進一步改進反映了我們系統捕獲與文本相關的樣式的能力。”
亞馬遜已經發布了一系列有關其研究的白皮書,可在此處,此處和此處找到。