您現在的位置是:首頁 >互聯網 > 2020-10-22 11:10:51 來源:
亞馬遜的語音合成服務Polly獲得了新聞播音員般的聲音
亞馬遜網絡服務公司(Amazon Web Services Inc.)正在接管Google LLC的人聲復制功能,今天為亞馬遜波利(Amazon Polly)添加了兩項新功能,這是一項基于云的服務,可將文本轉換為逼真的語音,并用于創建可以通話的應用程序。
新功能的第一個功能稱為“神經文本語音轉換”,亞馬遜表示,該功能通過增強合成語音的“自然”和“表現力”,在語音質量上實現“顯著改善”。
關于神經文本語音轉換的一大優點是,由于亞馬遜去年在研究論文中提到的一種新的人工智能模型,它只需訓練幾個小時就可以學習新的口語風格。該模型通過將大量標準的中立語音與目標說話風格的幾個小時的其他語音數據相結合而起作用。可以根據需要添加新的補充數據,以創建各種其他語音樣式。
AWS傳福音者朱利安·西蒙(Julien Simon)在博客中寫道,使用Neural-Text-To-Speech的基本算法,亞馬遜創建了第二個新功能,這是新聞播音員式的聲音,使敘事聲音在閱讀新聞和類似內容時“更加逼真”。發布。
西蒙說:“語音質量當然很重要,但是要使合成語音更加逼真和引人入勝,還可以做更多的工作。” “風格呢?可以肯定的是,人耳可以分辨出新聞廣播,體育廣播,大學課程等等之間的區別。實際上,大多數人在正確的語境中采用正確的言語風格,這無疑有助于傳達他們的信息。”
西蒙說,包括“環球郵報”,“大不列顛百科全書”和TIM Media在內的組織已經在使用Polly的新聞廣播風格。此功能也已引入支持Amazon Alexa的設備,該設備用于敘述每日新聞簡報和類似內容。
亞馬遜表示,新聞播音員風格有兩種英語配音,而“神經文本語音轉換”有11種配音,其中包括三種英國英語配音和八種美國配音。所有聲音均實時且以批處理模式工作,并且可以從亞馬遜的美國東部(弗吉尼亞北部),美國西部(俄勒岡)和歐洲(愛爾蘭)AWS地區訪問。
Constellation Research Inc.分析師Holger Mueller表示,Amazon Polly的更新表明,所有主要的平臺即服務公司總體上都對聊天機器人和對話界面越來越重視,因為這些平臺正在迅速改變客戶和員工的體驗。
“憑借這些新功能,亞馬遜專注于對話平臺的三個重要部分之一,即語音輸出,”穆勒說。“它在制作軟件創建的語音方面取得了令人印象深刻的進步,但我們必須看到企業采用新功能的速度如何。”
Amazon Polly與 Google的Text-to-Speech服務相抗衡,后者由其WaveNet框架提供支持,目前提供21種語言的57種語音樣式。微軟公司還提供了一種類似的服務,稱為Azure語音服務API,它提供75種標準語音和3種AI生成的語音。