您現在的位置是:首頁 >互聯網 > 2020-10-28 14:00:24 來源:
Google使其語音轉文字和文本轉語音服務更加準確和可訪問
Google LLC更加努力地推動其流行的Cloud Speech-to-Text和Text-to-Speech機器學習服務,為兩者添加新功能,并使大型企業更容易使用前者。
Google Cloud Speech-to-Text本質上是一項先進的轉錄服務,它依靠機器學習和其他人工智能技術來提高其準確性。Google產品經理Dan Aharon在今天的博客中說,這種對AI的依賴很重要,因為任何低于100%的準確性都會導致嚴重的錯誤,導致難以進行有用的對話。
但是Google自由地承認其語音轉文本并不總是完全準確的,因為使用它的許多應用程序都在“嘈雜的”電話線上運行,這可能使得難以準確地解釋人們在說什么。
“在創建智能語音應用程序時,語音識別的準確性至關重要,” Aharon說。“如下面的插圖所示,即使準確度達到90%,也很難進行有用的對話。”
為了解決這個問題,Google去年在Beta版中為選擇共享使用情況數據的客戶推出了高級版的語音轉文本功能,以幫助改進其算法。它們包括增強型電話模型和比其他模型電話會議有用的視頻模型,該電話模型比常規模型產生的轉錄錯誤少62%。
如今,Google正在向所有客戶(包括那些不想加入其數據記錄程序的客戶)普遍提供其高級模型。但是,不選擇加入該計劃是有代價的,因為選擇加入該計劃的人將為該服務少付33%的費用。
“我們還將高端視頻模型的價格降低了25%,對于選擇加入數據記錄的當前視頻模型客戶而言,總共節省了50%,” Aharon說。
Google還在語音轉文本中添加了一項稱為“多渠道識別”的新功能,該功能可以更好地區分對話中的不同人。
語音轉文本的高級模型已經被眾多企業采用,包括LogMeIn Inc.,該公司使用該服務在其流行的GoToMeeting應用程序上創建會議的筆錄。
文字轉語音的更多語音和語言
Google還更新了Text-to-Speech(文本到語音)功能,這與姐妹服務的功能恰好相反,將書面文本轉換為逼真的人類語音。這項服務越來越受到Google WaveNet技術的支持,并以更多語言提供。“由于對Google Cloud TPU(張量處理單元AI芯片)支持的WaveNet技術的獨特訪問,我們可以比業界中的典型更快,更輕松地構建新的聲音和語言。”
今天在Beta中引入的新語言包括丹麥語,挪威語,葡萄牙語,俄語,波蘭語,斯洛伐克語和烏克蘭語。這意味著“文字轉語音”現在總共支持21種語言。谷歌還向該服務添加了31種新的人工WaveNet語音,以及24種“標準”語音。
最后,Google在“文字轉語音”中添加了新的“設備配置文件”功能,該功能可以優化在各種硬件上的音頻播放。“例如,一些具有呼叫中心應用程序的客戶針對交互式語音響應進行了優化,而其他專注于內容和媒體的客戶針對耳機進行了優化,” Aharon說。“在每種情況下,音頻效果都是針對硬件定制的。”
Constellation Research Inc.的分析師Holger Mueller說,由于語音正在作為新的用戶界面迅速出現,因此更新令人信服,因此企業應該歡迎提高準確性和支持更多語言。
“谷歌不斷提供和改進,現在增加了對更好的易用性的支持,”穆勒說。“正在構建與語音相關的應用程序的CxO只需要將Google納入其啟用提供商的候選清單。”