您現在的位置是:首頁 >互聯網 > 2020-11-09 14:10:51 來源:
Google通過針對云語音到文本的新培訓模型來改善轉錄
Google LLC拒絕放棄人工智能方面的工作。在今天的最新更新中,這家網絡巨頭宣布對其流行的云語音應用程序編程接口進行了一些重大更改。
谷歌表示,它正在將Cloud Speech API重命名為“ Cloud Speech-to-Text ”,以幫助將其標識為實際服務,而不是開發人員可以使用的工具。該服務本身還獲得了許多新的增強功能,這些功能應有助于提高其作為企業和其他用戶的轉錄輔助工具的可靠性。
更智能的模型
公告是由Google Cloud AI產品經理Dan Aharon在博客中發布的,他說很多重點是提高Cloud Speech-to-Text的電話和視頻通話轉錄功能。為此,Aharon和他的團隊引入了專門針對這些媒介的新模型。用戶現在可以為每種情況選擇最合適的模型,而以前的API會自動執行此操作。
增強的“電話呼叫模型”在構建時特別考慮了隱私,這意味著在創建過程中使用的數千小時的培訓數據集是Google企業客戶自愿提供的。Google認為,新模式可確保在轉錄電話對話時的錯誤比以前的基本phone_call模式減少54%。
還有一種針對視頻通話情況的新模型,該模型基于YouTube使用的機器學習技術為其視頻提供字幕。在這種情況下,Google聲稱與以前的模型相比,錯誤減少了64%。
Aharon說,增強的phone_call和高價視頻模型現在都可以用于美國英語轉錄,并且很快將用于其他語言。“我們還將繼續提供現有的語音command_and_search模型以及長格式轉錄的默認模型。”
Google在此處免費提供了Cloud Speech-to-Text的新模型的演示。
輕松閱讀
除了改進的模型之外,Cloud Speech-to-Text現在可以首次處理標點,盡管僅在beta中。正如Aharon在其帖子中所承認的那樣,“很難對轉錄的語音進行適當的標點插入”,但是該公司認為,通過創建一個稱為長期短期記憶神經網絡的東西(通過添加逗號,句號和問號)來解決該問題,在句子上。
最終,Google希望其用戶通過為轉錄的音頻和視頻提供識別元數據來幫助改善Cloud Speech-to-Text。這個想法是,用戶將能夠根據他們所包含的內容類型來標記音頻和視頻記錄。標簽的示例可能是“購物應用程序的語音命令”或“籃球體育電視節目”。然后,這些數據將跨用戶匯總,以告知Google未來更新的重點。
谷歌表示,目前所有型號的云語音轉文本價格為每15秒十分之一美分,而視頻型號的價格為每15秒1.2美分,是后者的兩倍。