• 您現在的位置是:首頁 >財經 > 2021-04-29 10:15:47 來源:

    谷歌宣布推出26種WaveNet語音的云文本轉語音

    導讀 如果您是Google Cloud客戶,他們正在使用該公司的人工智能(AI)套件來進行文字轉語音或語音轉文本服務,那么這是一個好消息:新功能正朝著

    如果您是Google Cloud客戶,他們正在使用該公司的人工智能(AI)套件來進行文字轉語音或語音轉文本服務,那么這是一個好消息:新功能正朝著您的方向發展。Mountain View公司今天宣布了這些方面的重大更新,包括云文本到語音的普遍可用性,優化聲音以便在不同設備上播放的新音頻配置文件,多聲道識別的增強功能等等。

    谷歌宣布推出26種WaveNet語音的云文本轉語音

    首先在列表中:改進了Google的云文本到語音轉換中的語音合成。從本周開始,它將提供多語言訪問使用WaveNet生成的語音,WaveNet是Alphabet子公司DeepMind開發的機器學習技術。如果不深入雜草潛水,它會模仿語音中的壓力和語調 - 語言學中稱為韻律的聲音 - 通過識別音調模式。除了比以前的型號產生更有說服力的語音片段之外,它還更高效 - 在Google的云TPU硬件上運行,WaveNet可以在50毫秒內生成一秒鐘的樣本。

    Cloud Text-to-Speech現在提供17種新的WaveNet語音,并支持14種語言和變體。總共有56種聲音:30種標準聲音和26種WaveNet聲音。(查看此網頁以獲取完整列表。)

    擴展的WaveNet支持并不是Cloud Text-to-Speech客戶唯一的新功能。以前在測試版中提供的音頻配置文件今天正在廣泛推出。

    簡而言之,音頻配置文件可讓您優化Cloud Text-to-Speech的API生成的語音,以便在不同類型的硬件上播放。例如,您可以為具有較小揚聲器的可穿戴設備創建配置文件,或者專門為汽車揚聲器和耳機創建配置文件。對于不支持特定頻率的設備,它特別方便; Cloud Text-to-Speech可以自動將超出范圍的音頻移至聽覺范圍內,從而提高其清晰度。

    “每個設備的物理特性以及它們所處的環境都會影響它們產生的頻率范圍和細節水平(例如,低音,高音和音量),”Google Cloud團隊在博客文章中寫道。“音頻樣本[由音頻配置文件產生]實際上可能聽起來比筆記本電腦揚聲器上的原始樣本更糟糕,但在電話線上聽起來會更好。”

    谷歌在7月份的谷歌云下一代開發者大會上宣布了一些新的云語音到文本功能,今天還有三個方面:多聲道識別,語言自動檢測和詞級置信度。

    通過自動表示每個單詞的單獨通道,多通道識別提供了一種簡單的方法來轉錄多個音頻通道。(Google指出,實現最佳轉錄質量通常需要使用多個頻道。)對于未單獨錄制的音頻樣本,Cloud Speech-to-Text提供了日記功能,它使用機器學習通過識別揚聲器標記每個單詞數。谷歌表示,標簽的準確性會隨著時間的推移而提高。

    這一切都很好,但如果你是一個擁有大量雙語用戶的開發人員呢?輸入語言自動檢測功能,可讓您在查詢云語音到文本時一次最多發送四個語言代碼。API將自動確定所說的語言并返回成績單,就像Google智能助理檢測語言并以實物形式響應一樣。(用戶還可以選擇手動選擇語言。)

    最后但并非最不重要的是,云語音到文本的前沿是詞級置信度,它為開發人員提供了對谷歌語音識別引擎的細粒度控制。如果您這樣選擇,您可以將置信度分數與應用程序中的觸發器相關聯 - 例如,如果用戶嘟m或說話過于輕柔,則會鼓勵用戶重復自我。

  • 成人app