• 您現在的位置是:首頁 >互聯網 > 2020-10-28 11:12:33 來源:

    Google在Pixel手機上首次推出了微型實時語音識別AI

    導讀 Google LLC開發了一種小型化的神經網絡,該網絡小而高效,足以直接在移動設備上執行語音識別(通常是硬件密集型任務)。該技術今天在該公司

    Google LLC開發了一種小型化的神經網絡,該網絡小而高效,足以直接在移動設備上執行語音識別(通常是硬件密集型任務)。

    該技術今天在該公司的Pixel智能手機上首次亮相。Google已將其部署到其Gboard虛擬鍵盤應用程序中,作為更新的一部分,該更新將使內置語音命令功能在設備無法訪問互聯網時可用。

    以前,該功能需要穩定的連接才能正常工作,因為該應用程序將許多計算繁重的工作轉移到了云端。這對于使用人工智能處理語音的其他服務仍然是必需的。原因是將語音轉換為文本通常需要幾個不同的軟件組件,這些組件太復雜而無法在手機上運行。

    在 博客中,谷歌研究員約翰·范斯卡爾奎克說Gboard的先前重復使用了不下三個獨立的AI模式。第一個負責將原始音頻組織成音素(最小的口頭語言),而第二個負責將這些音素拼合成單詞。然后將數據饋送到輸出完整短語的AI。

    Google設法將這三個模型整合為一個神經網絡,從頭到尾處理整個過程。而且,AI在用戶講話時實時處理語音。

    “該模型在字符級別起作用,因此,在您講話時,它會逐個字符地輸出單詞,就像有人實時鍵入您所說的話一樣,完全符合您希望通過鍵盤聽寫的內容系統”,Google的Schalkwyk寫道。

    除了簡化語音識別工作流程之外,這家搜索巨頭還縮小了Gboard的解碼器圖,后者是負責協調整個過程的關鍵組件。Google將其大小減少了25倍,從該應用程序的先前版本中的2 GB減少到了80 MB。

    該公司認為,隨著時間的流逝,該技術可能會超越Gboard應用于其他應用程序和用例。Schalkwyk寫道:“鑒于行業的趨勢,隨著專用硬件和算法改進的融合,我們希望此處介紹的技術能很快在更多語言和更廣泛的應用領域中采用。”

  • 成人app