您現在的位置是:首頁 >要聞 > 2020-11-30 15:03:39 來源:
計算模型通過預測對語音進行解碼
大腦通過識別音節來分析口語。日內瓦大學(UNIGE)和不斷發展的語言國家能力研究中心(NCCR)的科學家設計了一種計算模型,該模型再現了中樞神經系統執行此操作的復雜機制。該模型匯集了兩個獨立的理論框架,使用等效于大腦活動產生的神經元振動來處理關聯語音的連續聲流。
該模型根據稱為預測編碼的理論運行,從而大腦通過不斷嘗試根據候選假設(此模型中的音節)預測感覺信號來優化感知。結果模型在《自然通訊》雜志上進行了描述,它幫助實時識別了以自然語言說出的數百個句子中包含的數千個音節。這已經證實了這樣的想法,即神經元振動可以用來協調我們聽到的音節的流動與大腦的預測。
UNIGE醫學院基礎神經科學系教授,不斷發展的語言NCCR聯合主任Anne-Lise Giraud說:“腦活動產生了可以用腦電圖測量的神經元振蕩。” 這些是電磁波,是由整個神經元網絡的相干電活動產生的。有幾種類型,根據它們的頻率定義。它們被稱為α,β,θ,δ或γ波。這些節奏單獨或疊加使用,與不同的認知功能相關,例如感知,記憶,注意力,機敏性等。
但是,神經科學家尚不知道他們是否積極參與這些功能以及如何發揮作用。在2015年發表的一項較早的研究中,Giraud教授的團隊表明,theta波(低頻)和gamma波(高頻)相互配合,對音節中的音流進行排序,并分析其內容,以便對其進行識別。
總部位于日內瓦的科學家基于這些生理節律開發了一種突跳的神經網絡計算機模型,該模型在現場(在線)音節排序方面的性能優于傳統的自動語音識別系統。
音節的節奏
在他們的第一個模型中,theta波(介于4赫茲和8赫茲之間)使得跟隨系統感知的音節節奏成為可能。伽馬波(大約30赫茲)用于將聽??覺信號切成較小的切片并進行編碼。這會產生一個鏈接到每個聲音序列的“音素”配置文件,可以將其與后一個音節進行比較,并與已知音節庫進行比較。這種類型的模型的優點之一是,它可以自發地適應語音速度,語音速度可能因人而異。