您現在的位置是:首頁 >要聞 > 2020-12-19 08:32:20 來源:
再說一遍AI提供更清晰音頻的最新詞匯
導讀 如果您今年在家時一直在聽更多播客,則可能已經注意到虛擬對話增加的副作用:音頻質量下降。通過電話或視頻聊天進行的采訪通常包括背景噪音
如果您今年在家時一直在聽更多播客,則可能已經注意到虛擬對話增加的副作用:音頻質量下降。通過電話或視頻聊天進行的采訪通常包括背景噪音,混響和失真。
現在,普林斯頓大學研究人員部分開發的新方法可以改善COVID時代及以后的聆聽體驗。使用稱為深度學習的人工智能(AI)方法,該技術可以轉換低質量的人類語音錄音,從而接近錄音室錄制的聲音的清晰度和清晰度。
雖然其他基于AI的用于改善語音記錄的方法通常只解決音頻質量的一個方面,例如濾除背景噪聲或消除混響,但該方法更像是一種多合一的工具。最終,研究人員希望將其框架應用于完全自動化的實時語音增強。
計算機科學專業的研究生,論文的主要作者蘇佳琪說:“以前的方法主要集中在提高語音的清晰度上,但是這些方法可以使聆聽體驗更平坦,因此所得到的質量對于聆聽來說并不是那么好。描述了該方法,研究人員將其稱為HiFi-GAN。
HiFi-GAN使用人工神經網絡,這是深度學習的關鍵工具,可模仿生物神經元的互連架構。在該系統中,兩個獨立的網絡競爭以提高音頻質量。一個稱為生成器的網絡會產生語音的清理記錄。另一個網絡稱為鑒別器,它分析記錄以試圖確定它們是真實的錄音室質量的記錄還是已被發生器清除的音頻。這些生成對抗網絡(GAN)之間的競爭提高了該方法產生清晰音頻的能力。
產生者和歧視者網絡參與了一場軍備競賽。合著者,計算機科學教授亞當·芬克爾斯坦(Adam Finkelstein)說:“生成器的工作是試圖欺騙鑒別器。” “他們兩個人一路攀升,在訓練中每個人都變得越來越有效。完成這一過程后,您就可以扔掉鑒別器,而您所擁有的就是一個很棒的發生器。”