您現在的位置是:首頁 >人工智能 > 2022-07-12 17:19:54 來源:
首款使用深度學習清除通話的無線耳塞
這一經歷啟發了華盛頓大學的三名研究人員(他們在大流行期間是室友)開發出更好的耳塞。為了增強說話者的聲音并減少背景噪音,“ClearBuds”使用了一種新穎的麥克風系統和首批在智能手機上實時運行和運行的機器學習系統之一。
研究人員于6月30日在ACM移動系統、應用和服務國際會議上介紹了這個項目。
“ClearBuds在兩個關鍵方面將自己與其他無線耳塞區分開來,”PaulG.Allen計算機科學與工程學院的博士生MaruchiKim說。“首先,ClearBuds使用雙麥克風陣列。每個耳塞中的麥克風創建兩個同步的音頻流,提供信息并允許我們以更高的分辨率在空間上分離來自不同方向的聲音。其次,輕量級神經網絡進一步增強了說話者的聲音。”
雖然大多數商用耳塞的每個耳塞上都有麥克風,但一次只有一個耳塞主動向手機發送音頻。使用ClearBuds,每個耳塞都會向手機發送音頻流。研究人員設計了藍牙網絡協議,允許這些流在70微秒內相互同步。
該團隊的神經網絡算法在手機上運行以處理音頻流。首先,它抑制任何非語音聲音。然后它會隔離并增強同時從兩個耳塞傳入的任何噪音——說話者的聲音。
“由于說話者的聲音離兩個耳塞很近且距離大致相等,因此可以訓練神經網絡只關注他們的語音并消除包括其他聲音在內的背景聲音,”該研究的共同主要作者、博士生IshanChatterjee說。艾倫學校。“這種方法與你自己的耳朵的工作方式非常相似。它們利用聲音傳入左右耳的時間差來確定聲音來自哪個方向。”
當研究人員將ClearBuds與AppleAirPodsPro進行比較時,ClearBuds的表現更好,在所有測試中實現了更高的信號失真比。
“考慮到我們的神經網絡必須在不到20毫秒的時間內在iPhone上運行,與通常用于運行神經網絡的大型商用顯卡相比,iPhone的計算能力只是其一小部分,這非常了不起,”說共同主要作者VivekJayaram,艾倫學院的博士生。“這是我們在本文中必須解決的挑戰的一部分:我們如何采用傳統的神經網絡并減小其大小,同時保持輸出質量?”
該團隊還“在野外”測試了ClearBuds,方法是記錄八個人在嘈雜的環境中閱讀古騰堡計劃,例如咖啡店或繁忙的街道。然后,研究人員讓37人對這些錄音的10到60秒剪輯進行評分。參與者將通過ClearBuds神經網絡處理的剪輯評為具有最佳噪聲抑制和最佳整體聆聽體驗。
研究人員表示,ClearBuds的一個限制是人們必須同時佩戴兩個耳塞才能獲得降噪體驗。
但該團隊表示,這里開發的實時通信系統可用于各種其他應用,包括智能家居揚聲器、跟蹤機器人位置或搜索和救援任務。
該團隊目前正在努力提高神經網絡算法的效率,以便它們可以在耳塞上運行。