您現在的位置是:首頁 >財經 > 2021-04-29 22:02:14 來源:
麻省理工學院的PixelPlayer可以使用AI隔離樂器的聲音
均衡器是用你喜愛的曲調提升低音的一種方法,但麻省理工學院計算機科學與人工智能實驗室(CSAIL)的研究人員有更好的解決方案。他們的系統--PixelPlayer--使用人工智能來區分和隔離樂器的聲音,并使它們更響亮或更柔和。
經過全面訓練的PixelPlayer系統,以視頻作為輸入,分離伴隨音頻并識別聲音源,然后計算圖像中每個像素的音量并“空間定位”它 - 即識別剪輯中的區域產生類似的聲波。
詳情見“ 像素之聲 ”,即將于9月在德國慕尼黑舉行的歐洲計算機視覺會議上接受的一篇新論文。
“我們期待一個最好的情況,我們可以識別出哪種樂器會發出哪種聲音,”CSAIL的博士生和該論文的共同作者Hang Zhao說。“我們很驚訝我們實際上可以在像素級別空間定位儀器。能夠做到這一點開辟了許多可能性,例如只需點擊一下視頻即可編輯各個樂器的音軌音頻。
PixelPlayer的核心是一個在MUSIC(儀器組合的多模態源)上訓練的神經網絡,這是一個由YouTube提供的714個未經修改的,未標記的視頻數據集。(500個視頻 - 60個小時的價值 - 被用于訓練,其余用于驗證和測試。)在訓練過程中,研究人員用演奏聲學吉他,大提琴,單簧管,長笛,和其他工具。
它只是PixelPlayer多管機器學習框架的一部分。在經過訓練的視頻分析算法從剪輯的幀中提取視覺特征之后,第二個神經網絡 - 音頻分析網絡 - 將聲音分成組件并從中提取特征。最后,音頻合成器網絡使用來自兩個網絡的輸出來將特定像素與聲波相關聯。
PixelPlayer完全是自我監督的,這意味著它不需要人類注釋數據,并且能夠識別超過20種樂器的聲音。(趙說,一個更大的數據集將允許它識別更多,但它將難以處理儀器的子類之間的微妙差異。)它還可以識別音樂的元素,如小提琴的諧波頻率。
研究人員認為PixelPlayer可以幫助進行聲音編輯,或者用于機器人以更好地理解動物,車輛和其他物體所產生的環境聲音。
他們寫道:“我們希望我們的工作可以開辟新的研究途徑,通過視覺和聽覺信號來理解聲源分離的問題。