您現在的位置是:首頁 >要聞 > 2020-11-30 15:03:38 來源:
通過學習音樂家的肢體語言來識別旋律
導讀 我們用耳朵聽音樂,也用眼睛聽音樂,欣賞鋼琴演奏者的手指在琴鍵上飛舞,小提琴演奏者的弓弦越過琴弦。當耳朵無法分辨兩種樂器時,眼睛通常
我們用耳朵聽音樂,也用眼睛聽音樂,欣賞鋼琴演奏者的手指在琴鍵上飛舞,小提琴演奏者的弓弦越過琴弦。當耳朵無法分辨兩種樂器時,眼睛通常會通過將每個樂手的動作與每個聲部的節拍相匹配來進行調整。
MIT-IBM Watson AI Lab開發的一種新的人工智能工具利用計算機的虛擬眼睛和耳朵來分離相似的聲音,這些聲音即使對于人類也很難區分。該工具通過將各個音樂家的動作(通過其骨骼關鍵點)與各個部分的速度進行匹配來改進早期迭代,從而使聽眾可以在多個長笛或小提琴中隔離單個長笛或小提琴。
這項工作的潛在應用范圍包括混音,增加錄音中的樂器音量,以及減少導致人們在視頻會議通話中互相交談的混亂情況。這項工作將在本月的虛擬計算機視覺模式識別會議上進行介紹。
該研究的主要作者,該實驗室的IBM研究人員Chuang Gan說:“人體關鍵點提供了強大的結構信息。” “我們在這里使用它來提高AI收聽和分離聲音的能力。”
在這個項目以及其他類似項目中,研究人員已經利用同步音視頻軌道來重現人類的學習方式。通過多種感覺模式學習的AI系統可能能夠以更少的數據更快地學習,而無需人類為每個現實世界的表示添加討厭的標簽。麻省理工學院教授,??該研究的共同資深作者安東尼奧·托拉爾巴(Antonio Torralba)說:“我們從所有的感官中學習。“多傳感器處理是可以執行更復雜任務的嵌入式智能和AI系統的先驅。”