您現在的位置是:首頁 >要聞 > 2020-12-11 08:51:53 來源:
恢復圖像和視頻的丟失尺寸
導讀 麻省理工學院的研究人員開發了一種模型,該模型可以恢復因壓縮成較小尺寸的圖像和視頻而丟失的寶貴數據。該模型可用于從運動模糊圖像或新的
麻省理工學院的研究人員開發了一種模型,該模型可以恢復因“壓縮”成較小尺寸的圖像和視頻而丟失的寶貴數據。
該模型可用于從運動模糊圖像或新的攝像機中重新創建視頻,這些攝像機捕獲人在拐角處的運動,但只能作為模糊的一維線。盡管需要進行更多的測試,但研究人員認為這種方法有朝一日可以用于將2D醫學圖像轉換為內容更豐富(但價格更高)的3D身體掃描,這可以使貧窮國家的醫學成像受益。
“在所有這些情況下,視覺數據都在時間或空間上完全失去了一個維度,”計算機科學與人工智能實驗室(CSAIL)的博士后,最初描述該模型的論文的作者Guha Balakrishnan說,在下周的計算機視覺國際會議上將進行介紹。“如果我們恢復丟失的尺寸,它將具有許多重要的應用。”
捕獲的可視數據通常會將時間和空間的多個維度的數據折疊為一維或二維,稱為“投影”。例如,X射線將有關解剖結構的三維數據折疊成平面圖像。或者,考慮長時間曝光的恒星在天空中移動的鏡頭:位置隨時間變化的恒星在靜止鏡頭中顯示為模糊的條紋。
同樣,最近在麻省理工學院發明的“轉角攝像機”可以檢測到拐角處的人。例如,這些對于消防員在燃燒的建筑物中找到人可能有用。但是這些相機并非完全用戶友好。目前,它們僅產生類似于人的軌跡和速度的模糊,彎曲的線條的投影。
研究人員發明了“視覺投影”模型,該模型使用神經網絡來“學習”將低維投影與其原始高維圖像和視頻相匹配的模式。給定新的投影,該模型將使用所學的知識來重新創建投影中的所有原始數據。
在實驗中,該模型通過從與角落攝像機產生的相似的單個一維線中提取信息來合成顯示人走動的精確視頻幀。該模型還從流行的“移動MNIST”數據集中,通過單個,運動模糊的數字投影在屏幕周圍移動來恢復視頻幀。