您現在的位置是:首頁 >動態 > 2021-04-10 20:36:30 來源:
IBM研究人員開發了一對低功耗高性能的計算機視覺系統
近年來,機器學習算法有了突飛猛進的發展。例如,像Facebook這樣的先進系統 可以在一小時內訓練圖像分類算法,而不會犧牲準確性。但是他們中的許多人都接受過具有強大GPU的高端機器的培訓,隨著物聯網(IoT)行業向邊緣計算發展,對低功耗人工智能(AI)模型的需求越來越大。
IBM的有前景的研究為更高效的算法奠定了基礎。在本周于猶他州鹽湖城舉行的2018年計算機視覺和模式識別會議上,該公司的研究科學家正在發表兩篇關于圖像分類的論文。
第一個標題為“ BlockDrop:殘余網絡中的動態干擾路徑 ”,建立在微軟2015年發布的殘余網絡工作的基礎上。殘留網絡(簡稱ResNets)引入了神經網絡中各層之間的身份連接,使他們能夠學習訓練過程中的增量或殘差表示。
IBM將這一想法更進一步。科學家們引入了一個輕量級的二級神經網絡 - 在本文中稱為“策略網絡” - 在預先訓練的ResNet中動態刪除了殘余塊。為了確保性能增益不以精確度為代價,政策網絡經過培訓,使用最少數量的塊并保持識別準確性。
“一般來說,如果你為模型添加更多層,你可以提高它的準確性,但是你會增加計算成本,”IBM研究經理Rogerio Feris在電話采訪中告訴VentureBeat。“今天大多數現有模型的一個問題是,你有一個適合所有人的網絡,其中相同的計算應用于所有圖像。[我們]系統更有效地分配資源,并且[可以]準確地識別圖像。“
BlockDrop平均加快了20%%的圖像分類,在某些情況下加快了36%%,同時保持76.4%%的準確度 - 與實驗的控制相同。
改善立體視覺
第二篇論文“ 低功耗,高吞吐量,基于全事件的立體聲系統 ”解決了圖像處理中的另一個問題:立體視覺。
正如IBM研究員Alexander Andreopoulos解釋的那樣,人類的眼睛彼此相距幾厘米,從不同的角度看世界。大腦的視覺皮層無縫地將來自雙眼的圖像合并為一個,使我們能夠感知深度,但是雙攝像機器人系統具有更難以協調差異的時間。
“在計算機視覺的情況下,相機鏡頭會出現異常,這會導致噪音并使問題復雜化,”Andreopoulos說。
研究人員的解決方案:運行在IBM的TrueNorth神經形態芯片上的系統,該芯片具有針對機器學習模型優化的高度并行化架構。使用一組九個處理器,一對基于事件的攝像頭(在檢測到運動時僅拍攝圖像的攝像頭),以及將計算分配到上述芯片的筆記本電腦,捕獲并處理400(最多2,000)每秒視差圖。
Andreopoulos解釋說,基于事件的攝像機的使用大大減少了帶寬和能源使用。“立體聲算法已經存在了30多年,但大多數這些系統......都采用積極的方法來感知世界。我們使用被動方法。
總體而言,與具有高幀率相機的最先進系統相比,該系統在每個視差圖的每像素功率方面表現出200倍的改進。
Andreopoulos說,這些結果為依賴于低功耗,低延遲深度信息的機器人系統帶來了前景。“[我想]它被用于老人的伴侶機器人...... [提供某種行動助力。