您現在的位置是:首頁 >科技 > 2022-08-10 23:56:21 來源:
IBM的電阻計算技術可以極大地加速人工智能的發展
隨著最近機器學習的快速發展,神經網絡的復興——計算機軟件通過使用分布在許多虛擬節點或“神經元”之間的復雜模式匹配過程,有點像人腦一樣解決問題。現代計算能力使神經網絡能夠識別圖像、語音和面部,以及駕駛自動駕駛汽車,并在Go和Jeopardy獲勝。大多數計算機科學家認為這只是最終可能的開始。不幸的是,我們用來訓練和運行神經網絡的硬件看起來幾乎不像它們的體系結構。這意味著訓練一個神經網絡來解決一個問題可能需要數天甚至數周的時間-即使是在一個計算集群上-然后需要大量的力量來解決問題,一旦他們被訓練。
IBM的研究人員希望通過完善另一項技術來改變這一切,就像神經網絡一樣,這項技術最初出現在幾十年前。松散地稱為電阻計算,其概念是具有模擬性質的計算單元,其實質很小,并且可以保留它們的歷史,以便它們可以在訓練過程中學習。用硬件加速神經網絡對IBM來說并不新鮮。它最近宣布將其部分True North芯片出售給勞倫斯國家實驗室進行AI研究。真北的設計是神經形態的,這意味著芯片大致近似于大腦的神經元和突觸結構。盡管它的慢時鐘速率為1千赫,True North可以非常有效地運行神經網絡,因為它有一百萬個微小的處理單元,每個處理單元都模仿一個神經元。
然而,到目前為止,像True North這樣的神經網絡加速器一直局限于部署神經網絡解決問題的部分。訓練-讓系統在測試數據集上對自己進行評分,然后調整參數(稱為權重),直到它取得成功的艱苦過程-仍然需要在傳統的計算機上進行。從CPU到GPU和定制硅的移動提高了性能,降低了所需的功耗,但這一過程仍然昂貴而耗時。這就是IBM研究人員Tayfun Gokmen和YuriVlasov的新工作。他們提出了一種新的芯片結構,利用電阻計算來創建數百萬個電阻處理單元(R PUs),可用于訓練和運行神經網絡。
電阻計算是一個很大的話題,但粗略地說,在IBM設計中,每個小處理單元(R PU)都模仿大腦中的突觸。它接收各種模擬輸入-以電壓的形式-并根據其過去的“經驗”使用它們的加權函數來決定將什么結果傳遞給下一組計算元素。突觸有一個令人困惑的,尚未完全理解的布局在大腦中,但芯片與電阻元素往往使它們整齊地組織在二維陣列。例如,IBM最近的工作顯示了如何組織4,096乘4,096數組的可能性。
由于電阻計算單元是專門的(與CPU或GPU核心相比),并且不需要將模擬轉換為數字信息,或者訪問它們自己以外的內存,所以它們可以快速并且消耗很少的功率。因此,理論上,一個復雜的神經網絡-就像用來識別自動駕駛汽車中的路標的神經網絡-可以通過將電阻計算元素專用于每個軟件描述的節點來直接建模。然而,由于RPU是不精確的-由于它們的模擬性質和它們的電路中的一定數量的噪聲-任何運行在它們上的算法都需要對不精確的固有的抗性計算元件進行抵抗。
傳統的神經網絡算法-無論是執行還是訓練-都是假設高精度的數字處理單元,可以很容易地調用任何需要的內存值。重寫它們,使每個本地節點能夠在很大程度上自己執行,并且不精確,但產生的結果仍然足夠準確,需要大量的軟件創新。
為了使這些新的軟件算法在規模上發揮作用,還需要在硬件方面取得進展。現有技術不足以創造“突觸”,這些“突觸”可以緊密地結合在一起,并在嘈雜的環境中以低功耗運行,從而使電阻處理成為現有方法的一種實用替代方案。運行時執行首先發生,在一臺混合電阻計算機上訓練神經網絡的邏輯直到2014年才開發出來。當時,匹茲堡大學和清華大學的研究人員聲稱,這樣的解決方案可能導致功率效率增加3到4級,而代價是精確度只有5%左右。
IBM的研究人員聲稱,基于RPU的設計將大大提高神經網絡應用的效率,如他們的論文中所示
這項來自IBM的新工作進一步推動了電阻計算的使用,假設一個系統幾乎所有的計算都是在RPU上完成的,傳統的電路只需要用于支持功能和輸入輸出。這種創新依賴于將一個版本的神經網絡訓練算法結合起來,該算法可以在基于RPU的體系結構上運行,并為可以運行它的RPU提供硬件規范。
到目前為止,電阻計算主要是一種理論結構。第一個電阻存儲器(RRAM)在2012年成為原型,預計在未來幾年內不會成為主流產品。而這些芯片,雖然有助于擴展內存系統,并顯示在計算中使用電阻技術的可行性,但并沒有解決類似突觸處理的問題。
所提出的RPU設計有望適應各種深度神經網絡(DNN)體系結構,包括完全連接和卷積,這使得它們在幾乎整個神經網絡應用領域具有潛在的實用價值。使用現有的CMOS技術,并假設RPU在4,096到4,096元素的瓷磚與80納秒的循環時間,其中一個瓷磚將能夠執行大約51GigaOps每秒,使用少量的功率。一個有100塊瓷磚和一個單一互補CPU核心的芯片可以處理一個高達160億重量的網絡,而只消耗22瓦(其中只有兩個實際上來自RPU-其余的來自CPU核心,需要幫助獲取數據進出芯片和提供整體控制)。
這是一個驚人的數字,相比之下,什么是可能的數據通過相對較少的核心在一個GPU(想想大約1600萬計算元素,而不是幾千)。研究人員使用密集填充這些RPU瓷磚的芯片,聲稱一旦建成,基于電阻計算的AI系統可以實現高達30,000倍的性能改進,與目前的體系結構相比,所有這些系統的功率效率都是每秒84,000GigaOps。如果這成為現實,我們可以在實現艾薩克·阿西莫夫對機器人Positronic大腦的幻想的道路上。