您現在的位置是:首頁 >人工智能 > 2022-08-30 16:57:06 來源:
ROBEArray可以讓小公司訪問流行的人工智能形式
萊斯大學計算機科學家的一項突破性低內存技術可以讓小公司能夠接觸到資源最密集的人工智能形式之一——深度學習推薦模型(DLRM)。
DLRM推薦系統是一種流行的AI形式,它學習提出用戶認為相關的建議。但是,由于頂級訓練模型需要超過100TB的內存和超級計算機規模的處理能力,它們只提供給少數財力雄厚的科技巨頭。
Rice的“隨機偏移塊嵌入陣列”或ROBE陣列可以改變這一點。這是一種用于削減稱為嵌入表的DLRM內存結構大小的算法方法,它將于本周在加利福尼亞州圣克拉拉舉行的機器學習和系統會議(MLSys2022)上發表,并獲得了杰出論文榮譽。
AnshumaliShrivastava說:“僅使用100兆字節的內存和單個GPU,我們證明了我們可以匹配需要100兆字節內存和多個處理器的最先進DLRM訓練方法的訓練時間并將推理效率提高一倍。”,萊斯大學計算機科學副教授,他在MLSys2022上與ROBEArray的共同創造者AdityaDesai(Shrivastava研究小組的一名萊斯研究生)和萊斯大學前博士后研究員、現在在西德克薩斯州的LiChou一起展示這項研究農工大學。
“ROBEArray為DLRM壓縮設定了新的基準,”Shrivastava說。“它使無法使用高端硬件或無法訓練數百TB模型所需的工程專業知識的普通用戶能夠接觸到DLRM。”
DLRM系統是從數據中學習的機器學習算法。例如,一個為購物者推薦產品的推薦系統將使用來自過去交易的數據進行訓練,包括用戶提供的搜索詞、他們提供了哪些產品以及他們購買了哪些產品(如果有的話)。提高推薦準確性的一種方法是將訓練數據分類為更多類別。例如,公司可以為男士、女士和兒童洗發水創建類別,而不是將所有洗發水放在一個類別中。
對于訓練,這些分類表示被組織在稱為嵌入表的內存結構中,Desai表示,由于分類的增加,這些表的大小“已經爆炸式增長”。
“嵌入表現在占DLRM模型總內存占用的99.9%以上,”Desai說。“這會導致許多問題。例如,它們不能以純粹的并行方式進行訓練,因為模型必須被分解成多個部分并分布在多個訓練節點和GPU上。并且在它們經過訓練并投入生產之后,在嵌入式表格中查找信息約占向用戶返回建議所需時間的80%。”
Shrivastava說,ROBEArray通過使用一種稱為散列的數據索引方法來創建“一個學習參數的單一數組,它是嵌入表的壓縮表示”,從而消除了存儲嵌入表的需要。他說,然后可以“使用GPU友好的通用哈希”從陣列中訪問嵌入信息。
Shrivastava、Desai和Chou使用廣受歡迎的DLRMMLPerf基準測試了ROBEArray,該基準測量系統可以多快地將模型訓練到目標質量指標。使用許多基準數據集,他們發現ROBEArray在訓練精度方面可以匹配或超過先前發布的DLRM技術,即使在將模型壓縮三個數量級之后也是如此。
“我們的結果清楚地表明,大多數深度學習基準可以被基本算法完全推翻,”Shrivastava說。“鑒于全球芯片短缺,這對人工智能的未來來說是個好消息。”
ROBEArray并不是Shrivastava在MLSys的第一次大轟動。在MLSys2020上,他的團隊推出了SLIDE,這是一種“亞線性深度學習引擎”,可在商用CPU上運行,性能優于基于GPU的訓練器。他們在MLSys2021上跟進,展示了矢量化和內存優化加速器可以提高SLIDE的性能,使其訓練深度神經網絡的速度比頂級GPU系統快15倍。