您現在的位置是:首頁 >要聞 > 2020-11-29 08:35:44 來源:
為機器學習啟用更公平的數據集群
CSE研究人員最近發表的研究可以使訓練機器學習(ML)模型更公平,更快速。Mosharaf Chowdhury教授和美國石溪大學的一個團隊通過使用一種名為AlloX的工具,開發了一種新的方式來公平地調度數據中心中的大量ML作業,這些數據中心使用多種不同類型的計算硬件,例如CPU,GPU和專用加速器。隨著這些所謂的異構集群逐漸成為常態,像AlloX這樣的公平調度系統將成為其高效運營所必需的。
該項目是Chowdhury實驗室的新步驟,該實驗室最近發布了許多工具,旨在加快ML模型的訓練和測試過程。他們過去的項目Tiresias和Salus加速了多種規模的GPU資源共享:既在單個GPU(Salus)內,又在群集中的多個GPU(Tiresias)之間。
但是,AlloX解決了異構集群,該集群帶來了一個新問題:不同的硬件最適合不同類型的計算任務。盡管期望與數據集群的工作總是有差異,但是對于給定的工作,哪種硬件最合適也有所不同。
多種不同類型的硬件可能能夠運行一個給定的模型,但是根據其計算特性,每個模型可以具有截然不同的速度。如果需要大量的順序執行,那么GPU不太適合,但是如果它嚴重依賴矩陣乘法,則CPU不能很好地工作。隨著新加速器的不斷開發,不同的通用操作總是在尋找更好的選擇來快速執行。
Chowdhury說:“每個工作負載都有其獨特的特性,可以使獨特的加速器發光。這就是為什么架構研究人員正在構建如此多的新加速器的原因。”
這種不匹配的硬件提出了數據集群公平性問題的新方面。在工作量持續不斷的情況下,調度程序不僅必須尋找最佳的平均運行時間來保持中心運行,而且還必須尋找不會隨意拖延某些工作以追求整體性能的計劃。按照Chowdhury的說法,計算能力的分布可為不同的個人用戶帶來廣泛不同的性能結果。
他說:“如果集群不公平,那么某些人將受到太多懲罰,他們的計算時間將任意增加。”