您現在的位置是:首頁 >要聞 > 2020-12-14 08:19:30 來源:
AI系統可最佳地在數千臺服務器之間分配工作負載
麻省理工學院的研究人員開發的新型系統可以自動“學習”如何在數千臺服務器上調度數據處理操作,而這通常是由不精確的人工設計算法完成的任務。這樣做可以幫助當今耗電的數據中心更加高效地運行。
數據中心可以包含數以萬計的服務器,這些服務器不斷運行來自開發人員和用戶的數據處理任務。群集調度算法可實時跨服務器分配傳入的任務,以有效利用所有可用的計算資源并快速完成工作。
然而,傳統上,人們會基于一些基本準則(“策略”)和各種折衷來微調那些調度算法。例如,他們可以對算法進行編碼,以快速完成某些任務,或者在任務之間平均分配資源。但是工作負載(意味著組合任務的組)各種各樣。因此,人類幾乎不可能針對特定的工作負荷優化其調度算法,因此,他們常常無法發揮其真正的效率潛力。
麻省理工學院的研究人員將所有的手動編碼卸載到了機器上。在SIGCOMM上發表的一篇論文中,他們描述了一種利用“強化學習”(RL)(一種反復試驗的機器學習技術)來針對特定服務器集群中的特定工作負載量身定制調度決策的系統。
為此,他們構建了可以在復雜工作負載上進行訓練的新穎RL技術。在培訓中,系統嘗試了多種可能的方式來跨服務器分配傳入的工作負載,最終在利用計算資源和快速處理速度方面找到了最佳折衷方案。除了簡單的說明(例如“最小化工作完成時間”)之外,不需要人工干預。
與最佳的手寫調度算法相比,研究人員的系統完成工作的速度提高了約20%到30%,而在交通繁忙的時候完成速度則提高了兩倍。但是,大多數情況下,系統會學習如何有效壓縮工作負載而幾乎沒有浪費。結果表明,該系統可以使數據中心使用更少的資源,以更高的速度處理相同的工作負載。
“如果您有使用機器進行反復試驗的方法,他們可以嘗試以不同的方式安排作業,并自動找出哪種策略比其他方法更好,”博士學位的洪子茂說。電氣工程與計算機科學系(EECS)的學生。“這可以自動提高系統性能。利用率的任何小幅提高,即使提高1%,也可以節省數百萬美元,并為數據中心節省大量能源。”