• 您現在的位置是:首頁 >人工智能 > 2022-08-25 17:08:22 來源:

    超級計算中心數據集旨在加速人工智能研究以優化高性能計算系統

    導讀 當麻省理工學院林肯實驗室超級計算中心 (LLSC) 在 2019 年推出其 TX-GAIA 超級計算機時,它為麻省理工學院社區提供了一個強大的新資

    當麻省理工學院林肯實驗室超級計算中心 (LLSC) 在 2019 年推出其 TX-GAIA 超級計算機時,它為麻省理工學院社區提供了一個強大的新資源,可以將人工智能應用于他們的研究。麻省理工學院的任何人都可以向該系統提交工作,該系統每秒進行數萬億次操作,以訓練用于各種應用的模型,例如在醫學圖像中發現腫瘤、發現新藥或模擬氣候效應。但這種強大的力量帶來了以可持續方式管理和運營它的重大責任——團隊正在尋找改進的方法。

    “我們擁有這些強大的計算工具,可以讓研究人員建立復雜的模型來解決問題,但它們本質上可以用作黑匣子。在那里迷失的是我們是否真的盡可能有效地使用硬件,”Siddharth Samsi 說,LLSC 的研究科學家。

    為了深入了解這一挑戰,LLSC 在過去一年中一直在收集有關 TX-GAIA 使用情況的詳細數據。在超過一百萬個用戶工作之后,該團隊已將數據集開源發布給計算社區。

    他們的目標是使計算機科學家和數據中心運營商能夠更好地了解數據中心優化的途徑——隨著處理需求的不斷增長,這是一項重要的任務。他們還看到了在數據中心本身利用人工智能的潛力,通過使用數據開發模型來預測故障點、優化作業調度和提高能源效率。雖然云提供商正在積極優化他們的數據中心,但他們通常不會將他們的數據或模型提供給更廣泛的高性能計算 (HPC) 社區來利用。該數據集和相關代碼的發布旨在填補這一空間。

    LLSC 的高級研究員 Vijay Gadepally 表示:“數據中心正在發生變化。我們的硬件平臺呈爆炸式增長,工作負載的類型在不斷發展,使用數據中心的人員類型也在發生變化。” “到目前為止,還沒有一種很好的方法來分析對數據中心的影響。我們認為這項研究和數據集是朝著提出一種有原則的方法來理解這些變量如何相互作用然后應用人工智能邁出的一大步以獲得見解和改進。”

    描述數據集和潛在應用的論文已被許多場所接受,包括 IEEE 高性能計算機體系結構國際研討會、IEEE 國際并行和分布式處理研討會、計算協會北美分會年會語言學、IEEE 高性能和嵌入式計算會議以及高性能計算、網絡、存儲和分析國際會議。

    在全球 TOP500 超級計算機中,TX-GAIA 結合了傳統計算硬件(中央處理器或 CPU)與近 900 個圖形處理單元(GPU)加速器。這些 NVIDIA GPU 專門用于深度學習,這是一種引發語音識別和計算機視覺的 AI。

    數據集按作業涵蓋 CPU、GPU 和內存使用情況;調度日志;和物理監測數據。與谷歌和微軟等類似的數據集相比,LLSC 數據集提供了“標記數據、各種已知的 AI 工作負載以及與以前的數據集相比更詳細的時間序列數據。據我們所知,它是最全面和最全面的數據集之一。可用的細粒度數據集,”Gadepally 說。

    值得注意的是,該團隊以前所未有的詳細程度收集了時間序列數據:每個 GPU 上的時間間隔為 100 毫秒,每個 CPU 上的時間間隔為 10 秒,因為機器處理了 3,000 多個已知的深度學習作業。首要目標之一是使用這個標記的數據集來描述不同類型的深度學習作業在系統上的工作負載。例如,此過程將提取特征,這些特征揭示了硬件處理自然語言模型與圖像分類或材料設計模型的差異。

    該團隊現在發起了麻省理工學院數據中心挑戰賽來推動這項研究。該挑戰邀請研究人員使用 AI 技術以 95% 的準確率識別正在運行的工作類型,使用他們標記的時間序列數據作為基本事實。

    這種洞察力可以使數據中心更好地匹配用戶的工作請求和最適合它的硬件,從而潛在地節省能源并提高系統性能。對工作負載進行分類還可以讓操作員快速注意到硬件故障、低效數據訪問模式或未經授權的使用導致的差異。

    選擇太多

    今天,LLSC 提供的工具可以讓用戶提交他們的工作并選擇他們想要使用的處理器,“但是這對用戶來說是很多猜測,”Samsi 說。“有人可能想使用最新的 GPU,但他們的計算實際上并不需要它,他們可以在 CPU 或低功率機器上獲得同樣令人印象深刻的結果。”

    東北大學的 Devesh Tiwari 教授正在與 LLSC 團隊合作,開發可幫助用戶將其工作負載與適當硬件相匹配的技術。Tiwari 解釋說,不同類型的 AI 加速器、GPU 和 CPU 的出現讓用戶面臨太多選擇。如果沒有正確的工具來利用這種異質性,他們就會錯過好處:更好的性能、更低的成本和更高的生產力。

    “我們正在解決這個能力差距——提高用戶的工作效率,幫助用戶更好更快地進行科學研究,而不必擔心管理異構硬件,”Tiwari 說。“我的博士生李寶林正在構建新的功能和工具,以幫助 HPC 用戶利用基于貝葉斯優化和其他基于學習的優化方法的技術,在沒有用戶干預的情況下接近最優地利用異質性。但是,這只是開始。我們正在研究以一種原則性的方法在我們的數據中心中引入異構性,以幫助我們的用戶自主且經濟高效地實現異構性的最大優勢。”

    工作負載分類是通過數據中心挑戰提出的許多問題中的第一個。其他包括開發人工智能技術來預測工作失敗、節約能源或創建提高數據中心冷卻效率的工作調度方法。

    節能減排

    為了調動對綠色計算的研究,該團隊還計劃發布 TX-GAIA 操作的環境數據集,其中包含機架溫度、功耗和其他相關數據。

    據研究人員稱,存在巨大的機會來提高用于人工智能處理的 HPC 系統的電源效率。例如,LLSC 最近的工作確定了簡單的硬件調整,例如限制單個 GPU 可以消耗的電量,可以將訓練 AI 模型的能源成本降低 20%,而計算時間只會適度增加。“這種減少轉化為大約一整周的家庭能源,僅增加三個小時的時間,”Gadepally 說。

    他們還一直在開發預測模型準確性的技術,以便用戶可以快速終止不太可能產生有意義結果的實驗??,從而節省能源。數據中心挑戰賽將共享相關數據,使研究人員能夠探索其他節能機會。

    該團隊希望從這項研究中吸取的經驗教訓可以應用于美國國防部運營的數千個數據中心。

    其他合作者包括麻省理工學院計算機科學與人工智能實驗室 (CSAIL) 的研究人員。Charles Leiserson 教授的 Supertech 研究小組正在研究并行計算的性能增強技術,研究科學家 Neil Thompson 正在設計研究如何推動數據中心用戶轉向氣候友好型行為。

    作為 IEEE 國際并行和分布式處理研討會的一部分,Samsi 在去年春天的首屆 AI 數據中心優化 (ADOPT'22) 研討會上介紹了這項工作。該研討會正式向 HPC 社區介紹了他們的數據中心挑戰。

    “我們希望這項研究能夠讓我們和其他運行超級計算中心的人能夠更好地響應用戶需求,同時降低中心級別的能源消耗,”Samsi 說。

  • 成人app