您現在的位置是:首頁 >互聯網 > 2020-11-07 11:10:37 來源:
尋找可靠的AI性能基準的挑戰
人工智能可能會非常耗費資源。通常,AI從業人員會尋找最快,最具擴展性,最省電且成本最低的硬件,軟件和云平臺來運行其工作負載。
隨著AI領域轉向工作負載優化的架構,對標準基準測試工具的需求日益增長,以幫助機器學習開發人員和企業信息技術專業人員評估哪種目標環境最適合任何特定的培訓或推論工作。從歷史上看,人工智能行業缺乏可靠,透明,標準和供應商中立的基準,無法標記可用于處理給定工作負載的不同硬件,軟件,算法和云配置之間的性能差異。
在AI行業的一個重要里程碑中,新成立的MLPerf開源基準測試小組上周宣布推出了一個標準套件,用于對ML軟件框架,硬件加速器和云平臺的性能進行基準測試。該小組-包括Google,百度,英特爾,AMD和其他商業供應商,以及哈佛和斯坦福等研究型大學-都在嘗試創建一個ML性能比較工具,該工具比較開放,公平,可靠,全面,靈活,負擔得起的。
MLPerf可在GitHub上獲得,目前處于0.5的初步版本中,它為當今AI部署中占主導地位的一些有限用例提供了參考實現:
圖像分類:適用于Imagenet的Resnet-50 v1。
物體檢測:將遮罩R-CNN應用于COCO。
語音識別:DeepSpeech2應用于Librispeech。
翻譯:變壓器應用于WMT英語-德語。
建議:神經協作過濾應用于MovieLens 2000萬(ml-20m)。
情感分析:Seq-CNN應用于IMDB數據集。
強化:Mini-go適用于預測職業比賽的動作。
MLPerf的第一個版本側重于適用于作業的ML培訓基準。當前,每個針對特定AI用例的MLPerf參考實現都提供以下內容:
有關數據集,模型和機器設置的文檔以及用戶指南。
在至少一個ML / DL框架和一個用于在容器中運行基準的dockerfile中實現模型的代碼;
用于下載參考數據集,訓練模型并針對預定目標值(也稱為“質量”)衡量其性能的腳本。
MLPerf小組已經發布了基準測試參考實現的存儲庫。參考實現可作為基準實現的起點,但尚未完全優化,因此不能用于目標生產AI系統的性能評估。當前,已經在以下參考實現上測試了MLPerf發布的基準:
16個中央處理單元芯片和1個Nvidia P100 Volta圖形處理單元;
Ubuntu 16.04,包括具有Nvidia支持的docker;
600 GB的磁盤(盡管許多基準測試需要更少的磁盤);和
CPython 2或CPython 3,取決于基準。
MLPerf小組計劃以兩種模式發布每個基準測試或使用特定AI模型的特定問題:
封閉:在此模式下,基準(例如通過應用于IMDB數據集的Seq-CNN進行情感分析)將指定要使用的模型和數據集,并將限制超參數,批處理大小,學習率和其他實現細節。
開放:在這種模式下,相同的基準測試將具有較少的實施限制,因此用戶可以試驗基準測試較新的算法,模型,軟件配置和其他AI方法。
每個基準測試都會運行,直到達到目標指標,然后該工具才會記錄結果。MLPerf組目前根據將模型訓練到最低質量所需的平均“掛鐘”時間發布基準度量。該工具考慮了工作成本,只要價格在一天中的運行時間內沒有變化即可。對于每個基準,目標指標均基于原始發布結果,減去一個小增量即可得出不同的運行差異。
MLPerf小組計劃每三個月更新一次已發布的基準測試結果。它將發布一個分數,該分數總結了其整個封閉式和開放式基準測試組的性能,并按完整套件結果的幾何平均值進行計算。它還將報告執行基準測試任務的移動設備和本地系統的功耗,并報告執行這些任務的基于云的系統的成本。
將于8月發布的基準測試套件的下一個版本將在一系列AI框架上運行。隨后的更新將包括對推理工作負載的支持,最終將擴展為包括在嵌入式客戶端系統上運行的那些工作負載。它計劃將在“開放”基準中開發的所有基準改進內容納入“封閉”基準的未來版本中。它計劃發展參考實現,以結合更多的硬件容量和針對各種工作負載的優化配置。
盡管MLPerf當然擁有最廣泛的參與和最雄心勃勃的議程,但它并不是第一個在特定工作負載上對AI平臺的性能進行基準測試的行業框架。展望未來,Wikibon希望這些既定的基準測試計劃能夠與MLPerf融合或保持一致:
DAWNBench用于端到端DL訓練和推理。由斯坦福大學MLPerf成員開發的DAWNBench提供了一組常見的DL工作負載參考,用于量化跨不同優化策略,模型架構,軟件框架,云和硬件的培訓時間,培訓成本,推理延遲和推理成本。它支持圖像分類和問題解答任務的跨算法基準測試。
DeepBench基準測試了TensorFlow,Torch,Theano和PaddlePaddle等DL框架的訓練和推理性能。該工具由百度開發,該工具也是MLPerf成員,該工具對在不同AI加速器芯片組上運行的基本DL操作(密集矩陣乘法,卷積和通信)的性能進行了基準測試。它包括七個硬件平臺(Nvidia的TitanX,M40,TitanX Pascal,TitanXp,1080 Ti,P100和英特爾的Knights Landing)的訓練結果,以及三個服務器平臺(Nvidia的TitanX Pascal,TitanXp和1080 Ti)和三個移動設備的推斷結果。 (iPhone 6和7,RaspBerry Pi 3)。但是,它無法衡量訓練整個模型所需的時間。
微軟已經 開源了一個GitHub存儲庫 ,該存儲庫創建了所謂的“深度學習框架的羅塞塔石碑”,以促進對GPU優化的DL模型進行跨框架基準測試。該倉庫包含優化的建模代碼,可通過各種框架中支持的最新高級API(Keras 和 Gluon)進行訪問。對于替代的多GPU配置,它發布了這些模型的性能比較基準-具體而言,是在CIFAR-10數據集上執行ResNet50圖像識別的CNN和RNN模型的訓練時間結果 對于RNN模型,則需要對IMDB電影評論進行情感分析。這些基準比較了跨框架和語言的這些DL模型在培訓時間上的表現。微軟還邀請任何數據科學家啟動 Azure深度學習虛擬機, 并為他們希望的任何DL任務,框架,API,語言和GPU配置貢獻自己的基準。
CEA N2D2是一個開源基準測試框架,可在各種硬件配置上模擬DL模型的性能。由總部位于巴黎的研究機構與工業和學術伙伴合作建造。N2D2使設計人員能夠探索和生成DL模型。它根據DL模型的準確性,處理時間,硬件成本和能耗比較了不同的硬件。它支持在多核或多核CPU,GPU和現場可編程門陣列目標上進行模擬基準測試。
OpenAI的Universe使用強化學習來支持AI應用程序自動性能的基準測試,以對比從同一應用程序環境中的人機交互中收集的訓練數據。它提供了一個環境,在該環境中可以從交互式在線應用程序環境中有機地收集此類用戶交互基準數據。在Universe中記錄了人類用戶會話,以提供基于交互的培訓數據來對AI應用程序性能進行基準測試。