您現在的位置是:首頁 >互聯網 > 2020-11-02 14:00:47 來源:
Kubeflow在標準化AIDevOps管道方面顯示出希望
為云開發應用程序越來越需要構建和部署容器化的微服務或可以部署到多個計算環境的應用程序模塊。
人工智能越來越成為這些云應用程序的核心。為了滿足在云應用程序中創建和部署容器化AI模型的需求,越來越多的應用程序開發工具提供商正在構建對容器化到其數據科學工作臺以及使用Python,Java和R等語言對這些應用程序進行編程的支持。
數據科學工作臺是許多AI應用程序開發的重點。這些工具的最新一代正在利用云本機界面,一直到邊緣的源源不斷的容器化機器學習模型。
在AI DevOps管道中將完成的應用程序部署到其目標平臺上的實時狀態并非易事。它需要廣泛的工具和基礎架構功能,從提供對流行的AI建模框架(如TensorFlow和PyTorch)的訪問的工作臺到大數據分析,數據治理和工作流管理平臺,應有盡有。在云原生環境中,它還需要具有在公共,私有,混合,多云甚至邊緣環境中的Kubernetes編排主干上部署容器化機器學習和其他AI微服務的能力。
隨著AI應用程序開始注入云計算領域的每個角落,對于此DevOps管道必須有開放,靈活的標準,這一點絕對必要。這可以使在一個工作臺或一個框架中構建的AI應用程序能夠在各種云原生應用程序環境中進行下游培訓,服務,執行,基準測試和管理,這些環境都使用通用的端到端Kubernetes背板。
認識到這一必要性,人工智能社區在過去一年中迅速地圍繞一個開源項目進行了合并,該項目已構建了一個平臺來驅動Kubernetes上的機器學習DevOps管道。Kubeflow由Google LLC開發并于2017年底啟動,提供了與框架無關的管道,可用于跨多框架,多云云原生生態系統部署AI微服務。
Kubeflow支持用于容器化機器學習的整個DevOps生命周期。它簡化了可用于生產環境的AI微服務的創建,確保了Kubernetes集群之間容器化AI應用的移動性,并支持將AI DevOps工作負載擴展到任何集群規模。它旨在支持端到端AI DevOps管道中的任何工作負載,從前期數據準備到迭代建模和培訓,再到下游服務,評估和管理容器化AI微服務。
盡管 Kubeflow最初是一個內部Google項目,旨在將TensorFlow機器學習模型簡化到云中的部署,但Kubeflow旨在獨立于創建這些模型的特定框架,從而與用于訓練和推理的底層硬件加速器無關,并在實現Kubernetes,Docker和其他核心云原生平臺的多云環境中的任何地方部署容器化AI應用程序。
盡管它作為社區項目已經運行了不到一年,但是當前版本為0.3的Kubeflow已經迅速發展為包括以下豐富功能:
建模:Kubeflow在TensorFlow框架中支持基于Jupyter的AI建模,社區計劃在不久的將來通過Seldon Core(一個運行的開源平臺)支持其他流行的框架,包括PyTorch,Caffe2,MXNet,Chainer等。非TensorFlow服務和推理工作負載。
協作:Kubeflow促進了在交互式Jupyter筆記本中創建與框架無關的AI模型,在Jupyter筆記本 服務器中執行這些模型 以及在多用戶JupyterHub中基于團隊的共享和版本控制。
編排:Kubeflow支持利用開源的Kubernetes編排環境將容器化的AI應用程序部署到云原生的計算平臺,并利用云原生的Ambassador API,Envoy代理服務,Ingress負載平衡和虛擬主機服務以及Pachyderm數據管道。
生產:Kubeflow包含用于管理AI DevOps工作流的功能,包括在分布式云中部署TensorFlow。它還具有擴展功能,可以增強分布式訓練性能,執行模型基準測試,超參數調整,測量 和測試。它提供了用于管理的命令行界面Kubernetes應用程序清單表明支持由多個微服務組件組成的復雜DevOps管道部署。而且,它可以通過控制器對容器化的AI模型進行調度和執行分布式訓練和推理,該控制器可以配置為使用中央處理單元或圖形處理單元,并且可以動態調整為Kubernetes集群的大小。
由于該項目對于云中的可伸縮AI應用程序至關重要,因此Kubeflow項目在業界得到了廣泛的參與和貢獻。該項目現在有來自20個組織的約100個貢獻者。這都在不同的貢獻或以其他方式參與Kubeflow社區組織包括阿里巴巴云,Altoros,亞馬遜Web服務,螞蟻金融,Argo計劃,Arrikto,Caicloud,規范,思科,Datawire,戴爾,Github上,谷歌,H20。 i,Heptio,華為,IBM,英特爾,Katacoda,MAPR,中間層,微軟,動量,NVIDIA,厚皮類動物,底漆,項目Jupyter,紅帽,塞爾頓,尤伯杯 和Weaveworks。
但是,Kubeflow尚未成熟,僅在少數商業AI工作臺和DevOps解決方案中采用。以下是支持容器模型的云原生部署的AI工具供應商中的一些早期采用者:
阿里云:云提供商的開源Arena工作臺將Kubeflow集成在命令行工具中,使AI DevOps專業人員免受底層資源,環境管理,任務調度以及GPU調度和分配的復雜性的影響。它加快了提交TensorFlow AI培訓工作并檢查其進度的任務。
Amazon Web Services Inc .:云提供商在其公共云的針對Kubernetes的Amazon Elastic Container Service上支持Kubeflow。他們利用開源平臺來支持數據科學流水線,這些流水線服務于在Jupyter筆記本電腦中創建的機器學習模型到GPU工人節點,以作為Kubernetes上的微服務進行可擴展的培訓和推理。
思科系統公司:供應商在內部和Google Cloud中都支持Kubeflow。在思科統一計算系統服務器平臺上運行Kubeflow的用戶可以為其提供容器化的AI應用程序以及在TensorFlow,PyTorch和Spark等框架中構建的其他分析工作負載;第三方AI建模工作臺,例如Anaconda Enterprise和 Cloudera Data Science Workbench;以及Cloudera Inc.和Hortonworks Inc.的大數據平臺。
H20.ai:該公司支持 在Kubernetes上的Kubeflow上部署其 H2O 3 AI DevOps工具鏈,以減少數據科學家花費在調整模型超參數等任務上的時間。
IBM Corp .:提供商在其Cloud Private平臺中支持Kubeflow以支持在企業數據中心中輕松配置和管理可擴展的基于Kubernetes的AI管道,利用Kubeflow與IBM Cloud Private-Community Edition,數據科學家可以在私有內部的DevOps管道中進行協作企業數據中心中的云環境。
Weaveworks:供應商提供了DevOps工具,用于在Kubernetes上自動部署,可觀察性和監視云本機應用程序工作負載。該工具使用戶能夠利用其Weave Cloud簡化在Kubernetes集群上運行的Kubeflow的可觀察性,部署和監視。
來年,Wikibon希望大多數AI開發工作臺,面向團隊的機器管道自動化工具和DevOps平臺的提供商將Kubeflow完全集成到他們的產品中。同時,我們敦促Kubeflow社區將該項目提交給Cloud Native Computing Foundation,以在一個專門的工作組中進行開發。