您現在的位置是:首頁 >互聯網 > 2021-01-13 13:58:56 來源:
攻擊百分之95艱苦工作的機器學習
機器學習的工作量非常艱巨。盡管開源貢獻解決了許多障礙,但一些最受熱捧的機器學習框架只是略過要完成的工作的表面。是否存在一種可以使從數據攝取到訓練再到邊緣推理的龐大機器學習過程崩潰的技術?
微軟公司開源機器學習策略負責人David Aronchick(如圖)表示,如今,越來越多的人選擇正確的機器學習框架 。考慮到的框架包括 TensorFlow,Microsoft Cognitive Toolkit 和Apache MXNet。很少。它們遠非無用之舉-但它們可能還不能保證它們會引起所有關注。
“事實是,當您觀察整體情況時,這只是普通數據科學家所完成工作的5%,” Aronchick說。他補充說,剩下的95%是一大堆生銹的螺母和螺栓,應該已經將其抽象掉。
這就是目標Kubeflow -用于部署和管理上的機器學習棧的開源項目Kubernetes,一個開源的平臺,策劃容器,用于運行分布式應用程序的虛擬化方法。
在最近于西雅圖舉行的KubeCon + CloudNativeCon會議上, Aronchick與John Furrier 和Stu Miniman ( SiliconANGLE Media的移動實時流媒體工作室)的聯合主持人進行了交談。他們討論了開放源代碼和學術界的烹飪方法,以縮短機器學習周期。
Kubernetes為數據科學家提供了期待已久的抽象層
我們今天要求數據科學家進行的艱巨工作將震驚更抽象的信息技術領域的許多人。“我們正在要求數據科學家,機器學習工程師考慮如何配置Pod,如何在驅動程序上工作,如何做所有這些非常非常低級的事情,” Aronchick說。
Aronchick相信學術研究人員將發現減少訓練模型所需的數據量和勞動力的方法。但是,這可能無法解決所有數據傳輸問題。他補充說,跨多云環境的操作需要Kubernetes的抽象層。
他說:“現實是,您無法超越光速。” “如果我在這里有PB級的數據,將需要很長時間才能將其移到那里。我認為您最終將把模型,訓練和推理移到許多很多不同的位置。”
Kubernetes和Kubeflow提供了高級抽象,因此數據科學家可以處理模型,查看其工作原理,按一下按鈕并在所有必要的機器上進行配置。
不,Kubernetes不會像奶油干酪那樣在Azure,Google Cloud Platform和Amazon Web Services Inc.上分發應用程序。“您真正想做的是將隔離部署部署到每個位置,使您只需一個按鈕即可部署到所有這三個位置,” Aronchick說。