• 您現在的位置是:首頁 >互聯網 > 2021-01-05 11:28:01 來源:

    Databricks簡化了BI和ML的數據管理

    導讀 大數據公司Databricks Inc 希望幫助客戶簡化商業智能和機器學習操作的數據管理,以消除孤島。為此,該公司今天宣布了一個新的 Databricks

    大數據公司Databricks Inc.希望幫助客戶簡化商業智能和機器學習操作的數據管理,以消除孤島。

    為此,該公司今天宣布了一個新的“ Databricks Ingest”平臺,該平臺使客戶可以將數據加載到單個存儲庫中,該存儲庫可用于BI和ML工作負載。

    Databricks還宣布了一個新的數據集成網絡,該網絡由數據集成合作伙伴組成,包括Fivetran Inc.,QlikTech International AB,Infoworks.io Inc.,StreamSets Inc.和Syncsort Inc.,它們將提供與Databricks Ingest的內置集成以自動執行數據加載任務。

    以前,公司被迫將其數據分為傳統的結構化數據和非結構化的大數據,然后分別在BI和ML工作負載中使用它們。這種方法行之有效,但同時也會導致數據孤立,處理緩慢,并且往往以結果不完整而告終,Databricks說。結果,公司沒有使數據的價值最大化,而這正是Databricks Ingest旨在解決的問題。

    “這是向'Lakehouse范式'轉變的眾多推動因素之一,該計劃希望將數據倉庫的可靠性與數據湖的規模相結合,以支持各種用例,” Ali Ghodsi-Databricks的創始人兼首席執行官。

    Ghodsi提到了Databricks的新概念“ Delta Lake” ,這是去年4月啟動的一個開源項目,旨在提高企業數據湖的效率。

    Ghodsi說:“為了使這種體系結構正常工作,需要輕松提取每種類型的數據。” “ Databricks Ingest是實現這一目標的重要一步。”

    借助Databricks Ingest,客戶將能夠從一系列常用來源加載數據,包括Salesforce,SAP和Google Analytics等應用程序,Oracle,Cassandra和MySQL等數據庫以及Amazon S3和Azure Data等文件存儲服務湖泊存儲。

    合作伙伴網絡很重要,因為這意味著公司可以確保將其數據連續加載到Delta Lake中,而無需設置和維護時間表的任何工作觸發器。設置完成后,所有新數據都會在創建后立即自動拉入Delta Lake。

    Constellation Research Inc.分析師Holger Mueller說:“企業需要更快地獲取更多數據,他們需要能夠將其傳遞到ML運行的地方。” “在此方面,Databricks的合作伙伴網絡可能是一個很好的差異化因素。數據和ML的成功結合是企業加速發展的關鍵推動力,每個公司都必須實現這一目標,才能生存和發展。”

  • 成人app