• 您現在的位置是:首頁 >互聯網 > 2021-01-14 13:51:01 來源:

    Dremio擴大了范圍并提高了基于ApacheArrow的分析引擎的速度

    導讀 Dremio Corp 將在今天宣布的主要版本中為其自助數據分析平臺添加數據目錄。該公司還整合了用于多租戶部署的新控件,增強了端到端數據加

    Dremio Corp. 將在今天宣布的主要版本中為其自助數據分析平臺添加數據目錄。

    該公司還整合了用于多租戶部署的新控件,增強了端到端數據加密,提供了在軟件容器中運行的選項,并采用了Gandiva,這是Apache Arrow分布式查詢引擎的開源性能增強庫,該公司在同名產品基于。

    Apache Arrow使用列式內存分析將查詢速度提高到傳統分析引擎的100倍。該技術類似于Google LLC用于為搜索查詢提供亞秒級響應時間的技術,但是Dremio已針對分析操作進行了優化。

    Dremio 3.0中的數據目錄并不是公司要與許多現有的企業數據目錄競爭,而是專注于捕獲和組織要在Dremio中使用的數據。數據目錄用于創建組織內數據資產的清單和描述。Dremio以共享Wiki頁面的形式添加了一個眾包元素,該頁面附帶可用于元標記和描述的每個數據集。

    在此版本中,通過增加端到端傳輸層安全性(安全套接字層的后繼協議),安全性得到了提高。盡管Dremio在較早的版本中具有加密功能,但它們并未涵蓋完整的數據訪問范圍。該平臺現在還支持Amazon Web Services Inc. EC2實例配置文件,以安全訪問AWS S3存儲。與Apache Ranger的本機集成在此發行版中也是新的。

    該公司表示,新的多租戶功能使數據工程團隊能夠管理和優化跨各種工作負載和用戶的群集資源。用SQL編寫的工作負載管理策略可以應用于諸如資源分配,查詢許可和超時之類的任務。

    “大多數數據分析平臺對所有用戶都一視同仁,這意味著您必須為不同的用戶提供不同的集群,”首席市場官Kelly Stirman說。他說,Dremio增加了一些功能,這些功能提供“對用戶或資源獲得優先權的細粒度控制”。例如,管理員可以指定實習生絕不應在工作時間之外優先訪問集群。

    此版本中的另一個新功能是通過Docker映像和模板與Kubernetes編排框架兼容。Kubernetes可用于部署和管理大型軟件容器集合,這些軟件容器是微型虛擬機,其中包含運行應用程序所需的所有服務。Dremio添加了與開放源代碼Helm Kubernetes軟件包管理器兼容的圖表,以進行配置和縮放。斯特曼說:“頭盔是這些天好孩子做的事情。”

    由Dremio開發人員構建的Gandiva將LLVM運行時編譯器與執行內核結合在一起,可以高效地評估Arrow上的任意SQL表達式。據稱,它對某些類型的查詢的速度提高了100倍。Stirman說:“總的來說,查詢越復雜,它就越適合Gandiva。”但每個查詢都會得到改善。

    免費社區版和付費企業版均可立即使用Dremio 3.0 。

  • 成人app