您現在的位置是:首頁 >互聯網 > 2021-01-08 11:39:49 來源:
Dremio解鎖云對象存儲以用于高性能分析
自助分析技術的開發商Dremio Corp.說,它已經找到了如何解鎖流行的云存儲中的數據以用于對性能敏感的數據倉庫應用程序的方法。
該公司用于Amazon Web Services,Azure和混??合云系統的新Data Lake Engines使用戶能夠直接處理諸如AWS的S3和Microsoft Corp.的Azure Data Lake Storage等云對象存儲中的數據。這些服務因其低成本和可伸縮性而廣受歡迎,但云的固有延遲和對象存儲的性能限制限制了它們在性能中的使用情況。
Dremio首席執行官Tomer Shiran表示:“過去,您唯一的選擇是提取數據并將其放入[AWS] Redshift之類的倉庫中,或者構建多維數據集和商業智能提取。” 該過程有時可能需要幾天或幾周的時間。
該公司認為它已經解決了稱為“列云緩存”的技術問題,該技術是一種預讀緩存,可自動將數據加載到物理上靠近處理器的非易失性內存Express或NVMe或固態存儲中。該公司表示,該方法可將性能提高多達70倍,同時減少了網絡流量,并且無需管理或設置。Shiran說:“您將兩全其美:S3的可擴展性與NVMe的性能。”
另一個提高性能的功能是“預測流水線”,它可以提高對列數據的預讀命中率,同時將讀取吞吐量提高到網絡允許的最大值。該軟件還利用了針對Apache Arrow的Gandiva Initiative,這是一個針對Apache Arrow數據的高性能列式處理而優化的執行內核。
這是柱狀的東西
Dremio對列處理了解一兩件事。它的軟件基于Apache Arrow,它是一種使用列式內存分析的列式內存處理加速器,這是一種將數據排列為列而不是行的內存映射技術。傳統的關系引擎不必要地按行處理數據,但是列式處理至少快10倍,因此更適合分析。
Shiran說,Dremio技術已經開發了一年多,它期望客戶需要的數據并將其加載到內存或閃存中,從而消除了在提交查詢后檢索數據的性能問題。
“我們對于必須使用哪些色譜柱有了一個很好的認識,” Shiran說。“我們可以提前一秒鐘進行預測,因此您永遠不必等待數據。”
預測數據需求并沒有聽起來那么復雜。在大多數情況下,用戶會在定義的時間段內重復查詢有限的一組最近數據。Shiran說:“他們通常會在同一組有限的客戶記錄中提出很多問題,”以郵輪運營商為例,該公司在海上不斷查詢乘客名單。
Dremio表示,其技術可以連接大多數或替代云數據倉庫,并且與大多數商業智能前端兼容,包括Tableau Software Inc.,Microsoft Corp.和Looker Data Sciences Inc.的前端。它還支持開放數據庫連接,Java數據庫連接。 ,代表性狀態轉移和Apache Arrow Flight接口。該軟件還支持跨平臺聯接,例如跨S3和Oracle Corp.關系引擎的查詢。
該公司還推出了Dremio Hub,該中心實質上是連接器的應用程序市場。Shiran說,目前僅列出了五個連接器,但“我們希望從現在開始每年看到數十個連接器。” Dremio不會在市場上測試或認證軟件,但會將其角色留給社區。
定價基于Dremio集群的大小,該集群完全在云中運行。首席執行官說,年度定價可以在“五到七個數字”之間。