您現在的位置是:首頁 >互聯網 > 2020-12-30 14:00:50 來源:
Alluxio擴展虛擬文件系統以支持數十億個文件
用于數據科學和分析工作負載的虛擬分布式文件系統的制造商Alluxio Inc.周三發布了一個新版本,該版本擴展了其元數據服務,并實現了跨混合云和多云的統一管理。
用戶現在可以使用數十億個文件來管理名稱空間,而無需使用第三方工具,而新的管理控制臺可以更輕松地將分析集群連接到云中和本地的多個數據源。
該公司表示,Alluxio專門針對數據科學和分析用戶,并已躋身前十大互聯網公司中的七家。它的技術對數據進行抽象和虛擬化,以傳送到流行的開源分析引擎,例如Apache Spark,Presto,Flink和Hive。它使用全局名稱空間,緩存和內存中元數據來跟蹤數據源的位置和數據更改,從而避免了復制的需要。
加州大學伯克利分校的一名研究生與人共同創建了該技術,他說,使用Alluxio可以使數據建模人員的生產力提高四倍。他說:“訓練模型的成本從一百萬美元到二十萬美元不等,所需時間從一年到三個月不等。”
擴展的元數據服務使該產品遠離其Hadoop根源,并改善了對云原生和基于容器的部署的支持。“我們從Hadoop世界開始,因此要求用戶具有這種依賴性,” Li說。“現在它已被完全刪除。”
管理中心提供了一種基于向導的方法,可跨多個位置連接數據源以及配置和監視Alluxio群集。這樣就可以合并來自Hadoop HDFS,Amazon Web Services Inc.的S3和Google LLC的Cloud Storage等來源的數據。
為了減少采用的障礙,控制臺還簡化了配置和啟動集群的過程,并改善了監視以降低運營成本。李說,Alluxio以前帶有一個開源控制臺,該控制臺只有基本的監視功能,沒有配置選項。
對Terraform(一種用于將基礎結構作為代碼進行管理的開源工具集)的新支持現在使通過單個命令以編程方式啟動預先配置的群集變得更加容易。此版本還與Vault集成,以跨云和數據中心提供安全,集中的敏感信息管理。其他增強功能包括更簡單的集群管理和對Java 11的支持。