• 您現在的位置是:首頁 >互聯網 > 2021-01-13 11:21:06 來源:

    瓦拉達獲得美元投資以使數據湖更容易訪問

    導讀 以色列初創公司Varada在種子輪融資中籌集了750萬美元,該輪融資計劃用于使企業更容易訪問大數據。該公司正在吹捧一個大數據內聯索引工具,

    以色列初創公司Varada在種子輪融資中籌集了750萬美元,該輪融資計劃用于使企業更容易訪問大數據。

    該公司正在吹捧一個大數據內聯索引工具,該工具可以對存儲在基于云的數據湖中的信息進行分析,而無需先對其進行準備或建模。

    數據湖是存儲庫,以其本機格式保存大量原始數據,直到需要時為止。分層數據倉庫將數據存儲在文件或文件夾中時,數據湖使用平面架構來存儲數據。給湖泊中的每個數據元素分配一個唯一的標識符,并用一組擴展的元數據標簽進行標記。當出現業務問題時,可以迅速向數據湖查詢相關數據,然后可以分析較小的數據集以幫助回答問題。

    事實證明,數據湖在企業中很受歡迎,因為它們比傳統數據庫具有更大的靈活性和速度。通過允許信息保留其原始格式,可以提供更多,更及時的數據流進行分析。

    從表面上看,數據湖似乎是最容易存儲數據的最有效方法,因為它們不需要首先執行昂貴且費時的 提取,轉換和加載或ETL操作。但Varada聯合創始人兼首席技術官David Krakov告訴SiliconANGLE,由于數據湖的結構意味著不再根據特定的分析需求對數據湖進行建模,因此數據湖仍然不能像某些用戶所希望的那樣高效。

    “因此,數據湖上的分析采用'暴力'方法,并掃描所有數據以進行查詢,” Krakov說。“例如,這是Amazon Web Services的Athena或EMR Presto之類的方法,具有高成本和低性能。”

    數據團隊可以采取一些技巧,以減少獲取洞察的時間,例如通過復制數據,對其進行分區,對其進行預聚合等。但是數據量仍然更大,架構更復雜,并且數據源的數量龐大,這意味著很難在該數據的各個副本之間保持一致性和一致性。

    他說:“結果是,大多數數據湖都是一個副本,并由幾個'大維度'(例如日期和地理位置)劃分。” “分析仍然大多是蠻力的,需要定制且耗時的開發以及針對該任務的ETL流程的昂貴維護。”

    克拉科夫說,瓦拉達對此做出了妥協。有了它,用戶可以選擇他們的高價值數據集,并使用結構化查詢語言命令來定義它們。然后,Varada實現了這個高價值的數據集,使其與數據湖保持同步,并使分析速度更快。

    “通過我們的內聯索引和分布式體系結構,我們可以對任何物化數據提供比暴力分析快100倍的性能,并且使該物化可以很容易地臨時使用,” Krakov說。

    Varada的種子輪融資由Lightspeed Venture Partners牽頭,StageOne Ventures和F2 Capital參與。

  • 成人app