您現在的位置是:首頁 >互聯網 > 2021-01-12 11:29:57 來源:
Ververica將ApacheFlink演變為一個統一的數據平臺
流計算是用于越來越多的數據豐富,低延遲應用程序的關鍵平臺。
越來越多的在線應用程序,例如移動性,“物聯網”,媒體,游戲和無服務器,都需要強大的,低延遲的數據處理主干。現在,許多流媒體應用程序的核心功能包括實時事件處理,連續計算,狀態語義,發布和訂閱消息傳遞,更改的數據捕獲和ACID交易功能。
流計算快速增長
在未來十年中,靜態數據架構(例如數據倉庫,數據湖和事務性數據存儲)將不再是企業數據戰略的中心。在 一年前Wikibon的大數據分析市場更新中,我們發現了一些趨勢,這些趨勢指向一個新時代,在該時代,流計算是大多數數據體系結構的基礎:
流計算是許多新邊緣應用程序的基礎,包括移動,嵌入式和“物聯網”設備的訪問,后端基礎結構提供了實時設備管理和流內分析處理。
企業正在擴大對內存,連續計算,更改數據捕獲和其他低延遲解決方案的投資,同時將這些投資與大數據靜態環境(包括Hadoop,NoSQL和RDBMS)融合在一起。
流環境不斷發展,以支持低延遲,應用程序級別的實時數據的任意數量,種類,頻率,格式,有效載荷,順序或模式的處理。
正在部署流計算主干來管理更多有狀態的事務性工作負載,執行流內機器學習并處理迄今已成為關系數據庫和其他靜態資源庫的其他復雜編排方案。
在線事務分析處理,數據轉換,數據治理和機器學習正日益朝著低延遲,有狀態的流式骨干網發展。
供應商正在引入包含流媒體平臺的創新解決方案,以確保它們可以用作各種應用程序的持久性真理。
云提供商已將流技術集成到其解決方案組合的核心中,以實現移動性,物聯網,無服務器計算和其他關鍵解決方案模式。
企業正在將更多的推理,培訓和其他工作負載遷移到處理本地獲取的傳感器數據的實時流的邊緣設備。
開源流環境正在成為重要的企業大數據平臺。
面向批處理的大數據部署正在讓位于更完全的實時,流式傳輸,低延遲端到端環境。
大多數機器學習,深度學習和其他人工智能工作負載將實時進行流處理。
Apache Flink保持其在流計算領域的勢頭
在過去的幾年中,流計算市場已經看到大量開源項目投入使用。現在,其中許多都由Apache Software Foundation管理。除了市場上許多成熟的商業流計算和復雜事件處理解決方案外,企業還可以從以下選擇中選擇:Apache Kafka,Flink,Spark Streaming,Apex,Heron,Samza,Storm,Pulsar 和Beam。
盡管這些流計算項目之間的功能重疊相當多,但Wikibon看到越來越多的企業實現使用其中的兩個或多個來利用它們的優勢。除了Kafka之外,Apache Flink是最受歡迎的流計算開源項目。
自發明以來的第10年和成為Apache項目以來的第5年,Flink的強項就是其結構的多功能性。Apache Flink每秒可以攝取數百萬個數據點,并同時跟蹤相關的上下文信息。它最杰出的用戶包括Netflix Inc.,Uber Technologies Inc.,Lyft Inc.和阿里巴巴集團控股有限公司。
盡管Flink缺乏Kafka核心的發布和訂閱功能,但Flink為絕大多數流計算用例提供了強大的框架和可擴展的分布式引擎。實際上,在許多企業流計算應用程序中以互補的方式部署Kafka和Flink并不少見。
就目前而言,Apache Flink開源代碼庫(當前在最新的穩定版本1.7.2中可用)的核心功能是:
支持有狀態的,事件驅動的,高吞吐量的連續處理應用程序;
以內存速度執行事件驅動的計算;
可以任意規模運作;
在所有常見的集群環境中運行,包括Kubernetes,Docker,Mesos和YARN;
處理無限流和無限流;
支持批量和連續延遲;
確保在多個節點上的分片表之間保持非常大的分布式狀態的一次精確一致性。
提供增量檢查點;
執行復雜的實時數據處理;
支持SQL查詢低延遲應用程序;
通過連接器連接到各種本地企業數據庫和計算平臺以及阿里巴巴和其他公共云,支持混合云分布式部署;
允許開發人員構建有狀態的流應用程序以部署到Flink集群;
每秒可處理數百萬個事件,并在后端RocksDB實現中節省多達TB的實時狀態;
支持實時數據流的指標,日志記錄和可操作性;
啟用實時流Flink應用程序的分支和使用歷史數據的流重放,以確保強大的數據一致性;
允許開發人員拍攝正在運行的應用程序的快照,從這些快照中啟動新代碼;
與Jenkins等第三方DevOps工具集成;和
使用包含DataStream和DataSet API的通用開發抽象。
本周在舊金山舉行的第三屆年度Flink Forward開發人員大會上,與會人員了解到Apache Flink項目以及使用它的社區現在可能會表現得很好,因為其主要開發人員Data Artisans GmbH(最近更名為Ververica) 已被中國收購的云計算巨頭阿里巴巴。
在大會主題演講中,Ververica和阿里巴巴的高管們闡述了該公司未來十年的重點。最值得一提的是Wikibon對流媒體市場的預測,尤其是其與批處理和機器學習的融合,的準確度。
不斷發展的Apache Flink開源社區
Apache Flink勢不可擋,對于越來越多的流使用案例而言,它已變得不可或缺。Flink Forward 2019上展示的采用率,開源代碼承諾率和其他指標表明,它已成為企業數據策略的關鍵支柱。
Ververica的工程負責人羅伯特·梅茨格(Robert Metzger)的統計數據表明,Flink在全球范圍內(尤其是在中國)的采用率不斷增長。因此,考慮到Ververica的新公司血統,當Metzger討論Ververica如何為Apache Flink社區啟動新的中文用戶支持郵件列表時,這并不奇怪。他還討論了公司為將中國大量Flink用戶群整合到開源項目的Apache社區中所做的努力。
為了支持這些社區成員和其他社區成員,Metzger討論了Ververica在改善Flink網站方面的投資。正在進行的主要增強功能包括提高管理問題和錯誤跟蹤,發布社區軟件包以及處理工作流以進行請求請求審核和標記的能力。
為Apache Flink開源代碼庫貢獻創新
Ververica計劃繼續將Apache Flink從流處理器演變為統一的數據處理系統。最后,它專注于開發Flink的批處理,機器學習和流分析以及數據倉庫/ ETL集成功能。
在批處理中,阿里巴巴高級平臺工程師姜曉偉與Ververica團隊討論了其在開源平臺上建立“ Blink ”批處理功能的工作。為此,計劃在Flink代碼庫中添加的內容將包括新的Table API和增強的SQL查詢處理器。根據Ververica CTO Stephan Ewen的說法,它正在與阿里巴巴合作,以改善跨分布式節點運行的批處理作業的性能和容錯能力。
在機器學習中,Ververica首席執行官Kostas Tzoumas討論了該公司在加深Apache Flink的算法庫,實用程序和用戶界面方面的投資,以服務于正在構建人工智能和流分析應用程序以進行實時連續計算的數據科學家團隊。他們還增加了對在Zeppelin筆記本電腦中開發Flink機器學習應用程序的支持。
根據Tzoumas的說法,在數據倉庫和ETL集成中,Flink與Hive的metastore和數據目錄更加緊密地集成在一起。它還在其嵌入式SQL查詢處理引擎中看到了性能增強。
此外,當天的各種突破都集中在正在進行的Apache Flink增強上,這些增強將加強與TensorFlow,Apache Beam和Apache Pulsar的集成。
總體而言,這些體系結構的改進將使開源Apache Flink能夠支持更多的企業用例,這些用例歷來都是靜態數據平臺,例如Apache Hadoop。
開發Apache Flink商業生態系統
去年,數據工匠 針對企業推出了Flink的商業版本。該平臺包括用于自動執行大型部署的設置和維護的功能。它還提供對ACID的支持 ,該方法可以保證重要信息(例如財務記錄)的可靠性。
為了維持Flink生態系統的商業發展勢頭,Ververica保留了Artisan所有數據產品并重新命名。新近更名為Ververica平臺,以前稱為dA平臺,作為許可軟件提供,包括三個核心組件:
Apache Flink(用于分布式,有狀態,實時流內計算的開源引擎);
Ververica Application Manager(用于在Flink上進行實時有狀態計算生產應用程序生命周期管理的框架);和
Ververica Streaming Ledger(Flink之上的庫,用于在共享的分布式狀態表之間進行可序列化的ACID事務)。
根據Tzoumas的說法,Ververica正在擴大其Flink培訓和咨詢計劃。他們還正在招募新的平臺和服務合作伙伴,以將公司的解決方案帶入全球更多的機會。
Ververica的上市策略缺少什么?
如果希望擴大Flink在企業中的采用,Ververica將需要采取以下戰略步驟:
在企業中不斷增長的混合流環境范圍內,尤其是在Kafka和Spark Streaming方面,更簡潔地定位Apache Flink的差異化用例。
將更多焦點放在Ververica產品開發上,以便在移動,嵌入式和IoT設備中獲得Flink的進一步立足點;
將數據科學工具鏈和DevOps供應商帶入Ververica的合作伙伴生態系統,以確保構建和培訓更多的機器學習應用程序,以便在分布式Flink環境中進行部署;
在Ververica的進入市場戰略中重點關注業務線和垂直行業,以便通過結合嵌入式Flink流道的快速價值流解決方案來吸引更多企業客戶;
建立Ververica的公共云集成,以確保Flink可以作為更多企業混合云部署中選擇的流計算平臺并入。
將Ververica平臺的容器化功能公開為無服務器功能,并將其引擎作為Knative的后端插入,以便可以更輕松地將Flink集成到云原生應用程序中
有關Flink Forward 2019的更多新聞,請查看Ververica博客。要了解該公司過去一年的發展情況,請查看Tzoumas在Flink Forward 2018上在CUBE上所說的話。