2022愛分析 · DataOps廠商全景報告 | 愛分析報告

報告編委

李喆

愛分析合伙人&首席分析師

廖耘加

愛分析分析師

目錄

1.研究范圍定義

2. 市場洞察

3. 廠商全景地圖

4. 市場分析與廠商評估

5. 入選廠商列表1.研究范圍定義

研究范圍

在后疫情時代,以數據分析為代表的數據消費場景日益豐富,數據驅動業(yè)務增長成為市場共識,數據開發(fā)管理越來越受到企業(yè)決策者重視。

當前,各類管理信息系統(tǒng)、協(xié)同辦公系統(tǒng)的應用,物聯(lián)網和邊緣設備的普及,都讓企業(yè)端數據采集和分析的場景變得越來越多,數據驅動的場景從當前集中在前端的營銷、銷售環(huán)節(jié),正在向后端供應鏈的全場景延伸,從與消費互聯(lián)網緊密相關的零售電商向金融、教育、醫(yī)療、工業(yè)等全行業(yè)覆蓋,數據消費場景的豐富和分析需求的快速增長導致數據應用開發(fā)需求迅速增加。

金融、零售等行業(yè)頭部企業(yè)紛紛成立獨立的數據管理部門,在數據開發(fā)與管理方面的投入明顯增加。建設銀行、民生銀行、興業(yè)銀行等金融機構通過新建數據管理部門來實施大數據戰(zhàn)略,快速釋放數據生產力,實現(xiàn)數據資產的集中管理,聚集數據人才,深度挖掘與共享數據資源,從而利用數據驅動全方位支持業(yè)務發(fā)展。

盡管對數據的需求和投入不斷增大,但在實際管理和應用時企業(yè)仍面臨諸多挑戰(zhàn):

企業(yè)內部數據管理的協(xié)作成本越來越高。一方面,數據分析工具多元化導致數據用戶角色更復雜,企業(yè)內現(xiàn)在設置了如數據工程師、數據管理員、報表開發(fā)人員、運維工程師等多個職位,反而容易造成職責邊界交叉模糊,協(xié)作困難。另一方面,IT部門、數據部門和業(yè)務部門之間難以建立起緊密的融合關系,數據部門相對弱勢,難以推動業(yè)務部門主動用數,整體數據應用效率較低。

單個環(huán)節(jié)的自動化無法解決全局問題。盡管企業(yè)在數據開發(fā)、數據治理等單個環(huán)節(jié)采購了相關的工具或平臺,實現(xiàn)了局部的自動化,然而僅僅能解決表面問題,無法真正解決全局需求。難以建立覆蓋所有業(yè)務的規(guī)范統(tǒng)一、集成互聯(lián)的數據基礎,從根本上消除數據孤島,實現(xiàn)企業(yè)級數據集成整合、全面共享應用,提升企業(yè)大數據能力。

數據應用開發(fā)需求增長與數據用戶角色的復雜致使企業(yè)數據開發(fā)、數據運維工作量以及數據應用交付協(xié)調難度大大增加。因此,企業(yè)需要一套全新解決方案,真正實現(xiàn)數據驅動業(yè)務增長。DataOps以其能服務于業(yè)務部門、大數據部門,提供敏態(tài)數據開發(fā)支持,優(yōu)化數據生產者和數據消費者協(xié)作效率,成為解決以上問題的最佳方案。

在此背景下,為企業(yè)引入DataOps過程中提供全面的規(guī)劃、建設和產品選型參考,愛分析調研并撰寫了《2022年愛分析DataOps廠商全景報告》。

DataOps市場定義

圖 1:數據全生命周期

數據全生命周期包括三個階段:首先,由業(yè)務部門在業(yè)務運行過程中產生原始數據;其次,大數據部門(IT部門)對原始數據進行數據加工;最后,加工后的數據再次回到業(yè)務部門完成數據消費。因此,在數據全生命周期中核心環(huán)節(jié)基本上由大數據部門(IT部門)完成。

大數據部門(IT部門)職責包括兩方面:1)數據資產統(tǒng)一管理;2)支持業(yè)務部門的敏穩(wěn)雙態(tài)數據消費需求。

DataOps核心是面向于大數據部門的第二項職責,既滿足業(yè)務部門穩(wěn)態(tài)的數據消費需求,如數據報表、數據可視化、自助式分析等;也要滿足業(yè)務部門敏態(tài)的數據消費需求,如機器學習建模、智能推薦等,敏態(tài)需求迭代速度更快,其中涉及到很多探索式需求。

DataOps市場定義:服務于業(yè)務部門(業(yè)務部門ITBP)和大數據部門,滿足敏穩(wěn)雙態(tài)數據消費需求,提升數據加工環(huán)節(jié)效率的咨詢、工具和服務。

圖 2:DataOps市場全景地圖

基于數據全生命周期三大階段,進一步將數據加工環(huán)節(jié)拆分為數據采集(數據同步)、數據開發(fā)、數據服務(數據虛擬化)和數據質量提升;將數據消費環(huán)節(jié)拆分為數據分析和數據應用。并根據每一階段存在的業(yè)務需求,映射出對應的細分市場。

本次報告,愛分析認為DataOps全景圖主要覆蓋數據加工環(huán)節(jié),具體來說,與數據采集、數據同步對應的是“敏捷數據管道”市場;與數據開發(fā)對應的是“一站式數據開發(fā)管理平臺”市場;與數據服務對應的是“數據服務平臺”市場、“智能數據資產目錄”市場和“指標中臺”市場;與數據質量提升對應的是“數據可觀測性平臺”市場和“數據治理”市場。

愛分析認為,甲方企業(yè)真正要實現(xiàn)DataOps,必須具備完整的數據能力,建設一整套面向業(yè)務需求的數據開發(fā)管理機制,僅僅具備單點能力是遠遠不夠的。因此,上述對DataOps市場劃分,主要是考慮到市場發(fā)展現(xiàn)狀、甲方企業(yè)建設進展和廠商能力,并不意味著具備單點能力就可以實現(xiàn)DataOps。

愛分析綜合考慮市場關注度、甲方需求和實際落地進展等因素,選取以下3個特定市場進行重點分析,分別是“一站式數據開發(fā)管理平臺”、“敏捷數據管道”和“智能數據資產目錄”。

本報告面向金融、制造、汽車、消費品零售、能源等行業(yè)的大數據部門負責人、IT部門負責人和業(yè)務部門(業(yè)務部門ITBP),通過對各特定市場的需求定義和代表廠商能力解讀,為企業(yè)數字化轉型規(guī)劃與廠商選型提供參考。

廠商入選標準

本次入選報告的廠商需同時符合以下條件:

廠商的產品服務滿足各市場分析的廠商能力要求;

廠商具備一定數量以上的付費客戶(參考第4章各市場分析部分);

廠商在特定市場的營業(yè)收入達到指標要求(參考第4章各市場分析部分)。 2. 市場洞察

1.DataOps市場規(guī)模超180億元

愛分析推算,2022年中國DataOps市場規(guī)模為185.1億元人民幣,同比增速為13.0%??紤]到大部分DataOps項目甲方還是大型企業(yè),立項和交付受疫情影響很大,2022年增速較2021年明顯放緩,但預計2023年會40%以上的增速,市場進入快速發(fā)展階段。

圖 3:中國DataOps市場規(guī)模預測

DataOps市場由軟件產品和服務組成,現(xiàn)階段整個市場并未形成統(tǒng)一標準和規(guī)范,絕大多數DataOps項目都是基于甲方企業(yè)自身需求進行落地,因此,軟件產品占比30%左右,大量項目還是以服務為主。大部分DataOps項目是廠商提供核心產品組件,基于實際甲方需求,形成DataOps解決方案。

DataOps市場甲方以金融、制造、能源、消費品與零售等行業(yè)為主,主要是以集團型甲方企業(yè)和行業(yè)頭部甲方企業(yè)為主,但兩者對DataOps的需求略有不同。集團型甲方企業(yè)在實際開展數據管理工作時,已經深刻意識到數據管理與數據服務的挑戰(zhàn),正在尋求新的數據管理解決方案。行業(yè)頭部甲方企業(yè)在數字化轉型、數據能力建設處于行業(yè)前列,數據部門自身有很強烈的創(chuàng)新和探索意愿,愿意嘗試更多新的技術方案。

2.DataOps是實現(xiàn)數據驅動業(yè)務的關鍵基礎設施

DataOps概念一經出現(xiàn),就會不斷跟數據中臺進行比較。愛分析認為,數據中臺承載了企業(yè)實現(xiàn)數字化轉型的長遠愿景,DataOps解決了數據驅動業(yè)務的實際問題。

2019年至今,數據中臺一直備受詬病,建設預期與實際結果之間的巨大落差是大量數據中臺項目失敗的重要原因之一。很多數據中臺項目需求來自企業(yè)決策者,并非技術部門或數據部門,數據中臺往往承載了企業(yè)決策者實現(xiàn)數字化轉型的美好預期,不過數字化轉型并非一蹴而就,企業(yè)在數字化轉型中遇到的挑戰(zhàn)也不可能完全依靠技術平臺來解決。

數據中臺建設雖然出現(xiàn)很多負面新聞,但持續(xù)數年的數據中臺建設對整個數據智能市場發(fā)展還是起到了重要推動作用。第一,數據中臺在實際企業(yè)業(yè)務開展中還是發(fā)揮了價值,數據驅動業(yè)務、數據驅動決策的理念深入人心,越來越多的企業(yè)決策者和業(yè)務人員重視數據的價值,將數據分析作為一項重要工具。第二, “數據統(tǒng)一管理與共享服務”等理念被大量企業(yè)的技術部門和數據部門所接受,越來越多的企業(yè)用這套理念來建設自身的數據開發(fā)與管理能力。

DataOps的需求多數來自于技術部門或數據部門負責人,解決的是企業(yè)開展數據開發(fā)管理工作的挑戰(zhàn)。當越來越多的業(yè)務部門關注數據,基于數據分析來實現(xiàn)業(yè)務增長,對企業(yè)的技術部門或數據部門而言,最大的挑戰(zhàn)是如何基于有限資源,最大化地滿足多個業(yè)務部門的數據消費需求。

一味地增加人力和預算,并不能從根本上解決這一問題。以某頭部互聯(lián)網公司為例,其數據開發(fā)管理團隊一度增加到千人規(guī)模,但依然無法滿足各個業(yè)務部門提出的數據需求。技術部門的挑戰(zhàn)一定要通過新的數據開發(fā)管理服務標準、流程和協(xié)作機制來解決,才能滿足企業(yè)日益增長的數據消費需求。

愛分析認為,實現(xiàn)數據驅動業(yè)務在技術架構創(chuàng)新的同時,還需要關注數據與業(yè)務之間的協(xié)作機制、流程和標準創(chuàng)新,后者是實現(xiàn)數據驅動業(yè)務的關鍵,DataOps重點在解決這一問題。

3.DataOps考驗廠商的產品架構能力

與數據湖倉引擎、實時計算引擎不同,DataOps并非技術架構創(chuàng)新,而是產品架構創(chuàng)新。性能是DataOps項目建設的重要指標,但并非最核心指標。大部分DataOps建設面臨的問題是,如何實現(xiàn)技術、數據和業(yè)務的融合,同時滿足三方的需求。

第一,應用開發(fā)與數據開發(fā)融合。當前大部分企業(yè)的應用開發(fā)與數據開發(fā)還是分開,但越來越多應用都是數字化應用,基于數據驅動的應用,數據開發(fā)與應用開發(fā)呈現(xiàn)融合態(tài)勢,如何在滿足IT運維、安全等前提下,提升數據開發(fā)的效率是一大挑戰(zhàn),特別是集團型企業(yè)多數都有很強的合規(guī)要求。

第二,業(yè)務深度參與數據開發(fā)工作。當前業(yè)務和數據之間的協(xié)作并不緊密,自助式分析等數據分析工具興起,讓業(yè)務部門具備自助式數據分析和管理的能力,但大部分數據開發(fā)工作業(yè)務部門依然沒辦法深度參與,會導致很多數據開發(fā)工作并不能滿足業(yè)務需求,特別是在當下業(yè)務快速迭代的背景下。

基于上述挑戰(zhàn)可以看出,每個甲方企業(yè)在落地DataOps項目時,一定存在非常大的差異化,但背后要解決的本質問題會非常類似。對于DataOps廠商而言,需要從數據開發(fā)管理的全局出發(fā),以終為始,在設計產品架構時要考慮到企業(yè)完整需求,才能夠應對不同DataOps項目的差異化甲方需求。 3. 廠商全景地圖

愛分析基于對甲方企業(yè)和典型廠商的調研以及桌面研究,遴選出在DataOps市場中具備成熟解決方案和落地能力的入選廠商。

       4. 市場分析與廠商評估

愛分析對本次DataOps項目重點研究的特定市場定義如下。同時,針對參與此次報告的部分代表廠商,愛分析撰寫了廠商能力評估。 4.1一站式數據開發(fā)管理平臺

市場定義:

一站式數據開發(fā)管理平臺,是指針對整個數據加工鏈路進行數據的監(jiān)控、管理和運維,實現(xiàn)數據質量持續(xù)提升。

甲方終端用戶:

金融、制造、汽車、消費品零售、能源等行業(yè)的大數據部門負責人、IT部門負責人

甲方核心需求:

對甲方而言,核心是建立一套面向未來數據開發(fā)的機制,提升面向業(yè)務視角的數據開發(fā)能力,而不僅僅是實現(xiàn)數據整合。

過往,甲方更多是將數據整合和管理作為企業(yè)的階段性目標和項目來完成,對數據如何應用、如何在業(yè)務場景中發(fā)揮價值關注度不足。在實踐過程中,投入大量資源和人力,完成數據整合之后,“取數難”、“用數難”、數據質量低等問題依然存在,甲方還是無法發(fā)揮數據的價值。

因此,甲方真正需要具備的是一套完整的數據開發(fā)管理的能力,包含但不限于統(tǒng)一開發(fā)管理平臺、面向業(yè)務需求的開發(fā)管理流程與機制等。

1)梳理流程,建立統(tǒng)一的開發(fā)管理機制。

在甲方現(xiàn)有流程中,應用開發(fā)和數據開發(fā)往往是分開進行,但考慮到越來越多數字化應用是基于數據驅動這一趨勢下,企業(yè)需要考慮將二者融合。過去建設的數據中臺盡管一定程度上能夠支持報表、自助式分析等應用,但實質上仍未能滿足支撐整個數據開發(fā)管理體系,無法滿足越來越多基于數據驅動的應用需求,特別是以機器學習建模為代表的探索式應用。

隨著企業(yè)數字化轉型程度加深,數據管理和應用需求越來越迫切,很多甲方成立專門的數據部門處理數據相關的問題,并與IT部門和業(yè)務部門厘清職責邊界,建立起協(xié)作關系,數據部門與IT部門、業(yè)務部門如何進行協(xié)作,內部需要達成共識并建立協(xié)作機制。

數據開發(fā)和管理的建設并非一蹴而就,而是一個長期的工程。在實際建設中,既要考慮長期方向與目標,與整個公司戰(zhàn)略方向相適配,又要設置階段性目標,讓高層和相關部門感受到落地效果。因此,甲方需要明確數據開發(fā)和管理的實現(xiàn)路徑,并設置階段性目標。

對于金融等強監(jiān)管行業(yè),整個機制還需要符合監(jiān)管要求。自數據安全法、個保法等法律法規(guī)出臺以來,監(jiān)管機構對數據安全審查加強,企業(yè)在數據開發(fā)和管理過程中要注意合規(guī)問題,審慎使用數據,提升數據治理水平。

2)搭建功能豐富、具備擴展性的開發(fā)管理平臺。

經過多年信息化和數字化建設,絕大多數甲方已經具備一定數據基礎,以MPP、Hadoop為代表的技術架構,以大數據平臺為核心的數據開發(fā)和治理工具,因此,一站式數據開發(fā)管理平臺需要兼容現(xiàn)有的數據基礎設施。同時,隨著業(yè)務的發(fā)展,未來產生越來越多的創(chuàng)新業(yè)務場景,平臺需要有充分的擴展性以應對多元的需求,能夠支持各類型業(yè)務場景開展。

平臺需要圍繞整個數據開發(fā)管理的需求,提供豐富的功能,并具備自動化開發(fā)能力。企業(yè)需要在這一平臺上完成所有類型數據的開發(fā)和管理,覆蓋數據加工全鏈路的監(jiān)控、管理、運維等需求,具備對全域數據治理的能力。同時,為應對越來越多且時效性越來越強的開發(fā)任務,還需要利用自動化工具提升效率。

廠商能力要求:

廠商需要具備咨詢能力和成功實踐經驗,能提供成熟的方法論。不僅提供數據平臺的產品,還能夠基于可復用的成功經驗,針對客戶的業(yè)務需求和內部建設現(xiàn)狀指導實施落地;需要具備規(guī)劃能力,能夠設計一套適用于未來幾年的框架,幫助數據部門、IT部門、業(yè)務部門能夠達成共識,通過幫助客戶梳理流程,基于數據產品調整組織架構并優(yōu)化協(xié)作方式,提供完整的咨詢服務;此外,還需要為客戶提供建議,幫助甲方設置實現(xiàn)路徑,并制定階段性目標。

產品需要有較強的架構能力和可擴展性。需要具備解耦能力,采用模塊化方式構建,能夠單獨拆分功能模塊按需提供。在擴展性方面,需要能夠適配企業(yè)內的其他生態(tài),支持多種接口協(xié)議,已封測及對接多種軟件或硬件接口調用等方式,能夠快速滿足企業(yè)未來的創(chuàng)新應用。

產品需要具備豐富的功能,能夠覆蓋數據加工的全流程,包括數據開發(fā)、數據治理、數據資產和運維監(jiān)控等各個方面,能夠提供多人可協(xié)作的項目空間管理,具備持續(xù)集成和發(fā)布的能力。

入選標準:

1.符合一站式數據開發(fā)管理平臺市場分析的廠商能力要求;

2.累計在該市場服務客戶數10家及以上;

3.累計在該市場收入5000萬及以上;

代表廠商評估:

       火山引擎

廠商介紹:

北京火山引擎科技有限公司(以下簡稱“火山引擎”),是字節(jié)跳動旗下的云服務平臺,將字節(jié)跳動快速發(fā)展過程中積累的增長方法、技術能力和工具開放給外部企業(yè),提供云基礎、視頻與內容分發(fā)、大數據、人工智能、開發(fā)與運維等服務,幫助企業(yè)在數字化升級中實現(xiàn)持續(xù)增長。

產品服務介紹:

火山引擎數智平臺(Volcengine Data Intelligence,英文簡稱VeDI),基于字節(jié)跳動數據平臺多年的“數據驅動”實踐經驗,匯集端到端的數智產品、場景化的行業(yè)解決方案和專業(yè)的數智轉型咨詢。其中大數據研發(fā)治理套件DataLeap是一站式大數據研發(fā)治理套件解決方案,提供數據集成、開發(fā)、運維、治理、資產管理等能力。以獨立部署方式,通過數據治理的思維,綜合運用數據管理制度、人員組織、技術方法和流程標準等手段,幫助企業(yè)對數據資產在可用性、完整性和安全上實現(xiàn)全面有效的管理,賦能企業(yè)基于數據驅動下的業(yè)務創(chuàng)新。目前,已服務幾百家來自汽車、零售、互聯(lián)網、金融、文旅等行業(yè)的知名企業(yè)。

廠商評估:

整體來看,火山引擎基于數智平臺和一站式大數據研發(fā)治理套件打造的數據驅動管理解決方案,在產品功能、產品架構與理念、落地實踐經驗、體系機制四方面具備優(yōu)勢。

1)功能豐富易用,提供一站式數據研發(fā)全鏈路管理。

DataLeap為企業(yè)提供基于DataOps敏捷研發(fā)流程、海量任務秒級調度能力和開源計算引擎的拓展能力,覆蓋數據研發(fā)與運維、數據治理、數據資產和安全合規(guī)等各個方面,賦能業(yè)務團隊進行數據自治。

具體來說,在全場景數據整合環(huán)節(jié),DataLeap支持20+多源異構數據集成,涵蓋常見的業(yè)務存儲系統(tǒng),支持全量、增量、實時的數據同步;在全鏈路的數據研發(fā)環(huán)節(jié),DataLeap支持多引擎(批、流、OLAP),敏捷開發(fā)CI/C,對開發(fā)、測試、發(fā)布、運維等研發(fā)全鏈路進行管理;在數據治理環(huán)節(jié),DataLeap集合了基線監(jiān)控、數據質量、SLA治理等能力,提供事前預警、事中處理、事后復盤及推薦優(yōu)化的功能;在數據資產建設方面,DataLeap具備數據資產快速接入及自動構建全鏈路血緣等技術。

2)技術架構先進,融合分布式數據治理理念,能夠應對高并發(fā)、大批量數據處理需求。

火山引擎創(chuàng)新性提出分布式數據治理的理念,并落地于DataLeap產品中。DataLeap采用了標準化、組件化的解耦架構,各個模塊均可獨立使用分布式治理模式,建設周期較短,適配能力強;企業(yè)用戶不僅能實現(xiàn)各級業(yè)務及個人的自驅治理,還能充分根據業(yè)務階段來制定治理的內容,讓數據治理對業(yè)務的沖擊和影響可以盡可能最小化;專業(yè)的治理知識可以沉淀下來,實現(xiàn)產品化協(xié)同,并結合智能化推薦功能,為企業(yè)提升執(zhí)行效率。

DataLeap通過對引擎和架構的優(yōu)化,提升了產品性能、擴展性和實時性,以應對業(yè)務多樣性和復雜度帶來的龐大數據處理作業(yè)量要求。為滿足時效性的需求,火山引擎通過自研的分布式調度系統(tǒng),實現(xiàn)了秒級調度能力。同時提供了任務的分級打標機制,通過多種任務資源控制方式,實現(xiàn)資源最合理的調配。還可以根據任務的歷史情況,對不合理的任務配置,提出配置優(yōu)化的告警建議。

3)數據技術能力均來自于字節(jié)跳動內部多年實踐經驗的積累與沉淀。

VeDI及DataLeap沉淀了字節(jié)跳動各業(yè)務線的數據治理經驗和規(guī)則,適合多種類型客戶在業(yè)務的不同階段使用。

字節(jié)跳動根據內部業(yè)務的痛點和需求,從2014年開始研發(fā)并逐步迭代出一套能夠挖掘分析海量數據、有效賦能業(yè)務的數據平臺。利用這一平臺敏捷支持內部今日頭條、抖音、西瓜視頻、朝夕光年等各大業(yè)務線后,對大數據的架構、產品、治理、安全隱私、組織設計等方面積累了豐富實踐,開始對外To B輸出和商業(yè)化。目前,火山引擎已經沉淀了完整的行業(yè)Know-How,能夠基于各部分產品組合和調用為客戶提供端到端解決方案,并以整體VeDI的方式呈現(xiàn)。

4)引入BP機制,幫助客戶建立體系化的數據治理方法。

火山引擎為客戶引入字節(jié)成熟的數據BP模式,從組織層面配合數據產品實現(xiàn)數據治理落地,切實把握業(yè)務的痛點,讓數據工具和平臺真正用起來。

數據BP,即“數據業(yè)務伙伴”,本質是將具備數據專業(yè)能力的人才上升至業(yè)務線。數據BP的職責是在一線配合數據分析師充分滿足數據需求,同時保障數據治理工作的有序落地。希望在數據治理成果推進到一定程度之后,為企業(yè)進一步探索數據賦能業(yè)務發(fā)展的方法。

火山引擎還會派專家團隊駐場,近距離參與企業(yè)的數據治理工作中。對企業(yè)的實際情況進行具體問題分析后,在數據指標治理、業(yè)務數據治理、埋點數據治理、數據底座管理體系四大方向上,給出建議并協(xié)助企業(yè)進行體系化建設,為企業(yè)跨職能的數據治理實踐提供長期穩(wěn)定抓手。

典型客戶:

得到

代表廠商評估:

       科杰科技

廠商介紹:

科杰科技是一家數據能力構建商,核心技術團隊擁有豐富的頭部互聯(lián)網企業(yè)云數據平臺搭建及運營經驗,致力于將成熟完備的數據底座產品與多業(yè)態(tài)復雜場景的最佳實踐有機融合,為企業(yè)提供數據管理、開發(fā)挖掘、運維一體化的整套方案,助力企業(yè)快速構建數據能力,實現(xiàn)高度規(guī)范化、敏捷化的數據工作協(xié)同與數據應用創(chuàng)新?,F(xiàn)已服務百余家 政府單位及金融、能源、汽車、零售等行業(yè)頭部企業(yè)。

產品服務介紹:

科杰科技核心產品湖倉一體數據智能平臺 Keen Data Lakehouse是基于云原生技術自主研發(fā)的數據底座產品,產品設計內置12大功能模塊,在實現(xiàn)多云資源統(tǒng)一納管、彈性擴展和靈活調度的基礎上,滿足數據統(tǒng)一采集、存儲、開發(fā)、管理和服務的需求,具有高性能高穩(wěn)定性的特性。其中數據開發(fā)管理平臺Keen BDP、數據同步系統(tǒng)Keen Dsync、實時計算平臺Keen Stream、數據標準產品Keen DSM、數據質量產品Keen DQM、主數據管理平臺Keen MDM、數據資產目錄Keen Asset、數據服務平臺Keen DAAS、數據標簽平臺Keen TAG功能模塊與一站式數據開發(fā)管理平臺直接相關。

廠商評估:

整體來看,科杰科技形成了“領先的大數據技術+全域數據資產管理+大數據工作方法論”三位一體的解決方案,在產品、技術、行業(yè)Know-How和咨詢服務方面具備優(yōu)勢。

1)產品功能全,產品架構能力強。

基于過往實踐,科杰科技覆蓋數據開發(fā)管理的全生命周期,產品功能豐富。科杰科技將DataOps的理論融入產品設計中,支持DataOps持續(xù)集成、持續(xù)開發(fā)、持續(xù)運營方法論的最佳實踐??平墚a品矩陣覆蓋數據集成、數據轉換、數據開發(fā)、智能任務依賴、智能血緣解析、自動沉淀數據資產的全生命周期,在貫穿全流程工程化能力的同時提供全局統(tǒng)一數據標準、數據質量、主數據管理、元數據管理以及數據安全的全方面數據治理能力,是數據治理與數據工程相融合的增強型大數據平臺產品,提供一站式數據源到數據洞察分析和數據編織能力,為企業(yè)數字化轉型提供數據底座能力。

科杰科技對重點功能進行產品化、模塊化封裝,整個平臺采取松耦合架構,能夠獨立交付部署。Keen Data Lakehouse整體采用松耦合結構搭建而成,產品具備高度自主性和靈活性??平芸萍坚槍χ攸c功能進行產品化、模塊化封裝,每個模塊都能夠與企業(yè)內信息系統(tǒng)進行對接,支持獨立交付和部署應用。因此能夠面向多業(yè)態(tài)、復雜的業(yè)務場景,以樂高式的產品組合方式搭建,支持大型組織全角色精細化業(yè)務開展,持續(xù)高效地創(chuàng)造高質量、可復用的數據資產。

2)底層技術架構領先,支撐集團企業(yè)多源異構數據統(tǒng)一納管。

Keen Data Lakehouse采用了領先的湖倉一體、新一代技術架構。這一架構兼具數據倉庫的高性能、強管理能力和數據湖的靈活性,具備批流一體、存算分離、數據編織、ACID事務性等特點,打通企業(yè)的數據孤島和數據煙囪,提供一個統(tǒng)一可共享的數據底座。通過將生產過程中大量結構化和非結構化的離線、實時數據抽取到數據倉庫,實現(xiàn)多源多態(tài)數據匯聚,為后續(xù)數據標準化、資產化、安全管理等需求提供了基礎條件。

科杰科技通過多模數據統(tǒng)一處理技術,實現(xiàn)企業(yè)數據在數據湖和數據倉庫之上的無縫調度和管理,避免大數據平臺、云數倉、分析型數據庫等現(xiàn)有數據資產的遷移。既能利用企業(yè)已有建設成果提供包容性支撐,對歷史數據、實時數據進行存儲、計算和查詢,保持現(xiàn)有業(yè)務的連續(xù)性;又能以邏輯統(tǒng)一的數據資產和協(xié)作方式進行開發(fā),面向未來數據工作保持開放性,為技術部門與業(yè)務部門的高效協(xié)作奠定了基礎。

3)行業(yè)落地經驗豐富,對集團企業(yè)的數據資產統(tǒng)一管理和高效協(xié)作方式有深刻理解。

科杰科技的核心研發(fā)成員具有互聯(lián)網大廠背景和十多年大數據實戰(zhàn)經驗,曾親身經歷大型企業(yè)的大數據部門組建、數據中臺項目的建設,對于大型企業(yè)的集團、分公司、不同業(yè)務條線之間數據權限、數據安全、數據使用和存儲壓力問題了解深入,能夠根據不同企業(yè)的組織架構、業(yè)務流程等特點,提出適合的解決方案。

基于多年實踐經驗,科杰科技總結形成一套標準完善的企業(yè)級數據底座落地實施流程,結合Keen Data Lakehouse產品矩陣,能夠大大提升項目實施效率。目前,已在金融、新零售、能源、工業(yè)互聯(lián)網、汽車、通信等行業(yè)成功落地,并打造了具有針對性的多個行業(yè)解決方案。

4)具備咨詢服務能力,能為企業(yè)持續(xù)構建大數據能力提供建議。

科杰科技能夠為客戶提供前期的數字化咨詢服務,根據企業(yè)現(xiàn)狀給出問題診斷和建設路徑,幫助企業(yè)內部的IT技術部門、數據部門和業(yè)務部門達成共識、明確目標、梳理流程、制定規(guī)則,真正實現(xiàn)數據驅動業(yè)務、數據驅動管理,推動一站式數據開發(fā)管理平臺項目真正實現(xiàn)落地。

典型客戶:

一汽、中石化、永旺、中金公司、銀華基金 4.2敏捷數據管道

市場定義:

基于ETL、ELT、CDC、Kafka等方式,從多種數據源采集原始數據,經過數據轉換,存儲至數據湖(數據倉庫)中,實現(xiàn)數據集成和標準化。

甲方終端用戶:

制造、汽車、消費品零售、能源等行業(yè)的大數據部門負責人、IT部門負責人和業(yè)務部門(業(yè)務部門ITBP)

甲方核心需求:

甲方的目標是更加敏捷、自動化地搭建數據管道,并對數據管道進行統(tǒng)一管理和編排。

隨著數字化轉型的深入和數據消費需求的增加,甲方內部的IT環(huán)境和數據環(huán)境越來越復雜,數據集成工具越來越多,彼此難以融合,相互割裂運行,對運維和管理提出了很高的挑戰(zhàn)。與此同時,數據管道的重要度越來越高,特別在業(yè)務部門對數據分析需求日益增長的趨勢之下,越來越多的數據管道建設需求來自于業(yè)務部門。

因此,數據管道逐步從整個大數據平臺獨立出來,作為一個獨立項目進行建設、運維和管理。以新消費、新能源為代表的行業(yè),IT部門規(guī)模不大,但業(yè)務部門有很強烈的數據分析需求,敏捷、輕量、自助式數據管道建設需求日益增強。

1)數據類型和應用場景越來越多,對數據管道建設提出了更高要求。

傳統(tǒng)企業(yè)面臨的數據應用場景也更加多元,如BI報表、實時決策、基于機器學習的預測性分析等;同時,數據體量和多樣性也在快速增長,隨著物聯(lián)網應用的落地,時序、GIS、圖像、視頻、文本等新興數據類型大規(guī)模涌現(xiàn)。因此需要支持離線和在線場景,結構化、半結構化、非結構化等數據類型的數據采集。

2)業(yè)務快速迭代,敏捷搭建和自動化運維管理是數據管道建設的必備能力。

企業(yè)業(yè)務進行數字化轉型,產生大量數字化應用,對數據分析、數據應用提出了更高的要求。一方面業(yè)務發(fā)展變化快,傳統(tǒng)的ETL數據抽取、轉換和加載工作量繁雜,單這一流程會耗費數周乃至上月時間,導致業(yè)務面臨時效性之后,因此需要能夠快速搭建數據管道;另一方面隨著管道數量和數據量的迅速增加,數據管道的運維管理壓力變大,人工運維的模式無法應對,需要更多自動化的工具。

廠商能力要求:

廠商需要支持多類型數據源,滿足業(yè)務場景需求。同時支持離線和實時集成模式,滿足ETL、ETL、CDC、Kafka等多種技術路線,支持常見的各類型數據源,滿足各類型業(yè)務系統(tǒng)之間復雜的數據分發(fā)、推送、傳輸和共享發(fā)布。

圍繞著運維管理監(jiān)控,廠商需要支持豐富的工具鏈和較高的自動化程度。提供組件化的多種類型數據處理工具,支持相互銜接組合,以滿足數據采集、數據轉換、數據存儲過程中的各種數據處理需求,并把重復的工作流程嵌入自動化,提升效率。

產品需要具備易用性。數據管道的使用人群不僅僅是IT部門,還有一部分業(yè)務部門的ITBP角色,因此根據不同使用角色的需求,需要支持通過拖、拉、拽等簡單操作方式完成數據集成流程的構建和相關功能。

入選標準:

1.符合敏捷數據管道市場分析的廠商能力要求;

2.累計在該市場服務客戶數10家及以上;

3.累計在該市場收入1000萬及以上。

代表廠商評估:

       谷云科技

廠商介紹:

谷云科技(廣州)有限責任公司成立于2017年,是國內最早一批專注于iPaaS混合集成中臺研發(fā)的產品和技術解決方案提供商。公司專注于數據集成、服務集成、MQ消息集成、API管理領域,從底層開發(fā)框架入手完全自主研發(fā),并基于統(tǒng)一平臺自主研發(fā)了全線RestCloud系列產品,服務于零售、制造、金融、教育等行業(yè)企業(yè)客戶,以及政府機構等各類組織。

產品服務介紹:

RestCloud 數據集成平臺是谷云科技基于DataOps理念完全自主研發(fā)和創(chuàng)新的新一代數據集成平臺,平臺一站式融合了ETL、ELT、CDC、API等能力,可幫助企業(yè)客戶快速搭建批流一體的數據集成底座,實現(xiàn)業(yè)務系統(tǒng)之間的數據集成和多源異構數據的交換和融合。

作為一套面向數據集成的輕量化、標準化產品,RestCloud 數據集成平臺采用全Web化配置,開箱即用,能夠讓用戶實現(xiàn)自助式構建數據管道,并具有豐富的組件,幫助用戶實現(xiàn)開發(fā)、測試、發(fā)布、監(jiān)控、告警、運維等一系列工作。同時,結合谷云科技的API服務平臺,RestCloud數據集成平臺可以幫助企業(yè)快速構建輕量級數據中臺,滿足企業(yè)統(tǒng)一數據管理和數據共享需求,幫助IT部門實現(xiàn)對業(yè)務部門的支持。

廠商評估:

整體來看,谷云科技自主研發(fā)的數據集成平臺在數據傳輸性能、任務調度架構、產品易用性和系統(tǒng)穩(wěn)定性等方面具備優(yōu)勢,同時創(chuàng)新的把CDC和ETL進了一體化設計,使得實時流數據和批數據可以進行混合處理和合并。

1)技術能力強,覆蓋多種技術路線,滿足多種場景數據處理要求。

谷云科技的RestCloud數據集成平臺支持ETL/ELT離線數據處理和CDC實時數據處理等技術路線,能夠滿足企業(yè)客戶離線和實時業(yè)務場景的數據處理需求,滿足大中小型企業(yè)進行數據倉庫/數據中臺構建、客戶主數據平臺的構建、工業(yè)互聯(lián)網IoT設備的數據采集、云上云下SaaS數據同步、混合云數據同步等各種復雜數據集成應用場景的需求。同時,通過配置BI以及API數據服務,谷云科技還可構建各種數據應用的創(chuàng)新場景,滿足于企業(yè)敏態(tài)化數據消費需求。

谷云科技的RestCloud 數據集成平臺能夠廣泛支持企業(yè)的各類數據源和數據類型,不但具備功能強大的離線數據處理能力,同時具備實時數據傳輸能力,能夠支持包含國產數據庫在內的40多個數據源,以及Kafka、MQTT物聯(lián)網數據、HTTP等多類型實時數據流接入。

2)產品架構設計能力強,具有標準化、輕量化等特點。

谷云科技將RestCloud 數據集成平臺分為執(zhí)行層、管理層和調度層支持10000+數據管道的準確調度和執(zhí)行,平臺作為標準化產品,能夠按模塊進行自由地分離和組裝,大大增強了平臺的靈活性和可擴展性。一方面,平臺可以快速接入新的數據源,滿足不同場景的數據需求;另一方面,可以根據用戶的偏好和現(xiàn)狀,自定義配置平臺的功能和數據處理組件,平臺采用輕量化架構可以幾分鐘內完成部署上線并可運行在公有云、私有云以及個人電腦上。

3)產品易用性強,能夠滿足不同發(fā)展階段的企業(yè)需求。

基于過往實踐經驗,谷云科技將大量數據集成、數據服務過程中涉及的功能模塊封裝到RestCloud數據集成平臺中,數據抽取、加載、清洗、運算、脫敏、行轉列、列轉行等相關組件超過100種。

考慮到不同企業(yè)用戶自身IT能力的差異,谷云科技的RestCloud平臺支持自助式開發(fā)設計,支持基于純Java語法的自定義規(guī)則和算法,能夠通過規(guī)則實現(xiàn)復雜的自定義業(yè)務邏輯處理。因此,用戶通過可視化拖、拉、拽方式,完成數據管道的構建并實現(xiàn)數據抽取、轉換、清洗、脫敏、加載等功能。

4)底層技術架構以自研為主,平臺系統(tǒng)穩(wěn)定性、可用性強。

谷云科技基于微服務架構研發(fā)的RestCloud數據集成平臺,能夠支持大規(guī)模的分布式部署架構,滿足企業(yè)用戶的云原生應用場景的需求?;谖⒎占軜媽φ麄€平臺進行技術解耦,每個功能模塊都可以獨立運行,使得平臺未來具備SaaS化的發(fā)展?jié)摿Α?/p>

ETL、ELT、CDC、調度平臺、API開發(fā)平臺等技術均以自研為主,而不是基于開源技術架構之上做改進和優(yōu)化,底層技術能力完全自主可控,提升了整個平臺的穩(wěn)定性和可控性。

典型客戶:

浙商證券、中金財富、三一重工、中建科工、億緯鋰能 4.3智能數據資產目錄

市場定義:

面向業(yè)務場景,結合機器學習和知識圖譜技術,實現(xiàn)元數據一站式、自動化管理,包含數據采集、數據血緣、數據標準、數據發(fā)現(xiàn)、權限管理、資產監(jiān)控等。

甲方終端用戶:

金融、制造、汽車、消費品零售、能源等行業(yè)及政府機關的大數據部門負責人、IT部門負責人

甲方核心需求:

業(yè)務與數據“脫節(jié)”是很多甲方當前面臨的重要問題之一。一方面,數據開發(fā)部門對業(yè)務理解有限,導致整個數據開發(fā)過程緩慢;另一方面,不同業(yè)務之間的數據如何打通和融合,建立統(tǒng)一的數據標準,對數據開發(fā)部門來說挑戰(zhàn)很大。以政府應急管理為例,數據來自于多個不同的委辦局,需要以一套標準、流程和規(guī)范來開展工作,實現(xiàn)對安全隱患的排查、監(jiān)督和管理,背后是對不同業(yè)務的數據表單、字段和指標的融合和統(tǒng)一。企

針對當前快速、多變的數據服務需求,甲方的目標是基于現(xiàn)有數據資產目錄基礎上增加更多面向業(yè)務場景的標簽和指標,實現(xiàn)數據部門與業(yè)務部門的連接,并同時具備自動化迭代能力,持續(xù)提升數據開發(fā)效率。

1)快速梳理業(yè)務、建立業(yè)務認知的方法論。

以業(yè)務為中心,解決“數據在哪里”、“數據誰負責”以及數據如何用等問題,識別出業(yè)務主責部門、相關核心業(yè)務系統(tǒng)的核心對象、核心數據,打通查數/取數環(huán)節(jié)、打通基礎類數據和指標類數據的聯(lián)系。這些問題需要有一套方法論,能夠幫助數據開發(fā)部門快速開展工作的標準、流程和規(guī)范。

2)兼顧當前和未來需求的可擴展架構。

隨著創(chuàng)新業(yè)務發(fā)展,未來會有越來越多業(yè)務部門納入到數字化建設中,數據驅動業(yè)務滲透率持續(xù)提升,勢必使得數據復雜度持續(xù)提升,如何能夠兼顧當前業(yè)務需求,并為長期發(fā)展奠定基礎,需要一套具備可擴展性的技術架構,能支撐未來的更豐富的應用需求,實現(xiàn)業(yè)務流程和場景智能化的提升。

廠商能力要求:

廠商需要滿足對甲方業(yè)務理解能力,能夠基于業(yè)務視角提供解決方案?;趶S商自身積累的方法論,快速從多維度業(yè)務視角理解業(yè)務表達的含義、關系和趨勢,理解業(yè)務服務的對象、范圍,厘清數據與業(yè)務、業(yè)務與業(yè)務之間的關系,建立起對業(yè)務的認知,從而指導數據匯聚和數據應用。

廠商需要具備較強的技術架構能力,產品滿足自動化和擴展性需求。能夠通過原生集成和擴展的方式連接全域數據,并結合機器學習和知識圖譜等技術,實現(xiàn)自動編目數據、自動化數據和業(yè)務血緣,支持數據治理工作,并滿足不斷豐富的業(yè)務場景和數據應用需求。

入選標準:

1.符合智能數據資產目錄市場分析的廠商能力要求;

2.累計在該市場服務客戶數5家及以上;

3.累計在該市場收入1000萬及以上。

代表廠商評估:

       愛數

廠商介紹:

上海愛數信息技術股份有限公司(簡稱“愛數”)成立于2006年,是領先的全域數據能力服務商。愛數以全域數據能力、統(tǒng)一架構和平臺+生態(tài)模式,打造創(chuàng)新的大數據基礎設施,通過AnyBackup、AnyShare、AnyRobot、AnyDATA、AnyFabric等產品覆蓋全域數據的整合、治理、保護,實現(xiàn)數據資產化和知識化,與客戶共創(chuàng)數據驅動型組織。依托自身強大的大數據基礎設施,愛數已服務超40個國家、地區(qū)的27000+客戶。

產品服務介紹:

AnyFabric是面向全域數據的數據資產管理平臺,為企業(yè)或政府機構提供的一套智能數據資產管理解決方案。基于領域認知智能和Data Fabric架構思想,通過對元數據的全面采集、深度學習、認知推理分析,自動關聯(lián)數據的業(yè)務語義,快速生成數據資產知識網絡,實現(xiàn)業(yè)務與數據的連接,業(yè)務與業(yè)務的連接,從而實現(xiàn)以業(yè)務為中心的數據管理和運營,助力客戶實現(xiàn)數據驅動組織,通過認知智能輔助數據管理和業(yè)務決策。目前已經在政府、制造、零售等行業(yè)率先落地,已經積累了不少成功落地案例。

廠商評估:

整體來看,愛數基于Data Fabric架構研發(fā)的AnyFabric在數據管理架構、認知智能和開放集成能力上具備優(yōu)勢。

1)以業(yè)務為中心設計產品架構,產品功能豐富且貼近業(yè)務需求。

AnyFabric通過業(yè)務治理整合數據孤島,簡化數據治理。相較于基于數倉的強管控模型下集中化的數據治理,愛數采用了以業(yè)務為中心編織、連接所有元數據,通過建立數據資產知識網絡來編織和驅動數據的方式。AnyFabric通過連接型架構和領域認知智能作為核心引擎,以業(yè)務模型為中心連接全域數據,利用知識圖譜引擎構建數據資產知識網絡,形成了增強型數據資產目錄。不僅能夠賦能企業(yè)整合數據孤島,還能從業(yè)務視角出發(fā),自動化、精確指導數據歸集、清洗、開發(fā)和加工等,簡化數據治理。

AnyFabric基于業(yè)務提升數據質量,實現(xiàn)數據資產化。AnyFabric所建立的數據資產知識網絡,能夠快速發(fā)現(xiàn)業(yè)務與業(yè)務之間的融合關系,監(jiān)控業(yè)務指標、風險定位,做出問題分析、價值判斷等。在數據準備環(huán)節(jié)圍繞業(yè)務透視企業(yè)多個系統(tǒng)間的復雜關系,并實現(xiàn)直接獲取業(yè)務部門真正需要的原始數據,提高數據質量。基于業(yè)務標準并結合領域認知智能,高效組織和調度數據,開展數據治理,最終有效賦能業(yè)務最大化產生價值。

AnyFabric的業(yè)務可擴展性強。愛數采用業(yè)務視角的連接型架構,并將智能資產目錄建立的流程和模板固化到產品中。當企業(yè)出現(xiàn)新的業(yè)務時,將按照步驟進行業(yè)務梳理和成果輸出,原有的業(yè)務語義能夠由機器學習自動推薦,并識別相關的業(yè)務對象、業(yè)務對象,最終迅速到融入領域業(yè)務知識網絡中。后臺通過自動更新,不斷豐富業(yè)務和數據之間的關系,實現(xiàn)自動迭代和拓展,更好的應對企業(yè)的業(yè)務擴張。

2)融合知識圖譜技術,具備自動化和智能化能力。

愛數在知識圖譜領域已有超過四年的技術沉淀,并在多個行業(yè)有成功項目落地經驗。在原有數據資產目錄之上,結合愛數現(xiàn)有知識圖譜技術沉淀,使得數據資產目錄具備自動化和智能化,形成領域知識網絡,并在此基礎上實現(xiàn)推理分析和輔助決策,最終實現(xiàn)業(yè)務智能化。

AnyFabric通過融合機器學習、知識圖譜等先進技術,實現(xiàn)自動化的元數據采集、編目數據和數據血緣跟蹤。通過自動抽取本體和連接,并輔以人工校核,自動形成單業(yè)務知識圖譜,將多個單業(yè)務知識圖譜自動匯聚,連接生成企業(yè)級的業(yè)務知識網絡,賦能數據服務開發(fā)工作。借助自動化、智能化技術降低整個過程中數據編目的復雜性和工作量,幫助業(yè)務和數據管理人員輕松掌握數據的轉換和流動。

3)統(tǒng)一技術架構,能夠與愛數其他產品線融合,能夠提供端到端的解決方案。

AnyFabric沿用了愛數統(tǒng)一的技術棧架構,與AnyDATA、AnyShare等愛數產品內置對接,在統(tǒng)一的ONE架構上融合部署和深度集成,降低數據管理的運維難度和復雜性,為企業(yè)提供全域數據能力和一致的用戶體驗。

典型客戶:

中新天津生態(tài)城、郴州市城市大腦、中國中車 5. 入選廠商列表

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )