在這場出人意料的新冠疫情之下,中國的大數(shù)據(jù)技術(shù)展現(xiàn)了驚人的威力:
追蹤流動人口,極速公布各地疫情報(bào)告,覆蓋所有人群的健康碼大數(shù)據(jù)服務(wù),電商數(shù)據(jù)調(diào)動醫(yī)療資源,AI+大數(shù)據(jù)助力醫(yī)藥研發(fā)······
不管是傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),如人員信息、醫(yī)院等醫(yī)療資源信息等,還是復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù),如地理位置數(shù)據(jù)、圖像數(shù)據(jù)、文本數(shù)據(jù)、語音數(shù)據(jù)等,各個(gè)層面的海量數(shù)據(jù)在客觀、透明的基礎(chǔ)上,以不同的技術(shù)進(jìn)行處理、分析,助力全民戰(zhàn)疫。
這些應(yīng)用的背后是中國大數(shù)據(jù)技術(shù)與應(yīng)用的進(jìn)步,大數(shù)據(jù)基礎(chǔ)軟件自主研發(fā)成果不斷,大數(shù)據(jù)軟件國產(chǎn)化替代加速,大數(shù)據(jù)上云向用戶提供按需服務(wù),金融、航空航天、新零售等行業(yè)大數(shù)據(jù)應(yīng)用卓有成效。
而在數(shù)字化商業(yè)世界中,新的時(shí)代會產(chǎn)生新的機(jī)會,新的技術(shù)會創(chuàng)造更廣闊的空間。
隨著數(shù)據(jù)量和數(shù)據(jù)種類的不斷增多,由單一一個(gè)數(shù)據(jù)平臺處理一類數(shù)據(jù)的應(yīng)用雖然能力不斷完善,但是還是難以滿足用戶用一個(gè)平臺處理不同類型數(shù)據(jù)模型的需求。
人們也期望用一個(gè)統(tǒng)一的平臺,處理不同類型的數(shù)據(jù),提高數(shù)據(jù)處理和分析的效率,降低成本。
01
用戶呼喚多模型數(shù)據(jù)處理平臺
大數(shù)據(jù)平臺是囊括大數(shù)據(jù)存儲、處理和數(shù)據(jù)應(yīng)用分析的集成化數(shù)據(jù)開發(fā)平臺。建設(shè)這樣一個(gè)大數(shù)據(jù)平臺必然會面臨很多問題:如何管理一個(gè)單體大集群;多源數(shù)據(jù)如何錄入;當(dāng)數(shù)據(jù)接入之后,如何高效的存儲和查詢這些數(shù)據(jù),如何管理這些數(shù)據(jù),避免形成數(shù)據(jù)沼澤;如何保障數(shù)據(jù)安全,如何將數(shù)據(jù)展現(xiàn)給用戶等。這些基本上就是一個(gè)企業(yè)級大數(shù)據(jù)平臺需要具備的能力。
IDC公布的2016~2020年生產(chǎn)的數(shù)據(jù)量與增長率
從2008年誕生起,大數(shù)據(jù)平臺從落地上看就是一組技術(shù)或者工具的組合,是以海量數(shù)據(jù)存儲、計(jì)算及不間斷流數(shù)據(jù)實(shí)時(shí)計(jì)算等場景為主的基礎(chǔ)設(shè)施。
而開源社區(qū)其實(shí)已經(jīng)發(fā)展出了多種組件,可以供市場組合一套大數(shù)據(jù)平臺.但是由于涉及到公司內(nèi)部的業(yè)務(wù)場景以及模式,以及很難有非常全面掌握這些工具的人才,所以這些工具組合可能不完全適用。
開源的大數(shù)據(jù)平臺工具
到目前為止,對于一些單一的典型場景,市場上出現(xiàn)不同的產(chǎn)品,有了知名的解決方案,解決數(shù)據(jù)的多樣性。
例如,結(jié)構(gòu)化數(shù)據(jù)使用Hive,動態(tài)列模型使用Bigtable、Hbase,應(yīng)用于數(shù)據(jù)存儲的文檔數(shù)據(jù)庫MongDB,專注于滿足各類復(fù)雜搜索需求的ElasticSearch,常被應(yīng)用于會話緩存的高速NoSQL數(shù)據(jù)庫Redis,圖數(shù)據(jù)庫Neo4J,以及由實(shí)時(shí)計(jì)算引擎正成為通用大數(shù)據(jù)引擎的Flink等。
但是這些產(chǎn)品都是孤立的,每一個(gè)或者類只能解決一類問題。當(dāng)用戶的數(shù)據(jù)有很多類型,就不得不采用不同種類的數(shù)據(jù)庫,并把它混在一起使用。
接受記者采訪的一位不愿署名的專家認(rèn)為,新的數(shù)據(jù)類型,傳統(tǒng)關(guān)系結(jié)構(gòu)數(shù)據(jù)、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),以及新的業(yè)態(tài)(如IOT)、新的數(shù)據(jù)來源(外部爬蟲數(shù)據(jù))、新的數(shù)據(jù)格式(如社交、游戲、地理)等多元化的數(shù)據(jù)出現(xiàn),都對多模異構(gòu)數(shù)據(jù)處理產(chǎn)生訴求。
接受記者采訪的星環(huán)研發(fā)總監(jiān)呂程認(rèn)為,由于各個(gè)數(shù)據(jù)庫各自為政,應(yīng)用開發(fā)商或客戶不得不自己架設(shè)一層,來解決數(shù)據(jù)在不同庫間的導(dǎo)入導(dǎo)出、數(shù)據(jù)在不同庫中的一致性、綜合集群整體運(yùn)維等一系列問題。因此,混合使用的方式操作不便、運(yùn)維復(fù)雜的問題會日益凸顯。
今天,客戶對這種架構(gòu)越來越難容忍,希望能用一套大數(shù)據(jù)平臺,解決各種復(fù)雜的數(shù)據(jù)結(jié)構(gòu)問題。
星環(huán)科技創(chuàng)始人、CEO孫元浩接受中國軟件網(wǎng)記者采訪時(shí)認(rèn)為,目前,大數(shù)據(jù)行業(yè)一個(gè)明顯的發(fā)展趨勢就是推出一個(gè)統(tǒng)一的大數(shù)據(jù)平臺,能夠處理多種數(shù)據(jù)模型,能夠提供統(tǒng)一的編程語言、統(tǒng)一的計(jì)算引擎,使用統(tǒng)一的存儲管理系統(tǒng)、統(tǒng)一的資源調(diào)度系統(tǒng),能夠支持多種不同的數(shù)據(jù)模型。
孫元浩說:“星環(huán)科技把這個(gè)統(tǒng)一的大數(shù)據(jù)平臺,稱為多模型異構(gòu)的數(shù)據(jù)處理平臺。”
02
兩條發(fā)展路徑,兩種不同結(jié)果
在大數(shù)據(jù)軟件發(fā)展中,技術(shù)路線發(fā)展演繹精彩紛呈,令人目不暇接。畢竟這是一個(gè)巨大的市場機(jī)會,創(chuàng)造天量的市場機(jī)會,也會誕生像微軟、谷歌、AWS一樣的行業(yè)巨人。
雖然專家們將大數(shù)據(jù)的技術(shù)路線大體上分為Hadoop路線、Spark路線、自主研發(fā)路線、以及上一代MPP架構(gòu)沿用路線等,但是記者認(rèn)為,在發(fā)展多模型大數(shù)據(jù)平臺方面,幾本上可以分為兩大技術(shù)路線,一是開源路線,另一個(gè)是自主研發(fā)路線。
不管是那種技術(shù)路線,一些數(shù)據(jù)庫或大數(shù)據(jù)廠商在多模型數(shù)據(jù)處理上都提出自己的“行業(yè)解決方案”,一些則推出自己的“數(shù)據(jù)云平臺”等。雖然各種描述五花八門,但其解決的核心問題和其核心架構(gòu),還是解決異構(gòu)數(shù)據(jù)庫間的數(shù)據(jù)同步等底層問題,使客戶從這些底層問題中解放出來,像使用單一數(shù)據(jù)平臺一樣簡便易用,從而為客戶創(chuàng)造價(jià)值。
開源路線的代表就是Hadoop和Spark。
提起大數(shù)據(jù),依然不能不提Hadoop。因?yàn)镠adoop讓海量的數(shù)據(jù)能分布存儲,并能分布的存取與處理。過去Hadoop幾乎成了大數(shù)據(jù)的代名詞。
專家認(rèn)為,作為大數(shù)據(jù)基礎(chǔ)軟件的一大技術(shù)路線,基于開源Hadoop發(fā)展的最大優(yōu)勢就是可處理的數(shù)據(jù)量龐大且運(yùn)行穩(wěn)定。在節(jié)點(diǎn)資源不增加的情況下,運(yùn)行速度雖然不占優(yōu)勢,但卻十分穩(wěn)定。既是優(yōu)勢也是劣勢,Hadoop在批處理方面的強(qiáng)大無法掩蓋其在交互式分析和流處理方面的缺憾。
在大數(shù)據(jù)發(fā)展中,開源大數(shù)據(jù)平臺Hadoop占據(jù)至關(guān)重要的地位。Cloudera、Hortonworks、MapR是Hadoop的三駕馬車。
2018年,Cloudera和Hortonworks因?yàn)檫B連虧損,兩大巨頭公司宣布平等合并,Cloudera以股票方式收購Hortonworks。但合并后公司股價(jià)繼續(xù)下跌。
2019年6月,MapR就預(yù)告公司營收遇到困難,正在尋求解困的措施。隨后的8月6日,惠普企業(yè)HPE宣布收購MapR的資產(chǎn),包括MapR的技術(shù)、知識產(chǎn)權(quán)、人工智能以及數(shù)據(jù)管理方面的專業(yè)經(jīng)驗(yàn)。
Spark技術(shù)的代表企業(yè)是Databricks。Databricks公司是由加州大學(xué)伯克利分校負(fù)責(zé)開發(fā)流行的開源Apache Spark數(shù)據(jù)處理框架的團(tuán)隊(duì)創(chuàng)建的。該公司幫助大企業(yè)快速處理、整合和分析大量數(shù)據(jù)。它的統(tǒng)一分析平臺旨在孤立的數(shù)據(jù)存儲系統(tǒng)之間建立數(shù)字管道,并幫助工程師和數(shù)據(jù)科學(xué)家更好地溝通。
Databricks公司業(yè)務(wù)方向已經(jīng)轉(zhuǎn)移到“大數(shù)據(jù)分析和人工智能解決方案”?,F(xiàn)在行業(yè)內(nèi)更多的將其看成一家AI公司。
針對多模型數(shù)據(jù)處理,開源路線方面的舉措是推出多模型數(shù)據(jù)庫,當(dāng)然這些數(shù)據(jù)庫也是開源的。
ArangoDB是一個(gè)開源的、原生的多模型NoSQL數(shù)據(jù)庫,同時(shí)支持Doc、Graph、K/V三種存儲,它有適用于全部三種數(shù)據(jù)模型的統(tǒng)一內(nèi)核和統(tǒng)一數(shù)據(jù)庫查詢語言—AQL (ArangoDB Query Language),非常適用于搭建高性能的應(yīng)用和服務(wù)。
ArangoDB還允許在單個(gè)查詢中混合使用三種數(shù)據(jù)模型。因此,用戶可以在單次查詢過程中混合使用多種數(shù)據(jù)模型,而無需在不同數(shù)據(jù)模型間相互“切換”,也不需要執(zhí)行數(shù)據(jù)傳輸過程,并且這三種數(shù)據(jù)模型均支持水平擴(kuò)展。
2018年初,ArangoDB完成1156萬美元融資,深受投資人追捧。2020年初,ArangoDB 3.6 發(fā)布。
多模數(shù)據(jù)庫ArangoDB的優(yōu)勢
不過ArangoDB的優(yōu)勢是一個(gè)內(nèi)核、一個(gè)查詢語言、支持三種數(shù)據(jù)模型。其缺點(diǎn)也是僅支持三種數(shù)據(jù)模型,應(yīng)用受到了限制。
對于一些單一的典型場景,市場上出現(xiàn)的不同產(chǎn)品和知名的解決方案大都是開源系統(tǒng),所以對多模型數(shù)據(jù)支持的產(chǎn)品很難放棄自身優(yōu)勢的開源項(xiàng)目,而是在原數(shù)據(jù)模型支持基礎(chǔ)上的擴(kuò)充,而更多的是新的開源項(xiàng)目。
另一條技術(shù)路線就是以星環(huán)科技為代表的自主開發(fā)。
中國用戶需要處理的數(shù)據(jù)量遠(yuǎn)超過之前在其他國家的需求。同時(shí)中國用戶在應(yīng)用場景方面有著非常強(qiáng)的創(chuàng)新意識,需要處理的場景復(fù)雜度也超過了其他國家用戶。
星環(huán)科技就是專注解決用戶的這些難點(diǎn),走出了一條獨(dú)特的自主研發(fā)技術(shù)創(chuàng)新之路。星環(huán)的產(chǎn)品體系已經(jīng)從最早的分析型數(shù)據(jù)庫擴(kuò)展至閃存加速分析型數(shù)據(jù)庫、實(shí)時(shí)計(jì)算、全文檢索數(shù)據(jù)庫、圖數(shù)據(jù)庫、Bigtable數(shù)據(jù)庫、交易數(shù)據(jù)庫、基于容器技術(shù)的數(shù)據(jù)云等,從底層資源調(diào)度到上面的計(jì)算引擎,形成了一條有別于Hadoop或Spark、而具有星環(huán)特色的技術(shù)路線,實(shí)現(xiàn)了多個(gè)領(lǐng)域的技術(shù)突破。
Transwarp Data Hub(TDH)是星環(huán)科技推出的企業(yè)級大數(shù)據(jù)平臺,經(jīng)過7年的快速演進(jìn),不斷發(fā)展成熟,在郵政、交通、金融、政府等行業(yè)獲得了大量的部署實(shí)施經(jīng)驗(yàn),同時(shí)向新生的大數(shù)據(jù)技術(shù)領(lǐng)域進(jìn)行的拓展和探索。
5月15日,星環(huán)科技推出一站式大數(shù)據(jù)平臺TDH 7.0版本,主打一站式多模異構(gòu)數(shù)據(jù)處理,打破了行業(yè)內(nèi)普遍存在的不同數(shù)據(jù)庫產(chǎn)品切換的不便利,通過一個(gè)平臺處理多種數(shù)據(jù)模型,讓用戶無需維護(hù)多種數(shù)據(jù)庫成為現(xiàn)實(shí)。
呂程告訴中國軟件網(wǎng)記者,作為一個(gè)多模型的數(shù)據(jù)處理平臺,TDH 7.0可以提供統(tǒng)一的數(shù)據(jù)操作/查詢語言SQL、統(tǒng)一的數(shù)據(jù)計(jì)算引擎、統(tǒng)一的分布式存儲管理系統(tǒng)、統(tǒng)一的資源管理框架,滿足利用一個(gè)多模異構(gòu)平臺,處理多種數(shù)據(jù)的需求。
星環(huán)的一站式多模處理平臺示意
同時(shí),TDH 7.0版本一站式多模異構(gòu)數(shù)據(jù)處理性能亮眼,徹底解決大數(shù)據(jù)發(fā)展的一大瓶頸。據(jù)介紹,TDH從上而下劃分為五個(gè)層次:
最上層是SQL層,開發(fā)了統(tǒng)一的SQL引擎,兼容各種不同的SQL“方言”;
計(jì)算層,開發(fā)了統(tǒng)一的計(jì)算引擎,進(jìn)行統(tǒng)一的計(jì)算任務(wù)優(yōu)化和分發(fā);
其下的存儲模型層,TDH一個(gè)平臺支持七種不同的存儲模型,適用于不同的應(yīng)用場景,包括圖存儲Graph Storage、文檔存儲Document Storage、全文檢索 Full-text Search、鍵值存儲 Key-Value Storage、行列混合存儲 Row-Columnar Storage、時(shí)空地理存儲 Sequential Geospatial Storage、非結(jié)構(gòu)化對象存儲 Unstructured Object Storage。
存儲管理層,開發(fā)了統(tǒng)一的存儲管理引擎,提供數(shù)據(jù)塊分布管理、數(shù)據(jù)多副本一致性管理、文件服務(wù)管理等功能。
最底層資源調(diào)度層,開發(fā)了統(tǒng)一的資源調(diào)度框架,通過容器化編排,統(tǒng)一調(diào)度計(jì)算、存儲、網(wǎng)絡(luò)資源。
統(tǒng)一的數(shù)據(jù)處理平臺幾大的優(yōu)勢:
多模型的數(shù)據(jù)處理平臺的核心是對外提供統(tǒng)一的SQL編程接口、統(tǒng)一的計(jì)算引擎,以及統(tǒng)一的綜合式的存儲管理系統(tǒng)和統(tǒng)一的銷售框架。因此,星環(huán)TDH 7.0的優(yōu)勢體現(xiàn)在這幾大特性的統(tǒng)一和融合上。
TDH 7.0統(tǒng)一的數(shù)據(jù)處理平臺支持超過7種不同的數(shù)據(jù)模型,支持結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),支持KeyValue介質(zhì)存儲、全行搜索、排索引、圖存儲、圖數(shù)據(jù)庫、存儲文檔,也能夠存儲時(shí)空數(shù)據(jù)。這是TDH 7.0的第一大優(yōu)勢。
星環(huán)科技第一家提供了一個(gè)能夠橫跨多種數(shù)據(jù)模型的統(tǒng)一的計(jì)算引擎。雖然有不少公司也在嘗試提供一個(gè)標(biāo)準(zhǔn)的數(shù)據(jù)接口,但是由于底層是不同的數(shù)據(jù)庫,沒用統(tǒng)一的計(jì)算引擎,雖然有統(tǒng)一的SQL接口,但是很難把不同的接口靜態(tài)的路由到功能數(shù)據(jù)庫上。因此,需要一個(gè)動態(tài)的計(jì)算引擎來動態(tài)地進(jìn)行接口的調(diào)度,進(jìn)行執(zhí)行計(jì)劃的統(tǒng)一的管理。
同時(shí)在星環(huán)科技的TDH 7.0也提出了一個(gè)統(tǒng)一的分布式管理系統(tǒng),是實(shí)現(xiàn)數(shù)據(jù)分布管理以及數(shù)據(jù)一致性的數(shù)據(jù)管理系統(tǒng),比過往使用HTVS效率更高、一致性更強(qiáng)。
在同一個(gè)平臺上可以將一份數(shù)據(jù)存儲成多種模型,用戶在應(yīng)用發(fā)生變化時(shí)能夠自行地采用最佳的倉儲模型來響應(yīng)查詢需求,運(yùn)行效率會更高。同時(shí)因?yàn)?strong>一個(gè)平臺處理多種數(shù)據(jù)模型,整運(yùn)維成本、管理成本都會降低。
孫元浩說,未來的數(shù)據(jù)平臺都應(yīng)該是多模型的,但是用戶使用起來更應(yīng)該是像使用一個(gè)數(shù)據(jù)庫一樣使用。
匿名的受訪專家認(rèn)為,星環(huán)的方案,不再沿用傳統(tǒng)的數(shù)據(jù)匯聚方式,而是使用更為輕量化的模式,利用分布式的存儲管理系統(tǒng),達(dá)到邏輯上的統(tǒng)一存儲,再其上構(gòu)建統(tǒng)一的計(jì)算能力。這一變革,無疑對多模異構(gòu)數(shù)據(jù)的使用帶來更大的便捷性。
采用TDH 7.0 多模型數(shù)據(jù)處理平臺的某個(gè)用戶表示,應(yīng)用常常需要對一份數(shù)據(jù)進(jìn)行多種不同模型分析,如分析查詢、模糊匹配查詢、關(guān)系推理查詢等。TDH可以針對不同需求采用多種最優(yōu)存儲模型,如分析查詢采用行列混合存儲,模糊匹配查詢采用全文檢索,關(guān)系推理查詢采用圖數(shù)據(jù)存儲。多種模式的存儲,可以使各場景下的查詢分析性能都得到極大優(yōu)化。
在傳統(tǒng)混合模型中,不同模型數(shù)據(jù)間做關(guān)聯(lián)分析,需要進(jìn)行跨數(shù)據(jù)庫的數(shù)據(jù)導(dǎo)入導(dǎo)出,十分復(fù)雜。而采用了統(tǒng)一的數(shù)據(jù)管理,一個(gè)簡單的SQL語句就可以直接進(jìn)行關(guān)聯(lián)查詢,如同操作同一個(gè)數(shù)據(jù)庫一般,使應(yīng)用開發(fā)變得十分便捷。
在傳統(tǒng)混合模型中,不同模型需要運(yùn)維不同數(shù)據(jù)庫。特別當(dāng)同一份數(shù)據(jù)存儲于多數(shù)據(jù)庫時(shí),數(shù)據(jù)一致性成為極大挑戰(zhàn)。此外,數(shù)據(jù)總體情況的運(yùn)維,需要各個(gè)運(yùn)維子系統(tǒng)匯總并二次開發(fā),運(yùn)維成本巨大。而采用了統(tǒng)一的數(shù)據(jù)管理,在產(chǎn)品底層服務(wù)中直接保障數(shù)據(jù)一致性,同時(shí)對多模型的數(shù)據(jù)進(jìn)行整體運(yùn)維,是天然的一體化系統(tǒng)。
03
大數(shù)據(jù)替代即將來臨
“卡脖子”會成為過去?
多模型數(shù)據(jù)處理平臺的進(jìn)步只是大數(shù)據(jù)技術(shù)發(fā)展的一個(gè)縮影。
呂程認(rèn)為,多模異構(gòu)數(shù)據(jù)平臺未來的發(fā)展方向之一是積極推動主要服務(wù)、組件、模塊的標(biāo)準(zhǔn)化。由于數(shù)據(jù)相關(guān)技術(shù)異常復(fù)雜,技術(shù)日新月異,各類基礎(chǔ)服務(wù)、組件、模塊要做到面面俱到,是異常困難的。而通過建設(shè)一定的標(biāo)準(zhǔn),設(shè)立一定的規(guī)范,讓更多的企業(yè)參與其中,無論是開源社區(qū),還是閉源廠商,都能貢獻(xiàn)自己的力量,創(chuàng)造自己的價(jià)值。
第二,構(gòu)建一個(gè)良性的生態(tài)。除了最基本的作用以外,平臺還應(yīng)當(dāng)能支撐更多的上層應(yīng)用,在不同行業(yè)、不同企業(yè)、不同業(yè)務(wù)中創(chuàng)造更高價(jià)值。這就對基礎(chǔ)數(shù)據(jù)平臺的生態(tài)提出了巨大的挑戰(zhàn),越來越多的應(yīng)用,越來越多的廠商適配的接入,就會創(chuàng)造一個(gè)更加良性循環(huán)的生態(tài),從而促進(jìn)整個(gè)產(chǎn)品和平臺的繁榮。
第三,堅(jiān)持新技術(shù)探索。面對現(xiàn)在日益復(fù)雜場景,不能停留在解決的單點(diǎn)問題。在日益凸顯的復(fù)雜場景面前,不同技術(shù)的組合是否能創(chuàng)造出新價(jià)值呢?是否需要新技術(shù)來解決復(fù)雜場景呢?這些地方是很值得深入研究和發(fā)展探索的,如現(xiàn)在討論比較多的批流一體,又如檢索和分析同時(shí)使用等。
開源路線與自主研發(fā)路線正在演繹另一場大數(shù)據(jù)領(lǐng)域的國產(chǎn)化技術(shù)替代。
近年來,大數(shù)據(jù)產(chǎn)業(yè)飛速發(fā)展,應(yīng)用層和基礎(chǔ)層軟件不斷進(jìn)步,但是實(shí)施復(fù)雜、技術(shù)進(jìn)步步伐遲滯的Hadoop卻不斷遭遇挑戰(zhàn),各種替代技術(shù)不斷涌現(xiàn)。
因此,大數(shù)據(jù)領(lǐng)域因?yàn)殚_源技術(shù)的復(fù)雜性日益增加,用戶采用商用系統(tǒng)或者云服務(wù)商的技術(shù)方案成為一大方向。
Hadoop技術(shù)上碰到了難以逾越的挑戰(zhàn)。Hadoop是基于15年前的技術(shù)環(huán)境設(shè)計(jì)的,如今的硬件技術(shù)環(huán)境發(fā)生根本性變化,網(wǎng)絡(luò)普及萬兆,存儲每秒鐘能夠做上百萬次操作,當(dāng)時(shí)的架構(gòu)已經(jīng)完全跟不上現(xiàn)在硬件的發(fā)展。
另一個(gè)原因,Hadoop軟件是仿造谷歌的系統(tǒng)來構(gòu)建的,最初的目標(biāo)是用于互聯(lián)網(wǎng)公司的日志處理和營銷推廣等場景。當(dāng)這個(gè)技術(shù)應(yīng)用到各行各業(yè)時(shí),就發(fā)現(xiàn)它在功能缺失、一致性和可靠性、高性能并發(fā)等問題上的局限性,無法突破,甚至有分析機(jī)構(gòu)說Hadoop已死。
以前因?yàn)橛虚_源軟件,大家常常有一種感覺,既然有免費(fèi)的,就用免費(fèi)的就好了。但是后面慢慢逐漸認(rèn)識到這種模式的問題,想使用開源Hadoop,就需要大量專業(yè)技術(shù)人員,要知道Hadoop是個(gè)軟件棧,里面有上百款的組件,如何建成大數(shù)據(jù)平臺,并維護(hù)平臺成為一大挑戰(zhàn)。
很多云服務(wù)商會推出自己研發(fā)的產(chǎn)品。目前,大數(shù)據(jù)上云,很多云服務(wù)商會基于開源軟件和自己研發(fā)的系統(tǒng),為用戶建立大數(shù)據(jù)平臺,支持用戶大數(shù)據(jù)應(yīng)用開發(fā)與維護(hù)。目前,它正成為一大方向。
很多大數(shù)據(jù)專業(yè)企業(yè)堅(jiān)持自主研發(fā)路線。星環(huán)科技CEO孫元浩表示,星環(huán)科技堅(jiān)持大數(shù)據(jù)基礎(chǔ)軟件的完全自主研發(fā),原創(chuàng)了一條完全自研的技術(shù)路線。
大數(shù)據(jù)領(lǐng)域另一個(gè)替換則是國產(chǎn)大數(shù)據(jù)基礎(chǔ)軟件產(chǎn)品在不同領(lǐng)域開始替換甲骨文、IBM等國外軟件。國內(nèi)眾多大數(shù)據(jù)平臺已經(jīng)在眾多行業(yè)開始替代包括甲骨文、IBM,甚至一些國外Hadoop供應(yīng)商的產(chǎn)品。
記者獲悉,近日中興通訊簽約國內(nèi)大數(shù)據(jù)企業(yè)永洪科技,利用后者提供的擁有自主知識產(chǎn)權(quán)的一站式大數(shù)據(jù)平臺與可視化分析方案,實(shí)現(xiàn)從企業(yè)管理到客戶經(jīng)營的精細(xì)化運(yùn)營,提升企業(yè)運(yùn)營效率,打造合作共贏的產(chǎn)業(yè)生態(tài)環(huán)境。
接受記者采訪的永洪科技市場總監(jiān)劉東旭說,國產(chǎn)化替代已經(jīng)從軟硬件國產(chǎn)化的“去IOE”(IBM、Oracle、EMC)延伸到頂層設(shè)計(jì)咨詢國產(chǎn)化的“去SOA”(SAP、Oracle、Accenture),保證全方位的信息安全。大數(shù)據(jù)領(lǐng)域的國產(chǎn)化替代會快得多。
孫元浩表示,替代國外產(chǎn)品主要還是技術(shù)革命造成的,不光在中國發(fā)生,在美國創(chuàng)新型的大數(shù)據(jù)基礎(chǔ)軟件也開始替代傳統(tǒng)企業(yè)的數(shù)據(jù)庫等產(chǎn)品,面對日益增加的數(shù)據(jù)量,傳統(tǒng)軟件的處理性能已經(jīng)無法滿足用戶需求,分布式技術(shù)帶來的性能飛躍是客戶進(jìn)行替換的一個(gè)重要動力。在新的技術(shù)領(lǐng)域,星環(huán)科技走得會更快一點(diǎn),替代成功的項(xiàng)目更多一點(diǎn)。
另外,國外的大數(shù)據(jù)軟件在中國“水土不服”。因?yàn)閲鴥?nèi)的數(shù)據(jù)體量通常比國外大一到兩個(gè)數(shù)量級,數(shù)據(jù)應(yīng)用也更為復(fù)雜。1TB和100TB在數(shù)據(jù)分析是完全不同的兩件事,而由于國外并沒有這樣的應(yīng)用場景,所以國外的大數(shù)據(jù)軟件在處理這類的問題時(shí)天生不足。國產(chǎn)軟件在設(shè)計(jì)時(shí)就會充分的考慮這些情況。
帆軟市場經(jīng)理丁明浩告訴記者,大數(shù)據(jù)國產(chǎn)化替代最直接的效果是降低采購成本和運(yùn)營維護(hù)成本,同時(shí)國內(nèi)公司能定制化地為企業(yè)解決運(yùn)營管理線上化進(jìn)程中遇到的各種問題。
工業(yè)和信息化部新聞發(fā)言人、信息技術(shù)發(fā)展司司長謝少鋒介紹,基礎(chǔ)軟硬件方面,將實(shí)施國家軟件重大工程,集中力量解決關(guān)鍵軟件的“卡脖子”問題,著力推動工業(yè)技術(shù)的軟件化,加快推廣軟件定義網(wǎng)絡(luò)的應(yīng)用。
而大數(shù)據(jù)領(lǐng)域的替代,正在從軟件、應(yīng)用等不同領(lǐng)域開展,大數(shù)據(jù)領(lǐng)域的“卡脖子”就成為過去。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )