為什么說云原生數(shù)據(jù)湖正在成為首選?

“因?yàn)橐咔榈脑颍y行業(yè)務(wù)線上化、數(shù)字化的趨勢明顯加快,基于數(shù)據(jù)驅(qū)動(dòng)的業(yè)務(wù)場景不斷涌現(xiàn),業(yè)務(wù)變化多、彈性大、需要快速響應(yīng),數(shù)據(jù)量大、類型豐富,所以我們開始借助云原生數(shù)據(jù)湖服務(wù)實(shí)現(xiàn)對(duì)各類業(yè)務(wù)的快速支持?!币粋€(gè)城商行數(shù)據(jù)部主任去年向大數(shù)據(jù)在線如是說。

的確,隨著千行百業(yè)數(shù)字化轉(zhuǎn)型的深入,數(shù)據(jù)已經(jīng)成為最重要的生產(chǎn)要素,猶如數(shù)字化時(shí)代的“石油”。不過,就像石油需要經(jīng)過開采、精煉一樣,數(shù)據(jù)要想挖掘其價(jià)值,也需要經(jīng)過采集、匯聚、挖掘和分析,最終在各種應(yīng)用場景中創(chuàng)造出價(jià)值。

所以用戶近年來對(duì)于數(shù)據(jù)湖的理念、產(chǎn)品和方案愈發(fā)接受,加上云計(jì)算的日漸普及,云原生數(shù)據(jù)湖服務(wù)正在獲得越來越多用戶的青睞,成為用戶挖掘數(shù)據(jù)價(jià)值的首選。

云與數(shù)據(jù)湖為何是最佳CP

在過去,很多企業(yè)的數(shù)據(jù)以ERP、CRM數(shù)據(jù)為主,數(shù)據(jù)規(guī)模往往是TB級(jí),企業(yè)通常在本地采用昂貴的數(shù)據(jù)倉庫解決方案來存儲(chǔ)和分析數(shù)據(jù),這種方式模型范式固定,底層數(shù)據(jù)無法做到多樣變化,逐漸跟不上企業(yè)業(yè)務(wù)變化的速度。

今天,在5G、物聯(lián)網(wǎng)、人工智能等技術(shù)的驅(qū)動(dòng)下,多個(gè)行業(yè)用戶的數(shù)據(jù)量達(dá)到PB級(jí),并且數(shù)據(jù)類型豐富,除了ERP等數(shù)據(jù)外,還有大量像文檔、視音頻、行為數(shù)據(jù)等非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),業(yè)務(wù)對(duì)于數(shù)據(jù)分析的及時(shí)性也愈發(fā)苛刻,這使得很多用戶將目光瞄準(zhǔn)了云端。

云計(jì)算擁有極為靈活、彈性和可擴(kuò)展的計(jì)算存儲(chǔ)資源,使得數(shù)據(jù)的存儲(chǔ)、分析和應(yīng)用變得無比容易;而數(shù)據(jù)湖最大的價(jià)值在于將企業(yè)內(nèi)各種格式的數(shù)據(jù)統(tǒng)一匯聚,在一份數(shù)據(jù)之上進(jìn)行多種分析,高性價(jià)比且高效的挖掘數(shù)據(jù)價(jià)值。有專家甚至直言,以數(shù)據(jù)湖為底座的數(shù)據(jù)平臺(tái)正在成為企業(yè)數(shù)字化轉(zhuǎn)型的核心。

事實(shí)上,真正讓數(shù)據(jù)湖發(fā)揮價(jià)值與作用的恰恰是云計(jì)算。自2010年數(shù)據(jù)湖概念被提出以來,云服務(wù)商將數(shù)據(jù)湖概念推向落地并且大獲成功。云計(jì)算的分布式架構(gòu)和對(duì)于開源技術(shù)體系的支持,可以讓企業(yè)及時(shí)采用當(dāng)下快速變化的數(shù)據(jù)技術(shù),另外也有利于數(shù)據(jù)湖與機(jī)器學(xué)習(xí)、AI等技術(shù)服務(wù)集成,形成數(shù)據(jù)價(jià)值實(shí)現(xiàn)的閉環(huán)。以華為云云原生數(shù)據(jù)湖MRS服務(wù)為例,經(jīng)歷多年發(fā)展,已經(jīng)廣泛應(yīng)用于公用事業(yè)、金融、運(yùn)營商、醫(yī)療等行業(yè)3000+政企,成為云原生數(shù)據(jù)湖的突出代表。

那么,數(shù)據(jù)湖在經(jīng)歷十年的發(fā)展之后,會(huì)在云計(jì)算時(shí)代呈現(xiàn)出哪些新的趨勢?我們從華為云云原生數(shù)據(jù)湖MRS四大核心能力和最近三大新特性中一見端倪。

數(shù)據(jù)湖再進(jìn)化

回首數(shù)據(jù)湖過去十年,正是數(shù)據(jù)湖產(chǎn)品、技術(shù)和商業(yè)模式不斷探索與落地之路。在這十年里,開源廠商、傳統(tǒng)存儲(chǔ)廠商和云服務(wù)商紛紛加入到數(shù)據(jù)湖的推廣與落地之中。最終,云服務(wù)商們脫穎而出,推動(dòng)著數(shù)據(jù)湖持續(xù)進(jìn)化。

以華為云云原生數(shù)據(jù)湖MRS為例,其除了之前Hadoop生態(tài)的Spark、Flink、Kafka、HBase等各種高性能組件之外,持續(xù)添加像人工智能、數(shù)智融合元數(shù)據(jù)、緩存加速、跨源跨域分析等新能力,不斷拓展數(shù)據(jù)分析的邊界;并且同時(shí)支持混合云和公有云兩種形態(tài);更加重要的是,云原生數(shù)據(jù)湖MRS豐富的組件和豐富的數(shù)據(jù)生態(tài)有機(jī)結(jié)合,為開發(fā)者提供廣泛的選擇,可以讓客戶在公有云快速構(gòu)建高性價(jià)比、靈活開放、安全可靠的一站式大數(shù)據(jù)平臺(tái)。

事實(shí)上,華為云云原生數(shù)據(jù)湖MRS之所以能夠引領(lǐng)數(shù)據(jù)湖的發(fā)展趨勢,離不開其在諸多行業(yè)、不同用戶的真實(shí)場景中的錘煉,通過各種需求趨勢的洞察實(shí)現(xiàn)各種核心能力的不斷提升。以近年來熱門的“數(shù)據(jù)上云”為例,云原生數(shù)據(jù)湖MRS等服務(wù)就承接了華為大數(shù)據(jù)全面上云,經(jīng)歷了內(nèi)部復(fù)雜、大體量業(yè)務(wù)的高壓錘煉,像支持華為終端云觸達(dá)全球7億用戶、PB級(jí)數(shù)據(jù)處理量和20000+大數(shù)據(jù)節(jié)點(diǎn),對(duì)于產(chǎn)品服務(wù)不斷成長都極具價(jià)值。

如今,華為云云原生數(shù)據(jù)湖MRS經(jīng)過內(nèi)部和全球客戶交付的錘煉,已經(jīng)形成企業(yè)級(jí)、易運(yùn)維、高安全、低成本四大核心能力。

首先是企業(yè)級(jí),基于華為FusionInsight大數(shù)據(jù)企業(yè)級(jí)平臺(tái)能力,歷經(jīng)行業(yè)數(shù)萬節(jié)點(diǎn)部署量的考驗(yàn),提供企業(yè)級(jí)調(diào)度實(shí)現(xiàn)不同作業(yè)之間的資源隔離,提供多級(jí)用戶SLA保障。其次是易運(yùn)維,用戶無需關(guān)注硬件的購買和維護(hù)。專門研發(fā)的企業(yè)級(jí)集群管理系統(tǒng),可讓用戶更好監(jiān)控和管理大數(shù)據(jù)平臺(tái);并可通過短信/郵件的方式,提醒用戶平臺(tái)異常。第三是高安全,經(jīng)由華為專業(yè)的安全團(tuán)隊(duì)和德國PSA安全認(rèn)證測試,提供云上高安全的大數(shù)據(jù)服務(wù)?;贙erberos認(rèn)證,實(shí)現(xiàn)了基于角色的安全控制以及完善的審計(jì)功能。第四則是易用運(yùn)維,基于多樣化的云基礎(chǔ)設(shè)施,提供了豐富的計(jì)算、存儲(chǔ)設(shè)施的選擇,MRS集群可以用時(shí)再創(chuàng)建、用時(shí)再擴(kuò)容,用完就可以銷毀、縮容,確保成本最優(yōu)。

事實(shí)上,除了上述四大核心能力外,華為云云原生數(shù)據(jù)湖MRS近期還更新了三大新特性,進(jìn)一步完善了服務(wù)功能與能力,更加貼近當(dāng)前用戶對(duì)于數(shù)據(jù)湖的使用需求。

MRS三大新特性值得關(guān)注

近期,華為云云原生數(shù)據(jù)湖MRS進(jìn)行了全面升級(jí),最為值得關(guān)注的就是Hudi、ClickHouse、Pulsar三大熱門組件的引入。

傳統(tǒng)數(shù)據(jù)湖不支持?jǐn)?shù)據(jù)更新,導(dǎo)致數(shù)據(jù)采用T+1離線處理模式,完全無法匹配業(yè)務(wù)靈活多變的需求。因此,華為云云原生數(shù)據(jù)湖MRS引入Hudi組件,來有效解決數(shù)據(jù)時(shí)效性問題。Hudi可以支持?jǐn)?shù)據(jù)更新、數(shù)據(jù)刪除,還有ACID保證,保證數(shù)據(jù)實(shí)時(shí)入湖更新操作。

引入Hudi之后,華為云云原生數(shù)據(jù)湖MRS的數(shù)據(jù)時(shí)效更快,實(shí)現(xiàn)分鐘級(jí)數(shù)據(jù)入湖,數(shù)據(jù)時(shí)效性從T+1到T+0;面對(duì)數(shù)據(jù)有刪除、更新的場景,Hudi處理效率比傳統(tǒng)采用Hive更新方式高10倍+;此外,Hudi可以讓開發(fā)人員的數(shù)據(jù)更新操作和使用數(shù)據(jù)庫一樣簡單,單條語句即可完成;而數(shù)據(jù)實(shí)時(shí)采集入湖,Hudi把入湖處理的工作分散到全天,把整個(gè)資源消耗的高峰和低峰抹平掉,大幅提升資源利用率。

Apache Pulsar是一個(gè)發(fā)布-訂閱消息系統(tǒng),使用計(jì)算與存儲(chǔ)分離的云原生架構(gòu)。作為一個(gè)云原生的分布式消息流平臺(tái),Pulsar采用了計(jì)算存儲(chǔ)分離架構(gòu),擁有靈活擴(kuò)展、多租戶、更靈活訂閱模式和分層存儲(chǔ)等優(yōu)勢。從對(duì)比測試來看,Pulsar比Kafka更具優(yōu)勢。華為云云原生數(shù)據(jù)湖MRS已經(jīng)發(fā)布Pulsar的POC版本,用戶可以一鍵式部署Pulsar服務(wù),包括Broker和Bookie角色。

ClickHouse則是最近這兩年非?;鸬囊豢铋_源的分析型數(shù)據(jù)庫,擁有極致壓縮率和極速查詢性能。傳統(tǒng)OLAP引擎處理能力有限,數(shù)據(jù)一般需要先組織再與BI工具對(duì)接,導(dǎo)致BI用戶與數(shù)據(jù)工程師溝通周期長、協(xié)作效率低。

此次華為云云原生數(shù)據(jù)湖MRS上線ClickHouse高性能引擎集群,用戶只需要幾分鐘,就可以輕松方便地一鍵式完成集群部署搭建,快速擁有PB級(jí)數(shù)據(jù)的秒級(jí)交互查詢分析能力,幫助用戶帶來極致的性能體驗(yàn)!

華為云云原生數(shù)據(jù)湖MRS的ClickHouse擁有手動(dòng)擋集群模式升級(jí)、平滑的彈性擴(kuò)容能力、多元的鯤鵬算力加持、靈活易用的配置管理、高可用HA部署架構(gòu)、豐富的監(jiān)控運(yùn)維能力和可靠的安全防護(hù)能力等優(yōu)勢。目前,華為云云原生數(shù)據(jù)湖MRS的ClickHouse服務(wù)在華為內(nèi)部實(shí)踐已經(jīng)取得很好效果,整體使用規(guī)模已經(jīng)達(dá)到2000+節(jié)點(diǎn),數(shù)據(jù)量規(guī)模達(dá)10+PB,日增數(shù)據(jù)量100TB。

讓大數(shù)據(jù)遷移更容易

事實(shí)上,大數(shù)據(jù)和數(shù)據(jù)湖相關(guān)技術(shù)、方案經(jīng)過十余年的發(fā)展已經(jīng)日趨成熟,當(dāng)前各大行業(yè)、不同用戶中存在著大量特點(diǎn)迥異的數(shù)據(jù)湖解決方案。為此,華為云打造了大數(shù)據(jù)遷移上云解決方案,提供IDC上云、CDH上云、云上資源遷移等多種大數(shù)據(jù)遷移解決方案,可以實(shí)現(xiàn)業(yè)務(wù)零改造、不中斷、便捷高效的大數(shù)據(jù)遷移。

以某車企的車聯(lián)網(wǎng)業(yè)務(wù)為例,其采用CDH開源大數(shù)據(jù)解決方案,隨著車聯(lián)網(wǎng)數(shù)據(jù)不斷增加,其自建機(jī)房空間不足,擴(kuò)建與研發(fā)投入成本高,運(yùn)維成本也持續(xù)上升,車輛狀態(tài)分析、實(shí)時(shí)監(jiān)控分析等數(shù)據(jù)分析需求卻一直在增加,通過華為云大數(shù)據(jù)遷移方案將其車聯(lián)網(wǎng)業(yè)務(wù)全面服務(wù)化和云化,實(shí)現(xiàn)資源彈性擴(kuò)縮容、百萬級(jí)車輛并發(fā)安全穩(wěn)定介入和打通全價(jià)值鏈數(shù)據(jù)。

如今,華為云大數(shù)據(jù)已經(jīng)成為久經(jīng)各種業(yè)務(wù)場景考驗(yàn)、屢獲市場殊榮的云服務(wù),覆蓋金融、互聯(lián)網(wǎng)、交通、制造等多個(gè)行業(yè)超過3000家政企客戶和超過10000家互聯(lián)網(wǎng)客戶,并且連續(xù)三年蟬聯(lián)中國大數(shù)據(jù)平臺(tái)軟件市場份額榜首。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2022-03-25
為什么說云原生數(shù)據(jù)湖正在成為首選?
以華為云云原生數(shù)據(jù)湖MRS為例,其除了之前Hadoop生態(tài)的Spark、Flink、Kafka、HBase等各種高性能組件之外,持續(xù)添加像人工智能、數(shù)智融合元數(shù)據(jù)、緩存加速、跨源跨域分析等新能力,不

長按掃碼 閱讀全文