數(shù)據(jù)湖十年風雨路,云服務商緣何脫穎而出

數(shù)據(jù)湖,是一個并不新穎卻越來越被用戶看重的名詞。

從2010年Pentaho公司的創(chuàng)始人兼首席技術官詹姆斯·狄克遜(James Dixon)首次提出數(shù)據(jù)湖的概念開始,數(shù)據(jù)湖十年發(fā)展之路可謂是兜兜轉(zhuǎn)轉(zhuǎn)、起起伏伏。在這期間,既有開源廠商們提出的各種營銷理念,也有傳統(tǒng)存儲廠商打造的各類解決方案,更有業(yè)界對于數(shù)據(jù)湖帶來的數(shù)據(jù)沼澤、數(shù)據(jù)價值探索等問題的深入思考。

時至如今,數(shù)據(jù)湖雖然經(jīng)歷了各種各樣的“挫折”,但是數(shù)據(jù)湖在數(shù)字化時代給用戶帶來的價值已經(jīng)愈發(fā)清晰。而率先幫助用戶走出數(shù)據(jù)湖價值落地之路的,不是開源廠商,也不是傳統(tǒng)存儲廠商,恰恰是以AWS為代表的云服務提供商們。

這背后有何緣由?這一切還得從數(shù)據(jù)湖的本質(zhì)談起。

數(shù)據(jù)湖的價值凸顯

維基百科對于數(shù)據(jù)湖的定義是:“Data Lake是一個以原始格式存儲數(shù)據(jù)的存儲庫或系統(tǒng)。它按原樣存儲數(shù)據(jù),而無需事先對數(shù)據(jù)進行結(jié)構(gòu)化處理。一個數(shù)據(jù)湖可以存儲結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及二進制數(shù)據(jù)等?!?/p>

數(shù)據(jù)湖最大的價值在于可以幫助用戶梳理清楚從數(shù)據(jù)存儲、數(shù)據(jù)匯聚到數(shù)據(jù)挖掘這些過程。比如,相比于數(shù)據(jù)倉庫對于數(shù)據(jù)協(xié)作有規(guī)則限制,數(shù)據(jù)湖對于數(shù)據(jù)寫入沒有限制,可以更容易的收集數(shù)據(jù);數(shù)據(jù)湖可以匯聚來自各種數(shù)據(jù)源的數(shù)據(jù),并進行數(shù)據(jù)拉通,從而消除數(shù)據(jù)孤島的問題;而數(shù)據(jù)湖中存放著最原始的數(shù)據(jù)則更加有利于數(shù)據(jù)價值的挖掘。

千萬不要小看數(shù)據(jù)湖所能完成的這些數(shù)據(jù)處理過程。這些都是用戶們在數(shù)字化時代發(fā)揮數(shù)據(jù)價值所必不可少的基礎。時至今日,數(shù)據(jù)其實已經(jīng)成為數(shù)字化時代的一種最為重要的生產(chǎn)資料,數(shù)據(jù)正在加速重塑企業(yè)與組織的生產(chǎn)、經(jīng)營、銷售、服務等流程,就如AWS首席云計算企業(yè)戰(zhàn)略顧問張俠所指出的:“在當今企業(yè)中,數(shù)據(jù)流就是企業(yè)的血液流,企業(yè)的數(shù)字化轉(zhuǎn)型很重要的一個方向就是把數(shù)字化的資產(chǎn)好好利用起來?!?/p>

數(shù)據(jù)湖成為大勢所趨

與此同時,數(shù)據(jù)湖在過去十年并不缺乏產(chǎn)品與解決方案,為何數(shù)據(jù)湖失敗的案例依然不少,為何又是以AWS為代表的云服務提供商們率先走在數(shù)據(jù)湖解決方案落地的最前沿?

事實上,作為很早推動數(shù)據(jù)湖服務的公司,AWS的數(shù)據(jù)湖解決方案成功并不是偶然。首先,Amazon作為全球最大的互聯(lián)網(wǎng)公司之一,其數(shù)據(jù)規(guī)模、數(shù)據(jù)復雜度、數(shù)據(jù)處理難度、數(shù)據(jù)價值挖掘在業(yè)界無出其右,由于背靠Amazon,AWS數(shù)據(jù)湖解決方案天然就得到了不斷的歷練,比如Amazon內(nèi)部一個數(shù)據(jù)湖部署--Galaxy,就存儲了超過50PB的數(shù)據(jù)量,每天進行著多達60萬的數(shù)據(jù)分析任務。

其次,AWS數(shù)據(jù)湖在產(chǎn)品技術層面進行了持續(xù)的提升與完善,其產(chǎn)品組合的成熟度和豐富程度走在了業(yè)界的前列。舉個例子,大部分數(shù)據(jù)湖解決方案都是基于開源Hadoop的,但之前Hadoop集群的計算和存儲緊耦合架構(gòu),使得數(shù)據(jù)湖架構(gòu)的擴展成本高、效率低;而AWS在構(gòu)建數(shù)據(jù)湖解決方案時候,很重要的一個選擇就是讓計算與存儲分離,在存儲上采用S3對象存儲服務,從而讓數(shù)據(jù)湖解決方案可以更好地應用在用戶業(yè)務領域。

另外,AWS作為云計算市場的龍頭,其公有云的環(huán)境也有利于數(shù)據(jù)湖解決方案的部署,在過去十年中為多個不同行業(yè)、不同規(guī)模的用戶提供相關的數(shù)據(jù)湖服務,積累了豐富的用戶實踐經(jīng)驗。

在產(chǎn)品、解決方案以及用戶實踐上的領先其實就是AWS在數(shù)據(jù)湖領域脫穎而出的秘訣所在。

十年之后,AWS描繪出數(shù)據(jù)湖全景圖

從十年前的概念到如今被越來越多行業(yè)用戶所認同和采用,數(shù)據(jù)湖如今不再只是一個名詞,它更代表著一種進化,它是過去十年數(shù)字化驅(qū)動下,用戶在數(shù)據(jù)層面的需求、技術、產(chǎn)品不斷進化的一個縮影。

過去十年移動化、社交化帶來了數(shù)據(jù)指數(shù)級增長、數(shù)據(jù)來源廣泛化、數(shù)據(jù)類型多元化,而像5G、物聯(lián)網(wǎng)、邊緣計算的興起,只會加劇數(shù)據(jù)應用的趨勢,并且會讓現(xiàn)代數(shù)據(jù)應用的復雜性進一步提升,這恰恰反映出用戶過去十年對數(shù)據(jù)應用的需求不斷驅(qū)動著數(shù)據(jù)湖走向落地。

在技術層面來看,云計算、大數(shù)據(jù)以及人工智能具備天然融合在一起的屬性,云計算無疑是過去十年對整個IT產(chǎn)業(yè)界帶來最大變革的技術,它的彈性、靈活為數(shù)據(jù)湖帶來了堅實的基礎;而人工智能在過去幾年取得突破性的發(fā)展,使之成為驅(qū)動數(shù)據(jù)湖發(fā)展的最大驅(qū)動力之一。

而過去十年也是數(shù)據(jù)湖產(chǎn)品與解決方案不斷走向成熟的十年。像AWS這樣的供應商已經(jīng)逐步打造出非常全面與完善的數(shù)據(jù)湖解決方案,可以涵蓋從數(shù)據(jù)收集、匯聚到分析、應用、可視化等方方面面?!皵?shù)據(jù)湖從2014年進入了發(fā)展的第二個階段。以AWS為例,圍繞數(shù)據(jù)湖相關的技術、產(chǎn)品已經(jīng)基本成熟?!睆垈b如是說。

根據(jù)介紹,AWS數(shù)據(jù)湖平臺包括了數(shù)據(jù)倉庫、大數(shù)據(jù)處理、交互查詢、運營分析、數(shù)據(jù)交換、可視化、實時分析、推薦、預測分析。事實上,AWS這種全面的數(shù)據(jù)湖生態(tài)完整覆蓋了數(shù)據(jù)湖的數(shù)據(jù)收集、存儲、分析、應用四個階段,并且這些產(chǎn)品、工具以及服務彼此之間并不是孤立的,互相配合可以達到更加出色效果,快速、便捷地幫助用戶構(gòu)建起數(shù)據(jù)湖相關應用。

AWS擁有涵蓋全面的數(shù)據(jù)分析組件

在AWS 數(shù)據(jù)湖平臺中有很多非常出色的組件,可以幫助用戶解決數(shù)據(jù)湖中典型的挑戰(zhàn)。比如,Amazon EMR大數(shù)據(jù)處理組件,可以在AWS上輕松運行Spark、Hadoop、Hive等大數(shù)據(jù)分析。EMR解決了開源生態(tài)集群部署與維護升級繁雜的痛點,這對于用戶快速應用數(shù)據(jù)湖開源產(chǎn)品與工具大有裨益,

而 Amazon Redshift是一款性能優(yōu)秀、強大、使用簡單、全托管的數(shù)據(jù)倉庫服務,可以輕松進行大規(guī)模并行處理,支持TB級規(guī)模數(shù)據(jù)的擴展,可以通過Spectrum引起將查詢擴展到Amazon S3,與數(shù)據(jù)湖集成可以進行EB級的數(shù)據(jù)湖分析。

其他像Amazon Kinesis、AWS Lake Formation、Amazon Aurora、Amazon S3等都是AWS上深受用戶喜歡的產(chǎn)品與服務。張俠認為:“數(shù)據(jù)湖在云計算時代得以快速發(fā)展,它發(fā)展到現(xiàn)在已經(jīng)包含了所有的數(shù)據(jù)庫、數(shù)據(jù)倉庫等服務,是企業(yè)數(shù)據(jù)體系的基礎。數(shù)據(jù)湖其實比國內(nèi)流行的數(shù)據(jù)中臺更加全面,任何想構(gòu)建數(shù)據(jù)中臺的企業(yè)其實都可以在AWS找到全面的解決方案?!?/p>

多款新品落地,AWS加速中國數(shù)據(jù)湖應用

在中國市場,各個行業(yè)用戶對于數(shù)據(jù)湖也是經(jīng)歷了一個從認知到認可的過程。張俠坦言,當前中國市場的數(shù)據(jù)湖應用依然處于早期階段,整個市場有著非常大的潛力。

中國數(shù)據(jù)湖市場之所以是一個重要且廣闊的市場,無外乎三點:

首先,中國對于數(shù)字經(jīng)濟的重視程度超乎想象,從國家政策還是企業(yè)自身都對于發(fā)展數(shù)字經(jīng)濟有著廣泛的共識,數(shù)字經(jīng)濟加速推動了各個行業(yè)的數(shù)字化進程。根據(jù)IDC《數(shù)據(jù)時代2025》白皮書預測,中國數(shù)據(jù)量預計在未來7年將每年平均增長30%,位居世界第一,隨之而來的就是對于數(shù)據(jù)存儲、匯聚、分析越來越多的需求。

其次,在經(jīng)歷了多年的“企業(yè)上云”之后,各行各業(yè)對于云計算的認知和認可已經(jīng)形成,在企業(yè)加速上云這個過程中,數(shù)據(jù)湖作為與云計算天然緊密聯(lián)系在一起的應用,其實已經(jīng)具備了非常好的基礎設施環(huán)境,用戶在上云之后逐步采用數(shù)據(jù)湖服務也是順勢而為。

再次,中國市場在5G、人工智能、物聯(lián)網(wǎng)等領域的步伐快速,尤其是5G商用所帶來的云計算、通信、大數(shù)據(jù)、人工智能等多項技術走向融合,未來在各個行業(yè)中會催生出更多新的現(xiàn)代化數(shù)據(jù)應用場景,數(shù)據(jù)湖在這個過程中將會起到重要的支撐作用。

AWS在數(shù)據(jù)湖領域深厚的積累有助于推動中國數(shù)據(jù)湖應用落地

據(jù)悉,針對中國市場,AWS近期在中國兩個區(qū)域陸續(xù)上線了多款重磅級的新產(chǎn)品與新服務,其中就包括AWS Glue和Amazon Athena兩款跟數(shù)據(jù)湖相關的服務。張俠透露:“AWS中國之后會陸續(xù)上線數(shù)據(jù)湖相關的產(chǎn)品與服務。隨著越來越多服務落地中國,中國區(qū)用戶可以在短短幾天之內(nèi)完成數(shù)據(jù)湖的建立工作?!?/p>

例如,AWS Glue是數(shù)據(jù)湖應用中一款非常重要的服務,它可以幫助用戶建立起無服務器架構(gòu)的數(shù)據(jù)目錄和ETL服務,自動發(fā)現(xiàn)數(shù)據(jù)并存儲Schema,與AWS上運行的Aurora、RDS、Redshift、S3和數(shù)據(jù)庫引擎天然集成,這將給用戶在使用數(shù)據(jù)湖帶來巨大好處。舉個例子,用戶之前想將數(shù)據(jù)導入Redshift云數(shù)據(jù)倉庫,之前需要自己寫ETL管道,非常不方便,如今有了AWS Glue能夠快速完成數(shù)據(jù)的抽取、轉(zhuǎn)換和加載。

“中國市場的確是到了該好好研究與使用數(shù)據(jù)湖的階段了,尤其是5G、邊緣計算應用上來之后,在數(shù)據(jù)層面更應該匹配走數(shù)據(jù)湖這條路?!睆垈b最后表示道。

總體而言,數(shù)據(jù)湖一晃已經(jīng)走過了十年,從一個概念逐步走向落地。在這十年中,以AWS為代表云服務提供商們真是洞悉了用戶在數(shù)據(jù)湖上的需求,并且圍繞數(shù)據(jù)湖打造出來的一系列全面的產(chǎn)品體系,使得數(shù)據(jù)湖真正走出了一條價值之路。

十年意味著一個階段的結(jié)束,也預示著下一個階段的開啟。數(shù)據(jù)湖在未來會有更大的舞臺。

免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關。文章僅供讀者參考,并請自行核實相關內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2020-04-08
數(shù)據(jù)湖十年風雨路,云服務商緣何脫穎而出
在技術層面來看,云計算、大數(shù)據(jù)以及人工智能具備天然融合在一起的屬性,云計算無疑是過去十年對整個IT產(chǎn)業(yè)界帶來最大變革的技術,它的彈性、靈活為數(shù)據(jù)湖帶來了堅實的基礎;而人工智能在過去幾年取得突破性的發(fā)展

長按掃碼 閱讀全文