消除數(shù)據(jù)重力,從智能湖倉(cāng)(Lake House)讀懂實(shí)現(xiàn)數(shù)據(jù)價(jià)值的未來(lái)

忽如一夜春風(fēng)來(lái),湖倉(cāng)架構(gòu)似花開(kāi)。

今年的云計(jì)算市場(chǎng),似乎誰(shuí)不提湖倉(cāng)架構(gòu)誰(shuí)就落伍。為何湖倉(cāng)架構(gòu)這么火?如今看來(lái),數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)加速互動(dòng),看似偶然、其實(shí)必然。

曾幾何時(shí),很多用戶(hù)因?yàn)楸镜財(cái)?shù)據(jù)倉(cāng)庫(kù)方案各種局限性而叫苦不迭;當(dāng)進(jìn)入到大數(shù)據(jù)時(shí)代,數(shù)據(jù)湖概念興起,人們看到了實(shí)現(xiàn)數(shù)據(jù)價(jià)值的新途徑,甚至還有廠商發(fā)出用數(shù)據(jù)湖替代傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)功能的聲音。

殊不知,數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)從來(lái)就不是取代與被取代的關(guān)系。在數(shù)據(jù)湖蓬勃發(fā)展的同時(shí),數(shù)據(jù)倉(cāng)庫(kù)借著云計(jì)算的東風(fēng),同樣在高速成長(zhǎng)與進(jìn)化。尤其是當(dāng)我們踐行大數(shù)據(jù)十余載、數(shù)據(jù)價(jià)值逐漸深入人心之時(shí),驀然回首愈發(fā)明白:數(shù)據(jù)只有打通、流動(dòng)、共享才能充分發(fā)揮其價(jià)值。

這也是以亞馬遜云科技Lake House為代表的智能湖倉(cāng)架構(gòu)近年來(lái)廣受用戶(hù)青睞的原因。數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)既不是非此即彼的二元選擇,也不是永不相交的兩條平行線,無(wú)縫流動(dòng)、彼此補(bǔ)充才是二者最佳歸宿,也是加速挖掘數(shù)據(jù)價(jià)值的唯一途徑。

從亞馬遜云科技Lake House智能湖倉(cāng)架構(gòu),我們真正讀懂了實(shí)現(xiàn)數(shù)據(jù)價(jià)值的未來(lái)。

數(shù)據(jù)湖為何是必然選擇

眾所周知,數(shù)據(jù)已然成為一種關(guān)鍵的生產(chǎn)資料,成為數(shù)字化時(shí)代一切運(yùn)轉(zhuǎn)的基礎(chǔ)。大量基于數(shù)據(jù)驅(qū)動(dòng)的業(yè)務(wù)場(chǎng)景涌現(xiàn),加速重塑企業(yè)與組織的生產(chǎn)、經(jīng)營(yíng)、銷(xiāo)售、服務(wù)等業(yè)務(wù)。

以銀行營(yíng)銷(xiāo)為例,過(guò)去更多依賴(lài)本地部署的數(shù)據(jù)倉(cāng)庫(kù)解決方案來(lái)制定營(yíng)銷(xiāo)方案,數(shù)據(jù)模型范式有要求、維度單一、實(shí)時(shí)性差,導(dǎo)致?tīng)I(yíng)銷(xiāo)方案分析維度少、業(yè)務(wù)響應(yīng)差,頗像“事后諸葛亮”;而如今的銀行營(yíng)銷(xiāo)方案,通常構(gòu)建在基于數(shù)據(jù)驅(qū)動(dòng)的場(chǎng)景之上,會(huì)收集用戶(hù)各種維度的相關(guān)數(shù)據(jù),采用機(jī)器學(xué)習(xí)不斷學(xué)習(xí)訓(xùn)練模型,實(shí)現(xiàn)在合適場(chǎng)景、合適時(shí)機(jī)將合適產(chǎn)品推薦給用戶(hù),并形成數(shù)據(jù)價(jià)值閉環(huán),不斷完善模型,實(shí)時(shí)調(diào)整營(yíng)銷(xiāo)策略,實(shí)現(xiàn)銀行與用戶(hù)的雙贏。

一個(gè)小小的營(yíng)銷(xiāo)場(chǎng)景恰恰反映出數(shù)據(jù)湖核心價(jià)值所在。自2010年P(guān)entaho CTO James Dixon首次提出數(shù)據(jù)湖概念以來(lái),數(shù)據(jù)湖之所以迅速被人們所認(rèn)可,核心原因在于它幫助用戶(hù)梳理清楚從數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)匯聚到數(shù)據(jù)挖掘的過(guò)程,這恰恰是大數(shù)據(jù)時(shí)代下實(shí)現(xiàn)數(shù)據(jù)價(jià)值的關(guān)鍵基礎(chǔ)。

大數(shù)據(jù)時(shí)代,海量規(guī)模、類(lèi)型豐富的數(shù)據(jù)每時(shí)每刻都在產(chǎn)生,而數(shù)據(jù)湖作為一個(gè)以原始格式存儲(chǔ)數(shù)據(jù)的系統(tǒng),按原樣存儲(chǔ)數(shù)據(jù),無(wú)需事先對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,可以存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及二進(jìn)制數(shù)據(jù)等,并進(jìn)行數(shù)據(jù)拉通、消除數(shù)據(jù)孤島,為數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等提供極大便利。

數(shù)據(jù)湖概念深入人心,但數(shù)據(jù)湖落地卻并不是一帆風(fēng)順,這十年以來(lái)各類(lèi)代表廠商、營(yíng)銷(xiāo)理念、解決方案層出不窮,失敗案例也不在少數(shù),而近年來(lái)真正“撥亂反正”、率先走出數(shù)據(jù)湖價(jià)值落地之路則是以亞馬遜云科技為代表的云服務(wù)提供商們。

歸根結(jié)底,云計(jì)算的彈性、可擴(kuò)展性、存算分離等特性,使之與數(shù)據(jù)湖不期而遇時(shí),在技術(shù)層面和使用層面高度契合,成就了實(shí)現(xiàn)數(shù)據(jù)價(jià)值的一段佳話(huà)。

當(dāng)云與數(shù)據(jù)湖不期而遇

云計(jì)算與數(shù)據(jù)湖之所以能成為一對(duì)絕佳的CP,數(shù)據(jù)規(guī)模是關(guān)鍵因素。

看一個(gè)直觀例子,OpenAI GPT-1模型參數(shù)只有1.1億個(gè),預(yù)訓(xùn)練數(shù)據(jù)量為5GB,最新的GPT-3模型參數(shù)則高達(dá)1750億個(gè),預(yù)訓(xùn)練數(shù)據(jù)量高達(dá)45TB,模型規(guī)模和數(shù)據(jù)量增長(zhǎng)了千倍,更何況那些基于AI模型的各種智能應(yīng)用每天所產(chǎn)生的海量數(shù)據(jù)。

基于數(shù)據(jù)驅(qū)動(dòng)的智慧應(yīng)用爆發(fā),帶來(lái)PB級(jí)甚至EB級(jí)的海量規(guī)模數(shù)據(jù)時(shí),云計(jì)算與數(shù)據(jù)湖組合帶來(lái)的價(jià)值愈發(fā)凸顯:當(dāng)數(shù)據(jù)規(guī)模越來(lái)越大時(shí),計(jì)算能力成為關(guān)鍵,而有了云計(jì)算的彈性與可擴(kuò)展,可以讓海量數(shù)據(jù)的存儲(chǔ)與分析更加容易;與此同時(shí),云計(jì)算與數(shù)據(jù)湖都廣泛采用分布式架構(gòu)與開(kāi)源體系,技術(shù)迭代與進(jìn)化得以加速,適應(yīng)未來(lái)數(shù)據(jù)處理的新需求與新變化;另外,在云上構(gòu)建起數(shù)據(jù)湖平臺(tái)之后,天然集成更多新技術(shù)與服務(wù),例如更好支撐起機(jī)器學(xué)習(xí)等人工智能技術(shù),實(shí)現(xiàn)云數(shù)智的融合。

因此,雖然開(kāi)源和存儲(chǔ)廠商是數(shù)據(jù)湖概念的先行者,但真正走出落地之路則是以亞馬遜云科技為代表的云服務(wù)商。

以亞馬遜云科技為例,早在2009年就推出了 Amazon Elastic MapReduce(EMR)架構(gòu),實(shí)現(xiàn)跨 EC2 實(shí)例集群自動(dòng)配置 HDFS;2012年,亞馬遜云科技推出了具有標(biāo)志性意義的云數(shù)據(jù)庫(kù)倉(cāng)庫(kù)服務(wù)Amazon RedShift;隨后,亞馬遜云科技陸續(xù)打造出Athena、Glue、Lake Formation等一系列核心產(chǎn)品,逐漸形成完整的數(shù)據(jù)湖解決方案。

亞馬遜作為全球最大的互聯(lián)網(wǎng)公司,其數(shù)據(jù)規(guī)模、數(shù)據(jù)復(fù)雜度、數(shù)據(jù)處理難度、數(shù)據(jù)價(jià)值挖掘在業(yè)界無(wú)出其右,這使得亞馬遜云科技對(duì)于數(shù)據(jù)湖的理解、使用以及產(chǎn)品打造等方面往往極具借鑒價(jià)值。

例如,數(shù)據(jù)湖構(gòu)建的核心目的是為了數(shù)據(jù)分析與數(shù)據(jù)挖掘,因此快捷的交互式查詢(xún)就至關(guān)重要。以Amazon Athena為例,其簡(jiǎn)單易用,采用標(biāo)準(zhǔn)SQL 分析 Amazon S3 中的數(shù)據(jù),只需指向開(kāi)發(fā)者存儲(chǔ)在 S3 中的數(shù)據(jù),定義架構(gòu)即可開(kāi)始查詢(xún),它無(wú)需執(zhí)行復(fù)雜的ETL作業(yè)來(lái)為數(shù)據(jù)分析做好準(zhǔn)備。

而數(shù)據(jù)湖無(wú)需事先對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,可以按照任何格式存儲(chǔ)數(shù)據(jù),帶來(lái)最大的挑戰(zhàn)之一就是查找數(shù)據(jù)并了解數(shù)據(jù)結(jié)構(gòu)和格式,此時(shí)數(shù)據(jù)目錄和ETL服務(wù)就至關(guān)重要。以Amazon Glue 服務(wù)為例,其核心解決思路就是為用戶(hù)建立起無(wú)服務(wù)器架構(gòu)的數(shù)據(jù)目錄和ETL服務(wù),無(wú)需用戶(hù)自己寫(xiě)ETL管道,快速完成數(shù)據(jù)的抽取、轉(zhuǎn)換和加載。

此外,構(gòu)建和使用數(shù)據(jù)湖并不是一件輕松的事情,隨著海量數(shù)據(jù)規(guī)模的不斷增加,數(shù)據(jù)湖的建立、配置、管理和使用的復(fù)雜性也會(huì)隨之增加,很多用戶(hù)對(duì)于加載數(shù)據(jù)源、設(shè)置分區(qū)、定義轉(zhuǎn)換作業(yè)等復(fù)雜手動(dòng)任務(wù)更是深?lèi)和唇^。

此時(shí),云計(jì)算的優(yōu)勢(shì)再一次凸顯出來(lái)。以Amazon Lake Formation為例,開(kāi)發(fā)者只需手動(dòng)定義數(shù)據(jù)源,制定要應(yīng)用的數(shù)據(jù)訪問(wèn)和安全策略,Lake Formation 會(huì)自動(dòng)幫助開(kāi)發(fā)者從數(shù)據(jù)庫(kù)和對(duì)象存儲(chǔ)中收集并按目錄分類(lèi)數(shù)據(jù),再將數(shù)據(jù)移動(dòng)到新的Amazon S3 數(shù)據(jù)湖,大幅縮短數(shù)據(jù)湖的構(gòu)建時(shí)間。

可以說(shuō),數(shù)據(jù)湖已經(jīng)不僅僅是一個(gè)概念,更代表著過(guò)去十年用戶(hù)實(shí)現(xiàn)數(shù)據(jù)價(jià)值的一種進(jìn)化。在這個(gè)過(guò)程中,云計(jì)算憑借著彈性、可擴(kuò)展、靈活的特性,不斷屏蔽數(shù)據(jù)湖從建立到使用過(guò)程中的各種復(fù)雜性,降低數(shù)據(jù)湖的使用門(mén)檻,加速實(shí)現(xiàn)數(shù)據(jù)價(jià)值的落地。

但這就足夠了么?

攻克最后的壁壘

2020年是一個(gè)重要的分水嶺,全球疫情常態(tài)化以及錯(cuò)綜復(fù)雜的內(nèi)外部環(huán)境,使得企業(yè)無(wú)時(shí)無(wú)刻都面臨著不確定性,數(shù)字化時(shí)代的敏捷性和全局視角洞察能力正變得愈發(fā)重要,而數(shù)據(jù)的打通、流動(dòng)與共享無(wú)疑是構(gòu)建起敏捷性和全局視角洞察能力的關(guān)鍵所在。

換句話(huà)說(shuō),數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)以及其他數(shù)據(jù)存儲(chǔ)方案并不是彼此割裂,而是需要無(wú)縫協(xié)同工作,讓數(shù)據(jù)自由流動(dòng)、共享與使用,讓基于數(shù)據(jù)的決策更加科學(xué)與精準(zhǔn)。尤其考慮到海量數(shù)據(jù)規(guī)模成為常態(tài)的大背景下,無(wú)論是數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)還是其他數(shù)據(jù)存儲(chǔ)方案,其所存儲(chǔ)的數(shù)據(jù)量一直在不斷膨脹,逐漸衍生出一種新的現(xiàn)象:即數(shù)據(jù)往來(lái)、移動(dòng)操作變得愈加復(fù)雜與困難。

亞馬遜云科技將這種現(xiàn)象形象地比喻為“數(shù)據(jù)重力”。毫無(wú)疑問(wèn),“數(shù)據(jù)重力”是實(shí)現(xiàn)數(shù)據(jù)價(jià)值的最后壁壘。要想打破壁壘,Amazon Lake House智能湖倉(cāng)架構(gòu)來(lái)圍繞數(shù)據(jù)湖構(gòu)建起專(zhuān)用數(shù)據(jù)閉環(huán),實(shí)現(xiàn)以安全且受控的方式在不同數(shù)據(jù)存儲(chǔ)方案之間快速移動(dòng)數(shù)據(jù)。

事實(shí)上,亞馬遜云科技很早就致力于消除數(shù)據(jù)重力現(xiàn)象。早在Amazon Redshift誕生伊始,就允許從數(shù)據(jù)湖S3中導(dǎo)入數(shù)據(jù)進(jìn)行分析,并且在2017年推出Redshift Spectrum引擎,打通數(shù)據(jù)倉(cāng)庫(kù)對(duì)數(shù)據(jù)湖中數(shù)據(jù)的直接訪問(wèn);之后,2019年,亞馬遜云科技將redshift spectrum 引擎命名為L(zhǎng)ake House引擎;到2020年re:Invent大會(huì)上,亞馬遜云科技提出Lake House智能湖倉(cāng)架構(gòu)。

Lake House智能湖倉(cāng)架構(gòu)關(guān)鍵之處在于以高度擴(kuò)展的數(shù)據(jù)湖為核心,構(gòu)建起專(zhuān)用數(shù)據(jù)閉環(huán),實(shí)現(xiàn)以安全且受控的方式在不同數(shù)據(jù)存儲(chǔ)方案之間快速移動(dòng)數(shù)據(jù), 為不同業(yè)務(wù)場(chǎng)景專(zhuān)門(mén)構(gòu)建的分析工具或數(shù)據(jù)存儲(chǔ)之間無(wú)縫的協(xié)同工作(例如:數(shù)據(jù)倉(cāng)庫(kù)、搜索引擎、機(jī)器學(xué)習(xí)平臺(tái)等)。

現(xiàn)實(shí)需求情況的確如此如此,例如,用戶(hù)有時(shí)希望將來(lái)自Web應(yīng)用程序的點(diǎn)擊流數(shù)據(jù)直接收集在數(shù)據(jù)湖內(nèi),并將其中部分?jǐn)?shù)據(jù)移至數(shù)據(jù)倉(cāng)庫(kù)以生成每日?qǐng)?bào)告;用戶(hù)有時(shí)又希望將特定區(qū)域內(nèi)的產(chǎn)品銷(xiāo)售查詢(xún)結(jié)果從數(shù)據(jù)倉(cāng)庫(kù)復(fù)制到數(shù)據(jù)湖內(nèi),進(jìn)而使用機(jī)器學(xué)習(xí)對(duì)大規(guī)模數(shù)據(jù)集運(yùn)行產(chǎn)品推薦算法。

隨著亞馬遜云科技在2020年Re: Invent上公布一系列新功能,Lake House架構(gòu)逐步形成五大特征:可擴(kuò)展數(shù)據(jù)湖、專(zhuān)門(mén)構(gòu)建的(Purpose-built)分析服務(wù)、無(wú)縫數(shù)據(jù)移動(dòng)、統(tǒng)一數(shù)據(jù)治理、出色的性能與成本效益。

以無(wú)縫數(shù)據(jù)移動(dòng)為例,亞馬遜云科技的無(wú)服務(wù)器數(shù)據(jù)集成服務(wù)Glue已經(jīng)日臻成熟,提供數(shù)據(jù)集成所需要的全部功能,自動(dòng)發(fā)現(xiàn)數(shù)據(jù)并存儲(chǔ)Schema,與亞馬遜云科技上運(yùn)行的Aurora、RDS、RedShift、S3和數(shù)據(jù)庫(kù)引擎天然集成。通過(guò)Glue elastic view, 開(kāi)發(fā)人員使用PartiQL即可在多種數(shù)據(jù)庫(kù)及數(shù)據(jù)存儲(chǔ)方案內(nèi)創(chuàng)建物化視圖,幾分鐘就能完成跨數(shù)據(jù)存儲(chǔ)方案的數(shù)據(jù)合并與復(fù)制。

又如,在當(dāng)今海量數(shù)據(jù)規(guī)模的環(huán)境中,對(duì)于數(shù)據(jù)訪問(wèn)活動(dòng)的授權(quán)、管理和審計(jì)等一系列治理至關(guān)重要。例如,如何實(shí)現(xiàn)跨組織內(nèi)各類(lèi)數(shù)據(jù)存儲(chǔ)方案的安全管理、訪問(wèn)控制與審計(jì)跟蹤,往往因?yàn)闃O其復(fù)雜和耗時(shí)讓用戶(hù)捉襟見(jiàn)肘。面對(duì)這種情況,Lake House架構(gòu)憑借集中訪問(wèn)控制與策略,輔以列與行層級(jí)的過(guò)濾等功能,帶來(lái)細(xì)粒度訪問(wèn)控制與治理選項(xiàng),能夠立足單一控制點(diǎn)對(duì)跨數(shù)據(jù)湖及專(zhuān)用數(shù)據(jù)存儲(chǔ)系統(tǒng)的訪問(wèn)行為進(jìn)行全面管理。

綜合來(lái)看,隨著基于數(shù)據(jù)驅(qū)動(dòng)的智慧應(yīng)用遍地開(kāi)花,用戶(hù)面臨的將是一個(gè)數(shù)據(jù)規(guī)模更加龐大、管理更加復(fù)雜的數(shù)據(jù)環(huán)境。面向未來(lái),數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)以及專(zhuān)用分析引擎的協(xié)同運(yùn)行會(huì)更加頻繁,智能湖倉(cāng)架構(gòu)必然會(huì)成為用戶(hù)們的首選,而Amazon Lake House無(wú)疑將迎來(lái)更大的價(jià)值舞臺(tái)。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2021-05-27
消除數(shù)據(jù)重力,從智能湖倉(cāng)(Lake House)讀懂實(shí)現(xiàn)數(shù)據(jù)價(jià)值的未來(lái)
基于數(shù)據(jù)驅(qū)動(dòng)的智慧應(yīng)用爆發(fā),帶來(lái)PB級(jí)甚至EB級(jí)的海量規(guī)模數(shù)據(jù)時(shí),云計(jì)算與數(shù)據(jù)湖組合帶來(lái)的價(jià)值愈發(fā)凸顯:當(dāng)數(shù)據(jù)規(guī)模越來(lái)越大時(shí),計(jì)算能力成為關(guān)鍵,而有了云計(jì)算的彈性與可擴(kuò)展,可以讓海量數(shù)據(jù)的存儲(chǔ)與分析

長(zhǎng)按掃碼 閱讀全文