應(yīng)“云”而生,“智能湖倉(cāng)”如何成為構(gòu)建數(shù)據(jù)能力的最優(yōu)解?

科技云報(bào)道原創(chuàng)。

隨著新一輪科技革命和產(chǎn)業(yè)革命深入交織,數(shù)字經(jīng)濟(jì)正在成為重組全球要素資源、重塑全球經(jīng)濟(jì)結(jié)構(gòu)、改變?nèi)蚋?jìng)爭(zhēng)格局的關(guān)鍵力量。

在這一過(guò)程中,作為數(shù)字化底座的云,已經(jīng)不僅僅局限于基礎(chǔ)設(shè)施角色,更是企業(yè)持續(xù)創(chuàng)新和精益運(yùn)營(yíng)的關(guān)鍵支撐。

能否從云上獲取更多價(jià)值,將成為企業(yè)能否在數(shù)字時(shí)代擁有一席之地、持續(xù)領(lǐng)先領(lǐng)跑的關(guān)鍵。

而云原生對(duì)基礎(chǔ)設(shè)施的革新,帶來(lái)了一系列“蝴蝶效應(yīng)”。

隨著云原生技術(shù)已在互聯(lián)網(wǎng)、金融等行業(yè)“落地開(kāi)花”,云原生基礎(chǔ)設(shè)施不僅可以豐富數(shù)字化應(yīng)用場(chǎng)景的多元化實(shí)踐,也將為企業(yè)發(fā)展提供可持續(xù)的內(nèi)生動(dòng)力,“智能湖倉(cāng)”便是其中最為重要的技術(shù)架構(gòu)之一。

作為“智能湖倉(cāng)”架構(gòu)的提出者,亞馬遜云科技在云原生數(shù)據(jù)基礎(chǔ)設(shè)施方面持續(xù)迭代創(chuàng)新。

3月14日,亞馬遜云原生數(shù)據(jù)湖S3迎來(lái)17周歲,在Pi Day 2023上,亞馬遜云科技對(duì)Amazon S3發(fā)展歷程進(jìn)行全面回顧,不斷激發(fā)數(shù)據(jù)的更大價(jià)值。

?從“數(shù)據(jù)倉(cāng)庫(kù)”到“數(shù)據(jù)湖”

IDC統(tǒng)計(jì)顯示,預(yù)計(jì)到2025年,全球數(shù)據(jù)量將比2016年的16.1ZB增加十倍,達(dá)到163ZB。

數(shù)據(jù)的海量與多元化決定了從數(shù)據(jù)中獲取有用的價(jià)值變得越來(lái)越困難,如果無(wú)法從數(shù)據(jù)中獲得益處,那么數(shù)據(jù)價(jià)值就無(wú)從談起。

目前,數(shù)據(jù)的價(jià)值呈現(xiàn)兩極化特征,一是及時(shí)發(fā)現(xiàn),實(shí)時(shí)分析快速促進(jìn)業(yè)務(wù)發(fā)展;二是長(zhǎng)期存放,數(shù)據(jù)累積起來(lái),探索數(shù)據(jù)后隱藏的規(guī)律,統(tǒng)一分析其價(jià)值,為業(yè)務(wù)發(fā)展提供參考。

新的數(shù)據(jù)價(jià)值將給企業(yè)帶來(lái)更多智能創(chuàng)新應(yīng)用,比如增長(zhǎng)黑客、推薦系統(tǒng),用戶行為分析,AIoT帶來(lái)的更多模型,這也意味著IT基礎(chǔ)設(shè)施的變革。

傳統(tǒng)數(shù)據(jù)處理方式,就像“涓涓細(xì)流”,里面有ERP、CRM等各種業(yè)務(wù)系統(tǒng),用戶可以設(shè)計(jì)“一個(gè)河道”,數(shù)據(jù)庫(kù)在最底層。

數(shù)據(jù)經(jīng)過(guò)整理后形成中間層的數(shù)據(jù)倉(cāng)庫(kù),然后通過(guò)商務(wù)智能工具(BI)來(lái)及進(jìn)行展示。

但在數(shù)字化時(shí)代,各種各樣的視頻、移動(dòng)終端信息如“滔滔江水”,形成大規(guī)模的海量數(shù)據(jù),用戶來(lái)不及整理和使用。

這時(shí),一個(gè)新的設(shè)想打開(kāi)了人們的視野,假設(shè)有那么一片洼地,把所有數(shù)據(jù)先蓄積到里面,然后通過(guò)有效的工具進(jìn)行查詢和處理,這便是數(shù)據(jù)湖。

國(guó)際研究機(jī)構(gòu)MarketsandMarkets最新研究報(bào)告顯示,到2024年,全球數(shù)據(jù)湖市場(chǎng)將突破200億美元,增至201億美元,復(fù)合年增長(zhǎng)率將高達(dá)20.6%。

可以說(shuō),隨著數(shù)據(jù)治理與應(yīng)用需求激增,數(shù)據(jù)湖成為數(shù)據(jù)管理的重要方式已成為不爭(zhēng)的事實(shí)。

數(shù)據(jù)湖的出現(xiàn),很好的解決了數(shù)據(jù)倉(cāng)庫(kù)建設(shè)存在的一系列問(wèn)題,將數(shù)據(jù)管理的流程簡(jiǎn)化為2個(gè)階段,數(shù)據(jù)入湖和數(shù)據(jù)分析。

數(shù)據(jù)湖一般以免運(yùn)維、高可靠的對(duì)象存儲(chǔ)為底座,支持各種數(shù)據(jù)類型的存儲(chǔ)。

對(duì)于用戶來(lái)說(shuō),借助最新的數(shù)據(jù)湖解決方案,不僅能解決過(guò)去的數(shù)據(jù)孤島問(wèn)題,同時(shí)還能兼容傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)分析方法。

最重要的是,更適合現(xiàn)代應(yīng)用部署,比如和機(jī)器學(xué)習(xí)結(jié)合,進(jìn)行預(yù)測(cè)性的分析。

? “智能湖倉(cāng)”成技術(shù)新趨勢(shì)

隨著數(shù)據(jù)湖概念的興起,業(yè)界對(duì)于數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖的對(duì)比甚至爭(zhēng)論就一直不斷。

有人說(shuō)數(shù)據(jù)湖是下一代大數(shù)據(jù)平臺(tái),各大云廠商也紛紛提出自己的數(shù)據(jù)湖解決方案,一些云數(shù)倉(cāng)產(chǎn)品也增加了和數(shù)據(jù)湖聯(lián)動(dòng)的特性。

不過(guò)在我們看來(lái),數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)并不是替代關(guān)系,而是互為補(bǔ)充、相輔相成,在此基礎(chǔ)上的“智能湖倉(cāng)”將能充分實(shí)現(xiàn)兩者間的良性互動(dòng),成為未來(lái)重要的數(shù)據(jù)技術(shù)趨勢(shì)之一。

“智能湖倉(cāng)”通過(guò)數(shù)據(jù)倉(cāng)庫(kù)治理能力的引入,既可以很好的解決上面提到的數(shù)據(jù)湖建設(shè)的問(wèn)題,也為更好的挖掘湖中數(shù)據(jù)價(jià)值提供了基礎(chǔ),將高效建倉(cāng)、靈活建湖的兩大優(yōu)勢(shì)融合在了一起。

不同于傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的管理方式,“智能湖倉(cāng)”極大地提高了數(shù)據(jù)開(kāi)發(fā)的效率,同時(shí)降低了數(shù)據(jù)管理的難度。

過(guò)去處理數(shù)據(jù),需要資深的數(shù)據(jù)架構(gòu)師定義數(shù)倉(cāng)的規(guī)劃,從數(shù)倉(cāng)的分層、指標(biāo)的定義到數(shù)據(jù)集市模型設(shè)計(jì),然后交給專業(yè)的數(shù)據(jù)工程師進(jìn)行業(yè)務(wù)開(kāi)發(fā),再由業(yè)務(wù)人員進(jìn)行驗(yàn)證,有一套規(guī)范但卻復(fù)雜的過(guò)程。而“智能湖倉(cāng)”的出現(xiàn),讓企業(yè)能夠快速的基于業(yè)務(wù)進(jìn)行開(kāi)發(fā),又能夠靈活的調(diào)整和規(guī)劃自己的數(shù)據(jù)管理方式。

另外,“智能湖倉(cāng)”也讓大數(shù)據(jù)行業(yè)內(nèi)各個(gè)角色之間的交互變得更加自如。基于“智能湖倉(cāng)”的數(shù)據(jù)管理理念,各類數(shù)據(jù)應(yīng)用角色能夠更好的相互協(xié)作,共同開(kāi)發(fā)。

如數(shù)據(jù)科學(xué)家可以方便的集成自己的數(shù)據(jù)并以納入標(biāo)準(zhǔn)數(shù)倉(cāng)流程進(jìn)行管理、業(yè)務(wù)分析師也能夠自己開(kāi)發(fā)數(shù)據(jù)需求等。

“智能湖倉(cāng)”打破孤島勾勒數(shù)據(jù)價(jià)值未來(lái)

談到“智能湖倉(cāng)”,不得不提到其最為重要的支撐——Amazon S3 ( Simple Storage Service )。

17年前,亞馬遜云科技推出了Amazon S3服務(wù),首次定義了對(duì)象存儲(chǔ),S3由此成為對(duì)象存儲(chǔ)事實(shí)上的標(biāo)準(zhǔn),具有劃時(shí)代意義。2015年,Amazon S3支持?jǐn)?shù)萬(wàn)億對(duì)象存儲(chǔ),平均在線峰值每秒可處理150萬(wàn)請(qǐng)求,設(shè)計(jì)為99.999999999%(“11個(gè)9”)的持久性。

2022年,亞馬遜云科技迎來(lái)又一座里程碑。Amazon S3存儲(chǔ)的對(duì)象數(shù)量已經(jīng)超過(guò)200萬(wàn)億,每秒可處理數(shù)千萬(wàn)個(gè)請(qǐng)求。

亞馬遜云科技發(fā)布Amazon Redshift支持auto-copy from Amazon S3,從物理存儲(chǔ)層面打通了數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)。

目前,全球數(shù)萬(wàn)用戶都在使用Amazon Redshift分析數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)分析,這些用戶來(lái)自游戲、金融、醫(yī)療、消費(fèi)、互聯(lián)網(wǎng)等。

在十多年發(fā)展歷程中,Redshift一直在持續(xù)迭代,很多功能和特性都源于企業(yè)的真實(shí)業(yè)務(wù)需求。

具體而言,客戶數(shù)倉(cāng)場(chǎng)景主要包括四大塊:

第一,常規(guī)業(yè)務(wù)運(yùn)營(yíng)與BI分析;第二,實(shí)時(shí)數(shù)倉(cāng)分析;第三,查詢、報(bào)表與數(shù)據(jù)分析;第四,機(jī)器學(xué)習(xí)與分析預(yù)測(cè)。

可以說(shuō),企業(yè)要想快速構(gòu)建數(shù)據(jù)流水線,Amazon Redshift是底層基礎(chǔ)設(shè)置的重要支撐。

而憑借Amazon Redshift與其他數(shù)據(jù)分析應(yīng)用的無(wú)縫集成,用戶可以獲得更完美的數(shù)據(jù)分析體驗(yàn)。

比如:可以實(shí)現(xiàn)高性能格式存儲(chǔ)數(shù)據(jù),以更經(jīng)濟(jì)有效的方式將存儲(chǔ)擴(kuò)展到千兆字節(jié),可實(shí)現(xiàn)存儲(chǔ)和計(jì)算的分離,并且可以實(shí)現(xiàn)分析和機(jī)器學(xué)習(xí)引擎的選擇等等。

早在2017年,Redshift就已經(jīng)實(shí)現(xiàn)湖和倉(cāng)的融合,Redshift Spectrum可以直接查詢?cè)赟3上開(kāi)放格式的數(shù)據(jù),當(dāng)然也可以將數(shù)據(jù)寫入到湖中,實(shí)現(xiàn)了數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖的數(shù)據(jù)無(wú)縫流轉(zhuǎn)。

2022年,是Redshift推出正式滿10周年。在這特別的一年,亞馬遜云科技在年度大會(huì)上卻一反常態(tài),沒(méi)有發(fā)布重大升級(jí)更新。

取而代之的是,在會(huì)中推出許多新功能,都是和Redshift相關(guān),從更緊密資料集成、流媒體資料分析到強(qiáng)化安全訪問(wèn),力求要把Redshift打造成企業(yè)資料集散地,來(lái)符合各種現(xiàn)代化應(yīng)用的使用,以及能匯集整理各種類型資料,提供AI分析和后續(xù)應(yīng)用,更要讓這個(gè)能夠通吃各種資料類型的新一代數(shù)據(jù)倉(cāng)庫(kù)架構(gòu),成為加速企業(yè)資料現(xiàn)代化的關(guān)鍵產(chǎn)品。

總體而言,作為亞馬遜云科技的基石技術(shù),Amazon S3不斷為其技術(shù)創(chuàng)新提供源源不斷的養(yǎng)分。而“智能湖倉(cāng)”以Amazon S3為基礎(chǔ)構(gòu)建數(shù)據(jù)湖,作為中央存儲(chǔ)庫(kù),圍繞數(shù)據(jù)湖集成專門的“數(shù)據(jù)服務(wù)環(huán)”,包括數(shù)據(jù)倉(cāng)庫(kù)、機(jī)器學(xué)習(xí)、大數(shù)據(jù)處理、日志分析等數(shù)據(jù)服務(wù),然后再利用Amazon Lake Formation、Amazon Glue、Amazon Athena、Spectrum等工具,實(shí)現(xiàn)數(shù)據(jù)湖的構(gòu)建、數(shù)據(jù)的移動(dòng)和管理等。

“智能湖倉(cāng)”架構(gòu)可以被視為一個(gè)“樞紐”,將亞馬遜云科技的數(shù)據(jù)服務(wù)無(wú)縫集成,打通數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)之間數(shù)據(jù)移動(dòng)和訪問(wèn),并且進(jìn)一步實(shí)現(xiàn)數(shù)據(jù)在數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù),以及在數(shù)據(jù)查詢、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等各類專門構(gòu)建的服務(wù)之間按需移動(dòng),從而形成統(tǒng)一且連續(xù)的整體,滿足客戶各種實(shí)際業(yè)務(wù)場(chǎng)景下的不同需求。

任何階段的企業(yè)都可以從這種敏捷的架構(gòu)中快速獲益,輕松打破數(shù)據(jù)及技能孤島,并以迭代及增量的方式獲得數(shù)據(jù)分析的敏捷性,縮短企業(yè)提取數(shù)據(jù)價(jià)值的創(chuàng)新周期。

這一架構(gòu)充分利用了云服務(wù)帶來(lái)的安全可靠、極致性能、無(wú)限擴(kuò)展等優(yōu)勢(shì),能夠幫助企業(yè)消除數(shù)據(jù)孤島,打造統(tǒng)一的數(shù)據(jù)基礎(chǔ)底座,打通從數(shù)據(jù)獲取到數(shù)據(jù)應(yīng)用的完整流程,并讓企業(yè)在云中實(shí)現(xiàn)數(shù)據(jù)與智能的深度融合,從而充分發(fā)揮數(shù)據(jù)價(jià)值。

如今,亞馬遜云科技已助力150萬(wàn)客戶成為數(shù)據(jù)驅(qū)動(dòng)型企業(yè)。

以供應(yīng)鏈的數(shù)字化升級(jí)為例,順豐利用亞馬遜云科技可大規(guī)模擴(kuò)展的對(duì)象存儲(chǔ)服務(wù)Amazon S3構(gòu)建數(shù)據(jù)湖,將園區(qū)內(nèi)大量的前端感知設(shè)備,包括攝像頭、物聯(lián)網(wǎng)IoT設(shè)備、地磁、多模達(dá)等收集的信息匯總到數(shù)據(jù)湖中。

依托Amazon S3云對(duì)象存儲(chǔ)近乎無(wú)限的存儲(chǔ)能力,為數(shù)據(jù)驅(qū)動(dòng)運(yùn)營(yíng)提供堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。

通過(guò)使用亞馬遜云科技計(jì)算、存儲(chǔ)、數(shù)據(jù)分析、容器、機(jī)器學(xué)習(xí)和安全等服務(wù),順豐供應(yīng)鏈改進(jìn)了園區(qū)運(yùn)營(yíng)流程,提升了運(yùn)營(yíng)效率,園區(qū)車輛日吞吐量提升40%-60%,員工作業(yè)效率提升30%,調(diào)度員和安檢員工作量減少50%。

亞馬遜云科技的另一個(gè)客戶納斯達(dá)克也通過(guò)Amazon S3為數(shù)據(jù)管理賦能。

由于自動(dòng)化交易平臺(tái)涌入市場(chǎng),交易速度和交易量持續(xù)增長(zhǎng),2014年,納斯達(dá)克為了擴(kuò)大規(guī)模、提高性能并降低運(yùn)營(yíng)成本,從舊式本地部署數(shù)據(jù)倉(cāng)庫(kù)遷移到由Amazon Redshift集群賦能的數(shù)據(jù)倉(cāng)庫(kù)。隨著時(shí)間推移,越來(lái)越多的交易導(dǎo)致數(shù)據(jù)大量增加,同時(shí),納斯達(dá)克開(kāi)始規(guī)劃開(kāi)發(fā)新架構(gòu)以持續(xù)實(shí)現(xiàn)生態(tài)系統(tǒng)期望的性能標(biāo)準(zhǔn)和卓越運(yùn)營(yíng)。

2018年,納斯達(dá)克選擇在Amazon S3上構(gòu)建新的數(shù)據(jù)湖,這使該公司能夠?qū)⒂?jì)算和存儲(chǔ)分開(kāi),并獨(dú)立擴(kuò)展每項(xiàng)功能。納斯達(dá)克通過(guò)集成亞馬遜云科技IAM策略、Amazon S3,還可在多個(gè)亞馬遜云科技賬戶間提供全面的訪問(wèn)控制功能。此外,納斯達(dá)克使用Amazon S3來(lái)存儲(chǔ)關(guān)鍵的金融數(shù)據(jù),并將其移至Amazon S3 Glacier,從而能夠以較低的成本進(jìn)行歸檔。

2019年1月,納斯達(dá)克參加了亞馬遜云科技的Data Lab,在為期四天的實(shí)驗(yàn)中,納斯達(dá)克使用Amazon Redshift作為計(jì)算層,重新設(shè)計(jì)了其提供分析的方式。因此,納斯達(dá)克開(kāi)始使用Amazon Redshift Spectrum,這是一項(xiàng)賦能智能湖倉(cāng)架構(gòu)的功能,可以直接查詢數(shù)據(jù)倉(cāng)庫(kù)和Amazon S3數(shù)據(jù)湖中的數(shù)據(jù)。

如此一來(lái),洞察生成時(shí)間縮至最短,賦能斯達(dá)克經(jīng)濟(jì)研究團(tuán)隊(duì)可以進(jìn)行數(shù)據(jù)分析,并對(duì)數(shù)據(jù)運(yùn)行復(fù)雜的查詢。起初是以性能為重點(diǎn)的解決方案,現(xiàn)在變成了團(tuán)隊(duì)間共享的多用途數(shù)據(jù)湖。

借助基于Amazon S3和Amazon Redshift的新型智能湖倉(cāng)架構(gòu),納斯達(dá)克每天能夠處理的記錄數(shù)量輕松地從300億條躍升至700億條,并且較之前提前5小時(shí)達(dá)到90%的數(shù)據(jù)加載完成率。此外,通過(guò)優(yōu)化其數(shù)據(jù)倉(cāng)庫(kù),納斯達(dá)克運(yùn)行Amazon Redshift查詢的速度加快了32%。

鑒于良好的系統(tǒng)體驗(yàn),納斯達(dá)克于2022年已成功將其六大美國(guó)期權(quán)交易市場(chǎng)之一納斯達(dá)克MRX的核心交易系統(tǒng)遷移至亞馬遜云科技。此次成功遷移標(biāo)志著納斯達(dá)克為全球資本市場(chǎng)構(gòu)建下一代技術(shù)基礎(chǔ)設(shè)施之旅中一個(gè)重要的里程碑。

無(wú)論是在數(shù)據(jù)基礎(chǔ)架構(gòu)、統(tǒng)一分析還是業(yè)務(wù)創(chuàng)新上,從連接數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)到跨數(shù)據(jù)庫(kù)、跨域共享,如今亞馬遜云科技“智能湖倉(cāng)”架構(gòu)在企業(yè)中的實(shí)踐,已經(jīng)為企業(yè)構(gòu)建現(xiàn)代化數(shù)據(jù)平臺(tái)提供了一條可供遵循的路徑,其將協(xié)同Amazon S3與Amazon Redshift等更多技術(shù)和產(chǎn)品,進(jìn)一步推進(jìn)底層數(shù)據(jù)架構(gòu)的現(xiàn)代化演進(jìn),為企業(yè)乃至全行業(yè)帶來(lái)更大的價(jià)值。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2023-03-18
應(yīng)“云”而生,“智能湖倉(cāng)”如何成為構(gòu)建數(shù)據(jù)能力的最優(yōu)解?
應(yīng)“云”而生,“智能湖倉(cāng)”如何成為構(gòu)建數(shù)據(jù)能力的最優(yōu)解?

長(zhǎng)按掃碼 閱讀全文