在大數(shù)據(jù)時(shí)代,數(shù)據(jù)分析技術(shù)不斷演進(jìn),從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)湖,再到數(shù)據(jù)湖倉(cāng),企業(yè)如何選擇合適的數(shù)據(jù)分析架構(gòu)?本文將深入探討數(shù)據(jù)湖倉(cāng)(Lakehouse)的概念,以及StarRocks 3.0如何引領(lǐng)這一創(chuàng)新架構(gòu),實(shí)現(xiàn)數(shù)據(jù)的高效分析與決策支持。
一、數(shù)據(jù)倉(cāng)庫(kù)的演進(jìn)與挑戰(zhàn)
數(shù)據(jù)倉(cāng)庫(kù)自1980年代以來(lái)一直是企業(yè)數(shù)據(jù)分析的核心。關(guān)系型數(shù)據(jù)庫(kù)、日志文件等數(shù)據(jù)源的數(shù)據(jù)經(jīng)過(guò) ETL 處理,統(tǒng)一存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù),用于服務(wù) BI 報(bào)表、數(shù)據(jù)挖掘等分析場(chǎng)景。
數(shù)據(jù)倉(cāng)庫(kù)在數(shù)據(jù)質(zhì)量、事務(wù)處理、查詢性能、數(shù)據(jù)治理等方面有明顯的優(yōu)勢(shì),但隨著數(shù)據(jù)分析的需求越來(lái)越大,數(shù)據(jù)倉(cāng)庫(kù)的方案也面臨一些挑戰(zhàn)。
1.數(shù)據(jù)多樣化:除了結(jié)構(gòu)化的數(shù)據(jù),半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)越來(lái)越多。
2.數(shù)據(jù)孤島問(wèn)題:數(shù)據(jù)倉(cāng)庫(kù)面向主題管理,導(dǎo)致數(shù)據(jù)分散形成孤島,難以形成全局統(tǒng)一的數(shù)據(jù)分析。
3.成本與擴(kuò)展性:大數(shù)據(jù)量增長(zhǎng)帶來(lái)數(shù)據(jù)存儲(chǔ)成本與橫向擴(kuò)展的問(wèn)題。
4.高級(jí)數(shù)據(jù)分析支持:數(shù)據(jù)倉(cāng)庫(kù)能很好的支持 BI 相關(guān)應(yīng)用,但隨著 AI 的發(fā)展,AI 應(yīng)用與數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)交互效率不高,制約了 AI 應(yīng)用的發(fā)展。
二、數(shù)據(jù)湖的創(chuàng)新與發(fā)展
2010年,數(shù)據(jù)湖概念的提出為企業(yè)提供了一種新的數(shù)據(jù)存儲(chǔ)與分析方式。
如果把數(shù)據(jù)倉(cāng)庫(kù)/集市類比為瓶裝水,數(shù)據(jù)湖則是以更加原生態(tài)方式存儲(chǔ)數(shù)據(jù)的大池子。數(shù)據(jù)湖的核心優(yōu)勢(shì)是統(tǒng)一與開(kāi)放,數(shù)據(jù)基于對(duì)象存儲(chǔ)、HDFS 等系統(tǒng)實(shí)現(xiàn)低成本、可擴(kuò)展的 數(shù)據(jù)存儲(chǔ),并作為企業(yè)數(shù)據(jù)的 Single Source of Truth(SSOT);同時(shí)數(shù)據(jù)的數(shù)據(jù)格式是開(kāi)放的,便于不同的應(yīng)用靈活訪問(wèn)。
數(shù)據(jù)湖解決了數(shù)據(jù)成本與擴(kuò)展性、數(shù)據(jù)多樣性、數(shù)據(jù)孤島等問(wèn)題,并同時(shí)滿足 BI 與 AI 應(yīng)用對(duì)數(shù)據(jù)分析的訴求;但數(shù)據(jù)湖在數(shù)據(jù)分析性能、數(shù)據(jù)管理與治理方面仍然存在較大的挑戰(zhàn)。
三、湖倉(cāng)分層架構(gòu)的融合與應(yīng)用
業(yè)界探索數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)湖的融合,湖倉(cāng)分層架構(gòu)應(yīng)運(yùn)而生。
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)湖各有長(zhǎng)處,業(yè)界持續(xù)在探索兩者如何更好的融合,在過(guò)去幾年湖倉(cāng)分層的架構(gòu)的到廣泛的應(yīng)用。企業(yè)數(shù)據(jù)統(tǒng)一寫到數(shù)據(jù)湖,作為統(tǒng)一存儲(chǔ),湖上開(kāi)放的數(shù)據(jù)可以服務(wù) AI、ML 等應(yīng)用場(chǎng)景;數(shù)據(jù)湖上部分?jǐn)?shù)據(jù)經(jīng)過(guò) ETL 處理導(dǎo)入到數(shù)據(jù)倉(cāng)庫(kù)服務(wù) BI 等 OLAP 分析場(chǎng)景。
湖倉(cāng)分層架構(gòu)融合了數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)的優(yōu)勢(shì),但面臨一些問(wèn)題與挑戰(zhàn)。部分?jǐn)?shù)據(jù)從數(shù)據(jù)湖導(dǎo)入到數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)鏈路的增長(zhǎng)影響數(shù)據(jù)分析的時(shí)效性,兩份數(shù)據(jù)也會(huì)帶來(lái)冗余存儲(chǔ)、數(shù)據(jù)口徑不一致的問(wèn)題;另外,對(duì)于數(shù)據(jù)倉(cāng)庫(kù)里加工產(chǎn)生的數(shù)據(jù),仍然很難高效的服務(wù) AI 場(chǎng)景。
四、數(shù)據(jù)湖倉(cāng)的興起
數(shù)據(jù)湖倉(cāng)作為新一代數(shù)據(jù)分析架構(gòu),兼具數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)湖的優(yōu)勢(shì)。
新興的數(shù)據(jù)倉(cāng)庫(kù)如 Snowflake、Redshift、BigQuery 均采用云原生存算分離架構(gòu)演進(jìn),并且支持直接查詢開(kāi)放數(shù)據(jù)湖的能力。數(shù)據(jù)湖在事務(wù)支持、查詢性能等方面的能力不如數(shù)據(jù)倉(cāng)庫(kù),近年來(lái)隨著新興數(shù)據(jù)湖格式如 Iceberg、Hudi、Delta Lake 等的發(fā)展,事務(wù)支持能力得到提升。
另外,在查詢性能上,通過(guò)不斷優(yōu)化數(shù)據(jù)湖上的數(shù)據(jù)分布以及增加緩存機(jī)制等技術(shù)的演進(jìn),數(shù)據(jù)湖上的數(shù)據(jù)分析性能已經(jīng)大幅提升,達(dá)到接近數(shù)據(jù)倉(cāng)庫(kù)的水平。
從數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)的演進(jìn)來(lái)看,兩者在不斷的融合,并逐步往數(shù)據(jù)湖倉(cāng)的方向演進(jìn),兼具數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)的優(yōu)勢(shì)。數(shù)據(jù)湖倉(cāng)作為一種新的數(shù)據(jù)分析架構(gòu),用戶采用湖倉(cāng)就能方便將數(shù)據(jù)源和數(shù)據(jù)應(yīng)用連接在一起。
數(shù)據(jù)湖倉(cāng)兼具數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)湖的優(yōu)勢(shì),湖倉(cāng)具備開(kāi)放統(tǒng)一的數(shù)據(jù)存儲(chǔ)能力,并基于統(tǒng)一存儲(chǔ)直接服務(wù)批處理、流處理、交互式分析等多種分析場(chǎng)景,實(shí)現(xiàn)湖倉(cāng) One data,all analytics 的業(yè)務(wù)價(jià)值。
五、StarRocks3.0:湖倉(cāng)技術(shù)創(chuàng)新
StarRocks 2.0 版本憑借其優(yōu)異的查詢性能在業(yè)界得到廣泛應(yīng)用,很多用戶采用湖倉(cāng)分層架構(gòu),并將 Hive、Iceberg 等數(shù)據(jù)湖里的數(shù)據(jù)部分導(dǎo)入到 StarRocks 服務(wù) OLAP 分析場(chǎng)景。
StarRocks 3.0的存算分離架構(gòu)、極速湖倉(cāng)分析和物化視圖技術(shù),為用戶提供了高效、靈活的數(shù)據(jù)分析解決方案。
特性1:存算分離架構(gòu)
StarRocks 存算分離 2023年4月正式發(fā)布,目前已有上百家用戶上線存算分離架構(gòu)。與存算一體架構(gòu)相比,保持了原有簡(jiǎn)潔的架構(gòu);同時(shí)極大的降低數(shù)據(jù)存儲(chǔ)成本,提升計(jì)算的彈性能力。
訪問(wèn)遠(yuǎn)端對(duì)象存儲(chǔ)的延時(shí)相比本地存儲(chǔ)有數(shù)量級(jí)的提升,StarRocks 通過(guò) Data Cache 機(jī)制提升數(shù)據(jù)訪問(wèn)性能,確保熱數(shù)據(jù)與存算一體架構(gòu)接近。根據(jù)實(shí)際測(cè)試,存算分離緩存命中的情況與存算一體架構(gòu)相比性能完全相同;在完全冷查詢時(shí),性能大概是存算一體的30-50%。
在存算分離架構(gòu)下,StarRocks 可以方便的支持 Multi-warehouse 的能力;多個(gè) Warehouse 共享一份數(shù)據(jù),不同 Warehouse 應(yīng)用在不同的 Workload,計(jì)算資源可以進(jìn)行物理隔離,并且可以按需獨(dú)立彈性伸縮。
特性2:極速湖倉(cāng)分析
StarRocks 3.0 提供統(tǒng)一 Catalog 管理的能力,用戶不僅能高效分析導(dǎo)入到 StarRocks 的數(shù)據(jù),同時(shí)也支持直接分析開(kāi)放數(shù)據(jù)湖 Apache Hive、Apache Iceberg、Apache Hudi、Apache Paimon 的數(shù)據(jù),分析性能相比業(yè)界同類產(chǎn)品快3-5倍。
StarRocks 在查詢層 CBO、向量化、Runtime filter 等技術(shù)可以無(wú)縫應(yīng)用到開(kāi)放數(shù)據(jù)湖分析,但湖上數(shù)據(jù)分析還面臨一些其他挑戰(zhàn)。湖上數(shù)據(jù)一般以原始格式存儲(chǔ),數(shù)據(jù)組織上沒(méi)有針對(duì)查詢優(yōu)化,同時(shí)訪問(wèn)遠(yuǎn)端對(duì)象存儲(chǔ)/HDFS 的延時(shí)相比本地盤更高。StarRocks 通過(guò) I/O 合并、延遲物化、Data cache 等一系列關(guān)鍵技術(shù)加速湖上數(shù)據(jù)分析。另外,為了讓用戶平滑的獲得 StarRocks 極速湖倉(cāng)分析性能,StarRocks 實(shí)現(xiàn)了 Trino 方言的兼容,用戶可以采用 StarRocks 無(wú)縫直替 Trino。
特性3:物化視圖
StarRocks 物化視圖提供了一種從預(yù)建模到后建模的方法,大大縮短業(yè)務(wù)建模以及上線時(shí)間。業(yè)務(wù)可以直接查詢?cè)紨?shù)據(jù),借助 StarRocks 極致的查詢性能,已經(jīng)能滿足絕大部分場(chǎng)景的需求;如果直接查詢性能不滿足,則可以按需構(gòu)建物化視圖來(lái)加速查詢,StarRocks 支持物化視圖的透明查詢改寫,實(shí)現(xiàn)業(yè)務(wù)無(wú)感的情況下實(shí)現(xiàn)查詢加速。
湖倉(cāng)應(yīng)用:基于StarRocks構(gòu)建Lakehouse
基于 StarRocks,用戶可以高效的構(gòu)建 Lakehouse 數(shù)據(jù)分析架構(gòu),用戶可以選擇 StarRocks 內(nèi)表或開(kāi)放數(shù)據(jù)湖 Apache Iceberg、Apache Hudi、Apache Paimon 做為統(tǒng)一的數(shù)據(jù)存儲(chǔ),基于 StarRocks 服務(wù)BI報(bào)表、Ad-hoc 等多樣化的分析場(chǎng)景,對(duì)于業(yè)務(wù)性能要求高的查詢,通過(guò)物化視圖技術(shù)實(shí)現(xiàn)按需透明加速。
六、互聯(lián)網(wǎng)用戶的湖倉(cāng)最佳實(shí)踐案例
本段落分析了騰訊微信、攜程旅行等企業(yè)如何利用StarRocks實(shí)現(xiàn)數(shù)據(jù)的準(zhǔn)實(shí)時(shí)分析和查詢性能的顯著提升。
1.騰訊微信:數(shù)據(jù)寫入到 Iceberg,基于StarRocks實(shí)現(xiàn)準(zhǔn)實(shí)時(shí)分析,數(shù)據(jù)新鮮度從小時(shí)/天到分鐘即,查詢性能提升3-6倍。
2.攜程旅行:數(shù)據(jù)統(tǒng)一存儲(chǔ)在Hive,通過(guò) StarRocks直接服務(wù)BI報(bào)表,交互式分析。重點(diǎn)業(yè)務(wù)場(chǎng)景按需創(chuàng)建物化視圖查詢加速,查詢性能提升10+倍
結(jié)語(yǔ)
Lakehouse 兼具數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)湖的優(yōu)勢(shì),是下一代數(shù)據(jù)分析架構(gòu)的演進(jìn)趨勢(shì);StarRocks 是構(gòu)建 Lakehouse 的最佳選擇,已在微信、小紅書(shū)、攜程、平安銀行等數(shù)十個(gè)大型企業(yè)落地實(shí)踐,幫助企業(yè)實(shí)現(xiàn) One data、all analytics 的業(yè)務(wù)價(jià)值。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )