隨著5G、AI、IoT等技術越來越普及,企業(yè)數(shù)據(jù)量增大,新的數(shù)據(jù)業(yè)務層出不窮,企業(yè)對數(shù)據(jù)分析的靈活性、性能、成本要求越來越高,基于傳統(tǒng)大數(shù)據(jù)Hadoop系統(tǒng)搭建的數(shù)據(jù)分析平臺已無法滿足企業(yè)多方面的要求。
近年來隨著云計算技術發(fā)展,越來越多企業(yè)選擇了以數(shù)據(jù)湖為中心構建大數(shù)據(jù)處理平臺,數(shù)據(jù)湖最明顯的特征就是存儲和計算分離,一方面可以使成本下降;另一方面,可以獲得更好的系統(tǒng)可擴展性。
采用數(shù)據(jù)湖架構,隨著企業(yè)業(yè)務增長,可以在一份數(shù)據(jù)上不斷增加新業(yè)務,而不是像傳統(tǒng)數(shù)據(jù)平臺那樣,每拓展一個新業(yè)務就要做一次數(shù)據(jù)拷貝。
每個硬幣都有兩面,數(shù)據(jù)湖方案除了低成本、易擴展的優(yōu)點外,同時也有一些缺點:
1、無事務能力,數(shù)據(jù)入庫難!
傳統(tǒng)數(shù)據(jù)湖依賴云存儲,但云存儲一般都沒有ACID(Atomicity, Consistency, Isolation, Durability)事務能力,導致在此之上構建的Hive表格、Spark表格等不支持基于事務的數(shù)據(jù)入庫,更不用說數(shù)據(jù)更新了。
這個弊端極大制約了數(shù)據(jù)湖的使用場景,企業(yè)無法將不斷變化的數(shù)據(jù)快速注入到數(shù)據(jù)湖內(nèi)。常常需要在業(yè)務層做大量預處理后,才能進入數(shù)據(jù)湖做分析,處理時延往往在一天以上。
2、分析性能依賴于暴力掃描,即費資源又太慢!
傳統(tǒng)數(shù)據(jù)湖存儲依賴云存儲,極大降低成本,但做數(shù)據(jù)分析時屬于暴力掃描方式,完全依靠云存儲自身的吞吐能力,這種方式只適用于ETL、批量計算等對時延不敏感的應用,無法支撐如秒級數(shù)據(jù)檢索、時序數(shù)據(jù)分析等低時延分析場景。
+ CarbonData,讓華為云智能數(shù)據(jù)湖真正成為企業(yè)數(shù)據(jù)架構的底座
為了解決這些問題,華為云基于云存儲+CarbonData構建的新一代數(shù)據(jù)湖,實現(xiàn)了 “實時數(shù)據(jù)接入”、“DB數(shù)據(jù)同步”、“高性能查詢和分析”等能力,填補了業(yè)界能力空白,使云化數(shù)據(jù)湖可以真正成為企業(yè)數(shù)據(jù)架構的底座。
基于CarbonData的華為云數(shù)據(jù)湖方案如上圖描述,Kafka完成數(shù)據(jù)收集,由Flink、Spark Streaming等流計算引擎完成數(shù)據(jù)清洗、預處理等業(yè)務邏輯,將處理后的數(shù)據(jù)注入到CarbonData表格中;
繼而,用戶可使用Spark、Hive、Presto等大數(shù)據(jù)引擎對CarbonData表格進行交互分析、詳單查詢和ETL等業(yè)務;也可以使用TensorFlow、PyTorch等AI引擎進行AI模型訓練、推理等。
下面進一步闡述,加持CarbonData后,華為云智能數(shù)據(jù)湖的三大特點:
1、實時數(shù)據(jù)入庫
CarbonData增加了對 Flink 的支持,50行代碼輕松實現(xiàn)對接 Flink 以CarbonData的格式實現(xiàn)實時數(shù)據(jù)入庫。同時,CarbonData支持ACID事務能力,確保入庫操作的原子性和一致性。這使得CarbonData成為唯一一款兼具速度、靈活性和支持 ACID 事務特性的全場景數(shù)據(jù)湖。
2、DB數(shù)據(jù)同步
CarbonData支持Delta增量同步,相比Hive使用的數(shù)據(jù)重寫策略,數(shù)據(jù)同步性能提升10倍?;贑arbonData的數(shù)據(jù)快速同步能力,企業(yè)可以輕松實現(xiàn)關系型數(shù)據(jù)庫到數(shù)據(jù)湖的數(shù)據(jù)實時同步,縮短數(shù)據(jù)入湖可見周期,將數(shù)據(jù)可見時間從T+1優(yōu)化為T+0,消除數(shù)據(jù)入湖壁壘。
3、高性能查詢和分析
CarbonData支持對云存儲的數(shù)據(jù)構建索引和物化視圖,實現(xiàn)10倍以上的查詢性能提升。根據(jù)業(yè)務需求,用戶可選擇多種索引和物化視圖加速能力,包括主索引、二級索引、時空索引、多值列索引、時間序列Rollup、多表Join預聚合等。
CarbonData在構建這些索引的時候,同樣遵循ACID事務性,確保索引構建過程中不會對業(yè)務查詢造成影響。并可以利用云計算的按需擴展能力,加速索引和物化視圖的構建性能。
基于CarbonData最新版本的異步索引構建能力,在數(shù)據(jù)入庫實時性要求較高的業(yè)務場景,用戶可通過“先入庫再建索引”的方式,平衡數(shù)據(jù)入庫延遲和查詢性能。實現(xiàn)數(shù)據(jù)入庫后即可被查詢,并使用周期任務或等到業(yè)務閑時再對數(shù)據(jù)建立索引,大幅提升查詢性能。
典型場景分析
某互聯(lián)網(wǎng)行業(yè)用戶使用CarbonData構建全場景數(shù)據(jù)湖,借助“DB數(shù)據(jù)同步”、“實時數(shù)據(jù)入庫”和“高性能查詢和分析”功能輕松構建PB級別、甚至EB級別大數(shù)據(jù)處理平臺。
對于一個日活千萬級別的APP應用來說,平均每天約產(chǎn)生500億條用戶行為數(shù)據(jù),一年的數(shù)據(jù)存儲量約10PB。在使用CarbonData之前,該用戶曾做過如下性能和成本分析:
1、傳統(tǒng)Nosql數(shù)據(jù)庫雖然具有較好的數(shù)據(jù)索引機制,但是“太貴”:
因為要查詢快,用戶通常會首先考慮HBase, ElasticSearch等自帶索引的NoSQL數(shù)據(jù)庫。
以HBase為例,每PB存儲的云硬盤成本為70萬/月;單臺RegionServer可維護不超過10TB的數(shù)據(jù), 每PB的數(shù)據(jù)存儲需100臺計算節(jié)點來部署RegionServer,每臺計算節(jié)點500元/月,部署的硬件成本為500*100=5萬/月,每PB總成本=75萬/月。
2、基于云存儲+文件雖然具有較好的成本優(yōu)勢,但是“太慢”:
使用Parquet, ORC等列存,可以將數(shù)據(jù)存儲在對象存儲中,成本大大降低,每PB存儲的對象存儲成本約為8萬/月;100臺計算節(jié)點假設每天開機8小時,計算成本5/3=1.67萬/月,每PB總成本約9.67萬/月,成本大幅下降。
但是由于無索引,只能通過暴力掃描的方式進行查詢和計算,在暴力計算時系統(tǒng)往往受限于對象存儲帶寬,假設對象存儲帶寬為20GB/s,對10PB全量數(shù)據(jù)查詢一次通常需要4~5個小時(視業(yè)務查詢條件而定)。
3、云存儲+CarbonData, 實現(xiàn)“又快又便宜”的任性:
CarbonData兼具NoSQL的索引性能優(yōu)勢,和Parquet、ORC等文件存儲的成本優(yōu)勢,又快又便宜:
1)利用CarbonData的索引、物化視圖、緩存等查詢優(yōu)化技術,查詢時間從4個小時下降到30秒內(nèi),查詢性能提升480倍;
2)支持ACID事務和DB數(shù)據(jù)同步能力,縮短數(shù)據(jù)入湖可見周期從T+1到T+0;
3)基于存算分離架構,使用云存儲+100計算節(jié)點按需啟停,每PB總成本約9.67萬/月,成本降低近10倍。
展望
Apache CarbonData是一個高性能EB級別原生Hadoop分析型數(shù)據(jù)倉庫,提供面向對象存儲上EB級數(shù)據(jù)的高性能明細查詢能力、交互式查詢能力,提供流數(shù)據(jù)接入、DB數(shù)據(jù)實時同步和更新能力,提供對主要ETL業(yè)務的支持和加速,以及機器學習、深度學習等AI引擎的對接和優(yōu)化,生態(tài)發(fā)展越來越完善。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )