26uuu日韩,亚洲欧美日韩成人一区在线,最新国产精品第一页

隨著5G、AI、IoT等技術越來越普及，企業(yè)數(shù)據(jù)量增大，新的數(shù)據(jù)業(yè)務層出不窮，企業(yè)對數(shù)據(jù)分析的靈活性、性能、成本要求越來越高，基于傳統(tǒng)大數(shù)據(jù)Hadoop系統(tǒng)搭建的數(shù)據(jù)分析平臺已無法滿足企業(yè)多方面的要求。

近年來隨著云計算技術發(fā)展，越來越多企業(yè)選擇了以數(shù)據(jù)湖為中心構建大數(shù)據(jù)處理平臺，數(shù)據(jù)湖最明顯的特征就是存儲和計算分離，一方面可以使成本下降;另一方面，可以獲得更好的系統(tǒng)可擴展性。

采用數(shù)據(jù)湖架構，隨著企業(yè)業(yè)務增長，可以在一份數(shù)據(jù)上不斷增加新業(yè)務，而不是像傳統(tǒng)數(shù)據(jù)平臺那樣，每拓展一個新業(yè)務就要做一次數(shù)據(jù)拷貝。

每個硬幣都有兩面，數(shù)據(jù)湖方案除了低成本、易擴展的優(yōu)點外，同時也有一些缺點：

1、無事務能力，數(shù)據(jù)入庫難！

傳統(tǒng)數(shù)據(jù)湖依賴云存儲，但云存儲一般都沒有ACID(Atomicity， Consistency， Isolation， Durability)事務能力，導致在此之上構建的Hive表格、Spark表格等不支持基于事務的數(shù)據(jù)入庫，更不用說數(shù)據(jù)更新了。

這個弊端極大制約了數(shù)據(jù)湖的使用場景，企業(yè)無法將不斷變化的數(shù)據(jù)快速注入到數(shù)據(jù)湖內(nèi)。常常需要在業(yè)務層做大量預處理后，才能進入數(shù)據(jù)湖做分析，處理時延往往在一天以上。

2、分析性能依賴于暴力掃描，即費資源又太慢！

傳統(tǒng)數(shù)據(jù)湖存儲依賴云存儲，極大降低成本，但做數(shù)據(jù)分析時屬于暴力掃描方式，完全依靠云存儲自身的吞吐能力，這種方式只適用于ETL、批量計算等對時延不敏感的應用，無法支撐如秒級數(shù)據(jù)檢索、時序數(shù)據(jù)分析等低時延分析場景。

+ CarbonData，讓華為云智能數(shù)據(jù)湖真正成為企業(yè)數(shù)據(jù)架構的底座

為了解決這些問題，華為云基于云存儲+CarbonData構建的新一代數(shù)據(jù)湖，實現(xiàn)了 “實時數(shù)據(jù)接入”、“DB數(shù)據(jù)同步”、“高性能查詢和分析”等能力，填補了業(yè)界能力空白，使云化數(shù)據(jù)湖可以真正成為企業(yè)數(shù)據(jù)架構的底座。

+CarbonData，華為云智能數(shù)據(jù)湖讓數(shù)據(jù)處理飛起來！

基于CarbonData的華為云數(shù)據(jù)湖方案如上圖描述，Kafka完成數(shù)據(jù)收集，由Flink、Spark Streaming等流計算引擎完成數(shù)據(jù)清洗、預處理等業(yè)務邏輯，將處理后的數(shù)據(jù)注入到CarbonData表格中;

繼而，用戶可使用Spark、Hive、Presto等大數(shù)據(jù)引擎對CarbonData表格進行交互分析、詳單查詢和ETL等業(yè)務;也可以使用TensorFlow、PyTorch等AI引擎進行AI模型訓練、推理等。

下面進一步闡述，加持CarbonData后，華為云智能數(shù)據(jù)湖的三大特點：

1、實時數(shù)據(jù)入庫

CarbonData增加了對 Flink 的支持，50行代碼輕松實現(xiàn)對接 Flink 以CarbonData的格式實現(xiàn)實時數(shù)據(jù)入庫。同時，CarbonData支持ACID事務能力，確保入庫操作的原子性和一致性。這使得CarbonData成為唯一一款兼具速度、靈活性和支持 ACID 事務特性的全場景數(shù)據(jù)湖。

2、DB數(shù)據(jù)同步

CarbonData支持Delta增量同步，相比Hive使用的數(shù)據(jù)重寫策略，數(shù)據(jù)同步性能提升10倍?；贑arbonData的數(shù)據(jù)快速同步能力，企業(yè)可以輕松實現(xiàn)關系型數(shù)據(jù)庫到數(shù)據(jù)湖的數(shù)據(jù)實時同步，縮短數(shù)據(jù)入湖可見周期，將數(shù)據(jù)可見時間從T+1優(yōu)化為T+0，消除數(shù)據(jù)入湖壁壘。

3、高性能查詢和分析

CarbonData支持對云存儲的數(shù)據(jù)構建索引和物化視圖，實現(xiàn)10倍以上的查詢性能提升。根據(jù)業(yè)務需求，用戶可選擇多種索引和物化視圖加速能力，包括主索引、二級索引、時空索引、多值列索引、時間序列Rollup、多表Join預聚合等。

CarbonData在構建這些索引的時候，同樣遵循ACID事務性，確保索引構建過程中不會對業(yè)務查詢造成影響。并可以利用云計算的按需擴展能力，加速索引和物化視圖的構建性能。

基于CarbonData最新版本的異步索引構建能力，在數(shù)據(jù)入庫實時性要求較高的業(yè)務場景，用戶可通過“先入庫再建索引”的方式，平衡數(shù)據(jù)入庫延遲和查詢性能。實現(xiàn)數(shù)據(jù)入庫后即可被查詢，并使用周期任務或等到業(yè)務閑時再對數(shù)據(jù)建立索引，大幅提升查詢性能。

典型場景分析

某互聯(lián)網(wǎng)行業(yè)用戶使用CarbonData構建全場景數(shù)據(jù)湖，借助“DB數(shù)據(jù)同步”、“實時數(shù)據(jù)入庫”和“高性能查詢和分析”功能輕松構建PB級別、甚至EB級別大數(shù)據(jù)處理平臺。

對于一個日活千萬級別的APP應用來說，平均每天約產(chǎn)生500億條用戶行為數(shù)據(jù)，一年的數(shù)據(jù)存儲量約10PB。在使用CarbonData之前，該用戶曾做過如下性能和成本分析：

1、傳統(tǒng)Nosql數(shù)據(jù)庫雖然具有較好的數(shù)據(jù)索引機制，但是“太貴”：

因為要查詢快，用戶通常會首先考慮HBase， ElasticSearch等自帶索引的NoSQL數(shù)據(jù)庫。

以HBase為例，每PB存儲的云硬盤成本為70萬/月;單臺RegionServer可維護不超過10TB的數(shù)據(jù)，每PB的數(shù)據(jù)存儲需100臺計算節(jié)點來部署RegionServer，每臺計算節(jié)點500元/月，部署的硬件成本為500*100=5萬/月，每PB總成本=75萬/月。

2、基于云存儲+文件雖然具有較好的成本優(yōu)勢，但是“太慢”：

使用Parquet， ORC等列存，可以將數(shù)據(jù)存儲在對象存儲中，成本大大降低，每PB存儲的對象存儲成本約為8萬/月;100臺計算節(jié)點假設每天開機8小時，計算成本5/3=1.67萬/月，每PB總成本約9.67萬/月，成本大幅下降。

但是由于無索引，只能通過暴力掃描的方式進行查詢和計算，在暴力計算時系統(tǒng)往往受限于對象存儲帶寬，假設對象存儲帶寬為20GB/s，對10PB全量數(shù)據(jù)查詢一次通常需要4~5個小時(視業(yè)務查詢條件而定)。

3、云存儲+CarbonData，實現(xiàn)“又快又便宜”的任性：

CarbonData兼具NoSQL的索引性能優(yōu)勢，和Parquet、ORC等文件存儲的成本優(yōu)勢，又快又便宜：

1)利用CarbonData的索引、物化視圖、緩存等查詢優(yōu)化技術，查詢時間從4個小時下降到30秒內(nèi)，查詢性能提升480倍;

2)支持ACID事務和DB數(shù)據(jù)同步能力，縮短數(shù)據(jù)入湖可見周期從T+1到T+0;

3)基于存算分離架構，使用云存儲+100計算節(jié)點按需啟停，每PB總成本約9.67萬/月，成本降低近10倍。

展望

Apache CarbonData是一個高性能EB級別原生Hadoop分析型數(shù)據(jù)倉庫，提供面向對象存儲上EB級數(shù)據(jù)的高性能明細查詢能力、交互式查詢能力，提供流數(shù)據(jù)接入、DB數(shù)據(jù)實時同步和更新能力，提供對主要ETL業(yè)務的支持和加速，以及機器學習、深度學習等AI引擎的對接和優(yōu)化，生態(tài)發(fā)展越來越完善。

+CarbonData，華為云智能數(shù)據(jù)湖讓數(shù)據(jù)處理飛起來！

（免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時，應及時向本網(wǎng)站提出書面權利通知或不實情況說明，并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關文章源頭核實，溝通刪除相關內(nèi)容或斷開相關鏈接。）

+CarbonData，華為云智能數(shù)據(jù)湖讓數(shù)據(jù)處理飛起來！

+CarbonData，華為云智能數(shù)據(jù)湖讓數(shù)據(jù)處理飛起來！