TiDB、OceanBase都在談的HTAP,為何如此燚?

過去一個月里,堪稱國產(chǎn)數(shù)據(jù)庫又一高光時刻。

這邊廂PingCAP剛剛發(fā)布面向企業(yè)級核心場景、具備完整 HTAP 能力的分布式數(shù)據(jù)庫TiDB 5.0 版本;那邊廂OceanBase也緊跟著推出3.0版本,主攻方向亦是HTAP分布式數(shù)據(jù)庫,在GitHub Oceanbase標(biāo)注自己為“ The leading Scalable HTAP Database” , 并且又玩了一把TPC-H打榜第一的套路(后續(xù):其成績很快被超過)。

可能有人會質(zhì)疑TPC-C和TPC-H的測試價值,畢竟這是兩個歷史悠久的測試標(biāo)準(zhǔn),參考價值成疑。OceanBase如果能在TPC-DS上取得好成績會更有說服力。不過OceanBase自帶阿里&螞蟻光環(huán),屬于招黑體質(zhì),一舉一動都容易引來爭議,但敢于在國際舞臺亮劍,何嘗不是國產(chǎn)數(shù)據(jù)庫的榮耀,所以也無須過于苛刻。

閑言少敘,PingCAP和OceanBase把HTAP這個詞徹底帶火了。5月28日宣布開源計(jì)劃的阿里云PolarDB也談及HTAP,連Oracle上周都發(fā)了一篇HTAP的文章。PingCAP近年來一直都是HTAP信徒,大力宣傳無可厚非;而OceanBase從傳統(tǒng)意義上講,大家普遍認(rèn)為它聚焦在OLTP數(shù)據(jù)庫領(lǐng)域,為何這次也大張旗鼓的喊出HTAP口號?

個中玄機(jī),還得從HTAP的歷史說起。

HTAP:魚和熊掌可兼得

HTAP(Hybrid Transaction and Analytical Processing,混合事務(wù)和分析處理)就是能夠?qū)⒃诰€事務(wù)處理(On-Line Transactional Processing,簡稱OLTP) 和在線數(shù)據(jù)分析 (On-Line Analytical Processing,簡稱OLAP) 請求在同一個數(shù)據(jù)庫系統(tǒng)中完成。

正所謂天下大勢,分久必合合久必分。此話放在數(shù)據(jù)庫領(lǐng)域一樣適用。HTAP的確不是一個很新的概念,縱觀數(shù)據(jù)庫五十余年的發(fā)展歷程,OLTP和OLAP兩種需求在其中經(jīng)歷了漫長的融合-分離-再融合的過程。

2005年,Gartner正式提出了HTAP這一概念,并且迅速引起了一些企業(yè)的關(guān)注,被視為是未來數(shù)據(jù)發(fā)展的重要趨勢之一。轉(zhuǎn)眼到了2014年,Gartner又對HTAP數(shù)據(jù)庫給出了明確的定義:即需要同時支持OLTP和OLAP場景,基于創(chuàng)新的計(jì)算存儲框架,在同一份數(shù)據(jù)上保證事務(wù)的同時支持實(shí)時分析,省去費(fèi)時的ETL過程。

彼時,正是大數(shù)據(jù)興起之際,人們對于數(shù)據(jù)及其價值有著重新的認(rèn)識與認(rèn)知;另一方面,多核處理器、閃存等硬件技術(shù)的高速發(fā)展,也讓人們逐漸意識到數(shù)據(jù)庫設(shè)計(jì)是時候重新設(shè)計(jì)了,在同一數(shù)據(jù)庫處理OLTP和OLAP請求的可行性大幅提升。

所以,作為國產(chǎn)數(shù)據(jù)庫的兩大代表,PingCAP和OceanBase齊刷刷瞄準(zhǔn)HTAP,的確是摸準(zhǔn)了時代的脈搏。但今天的HTAP已經(jīng)與過去大不相同,數(shù)據(jù)資源、數(shù)據(jù)消費(fèi)習(xí)慣以及數(shù)據(jù)架構(gòu)的顛覆性變化,既賦予了HTAP新時代的內(nèi)涵,也讓HTAP承擔(dān)起更重大的責(zé)任。

HTAP因數(shù)而變

為什么HTAP會變得如此炎手可熱?

原因始終繞不開一個“數(shù)”字。如果仔細(xì)研究Gartner關(guān)于HTAP的定義,我們會發(fā)現(xiàn)“同時支持OLTP和OLAP、創(chuàng)新計(jì)算存儲框架、去掉ETL”這幾大關(guān)鍵詞都跟“數(shù)據(jù)”密切相關(guān),其背后是數(shù)據(jù)資源、數(shù)據(jù)消費(fèi)習(xí)慣以及數(shù)據(jù)架構(gòu)顛覆性的改變。

首先,數(shù)據(jù)產(chǎn)生方式、規(guī)模、速度與過去大不同。以行為和機(jī)器產(chǎn)生的非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)正在成為數(shù)據(jù)增長的主力軍,這些數(shù)據(jù)無論是數(shù)據(jù)規(guī)模、密集度、產(chǎn)生速度都遠(yuǎn)超交易型的結(jié)構(gòu)化數(shù)據(jù);這也直接驅(qū)動著HTAP場景在未來會更加豐富化。

其次,實(shí)時性的數(shù)據(jù)消費(fèi)正在成為新常態(tài),數(shù)據(jù)消費(fèi)的人群規(guī)模、場景豐富程度迅速增加,無論是最終消費(fèi)者,還是企業(yè)員工都有數(shù)據(jù)消費(fèi)需求,驅(qū)動著OLTP場景與OLAP場景互相滲透,彼此之間的界限變得模糊。

例如,一個快消品的調(diào)研員,會通過手持終端設(shè)備隨時隨地了解產(chǎn)品銷售情況和預(yù)測銷售趨勢,進(jìn)而根據(jù)數(shù)據(jù)做出相應(yīng)決策;一個基金經(jīng)理往往需要隨時根據(jù)客戶資產(chǎn)凈值、交易頻次變化、金融產(chǎn)品銷售情況等一系列數(shù)據(jù)服務(wù),來有針對性進(jìn)行營銷決策……而這些決定常常需要幾分鐘甚至幾秒鐘內(nèi)完成,實(shí)時性需求成為新一代HTAP的剛需。

過去,OLTP場景僅僅負(fù)責(zé)產(chǎn)生數(shù)據(jù),數(shù)據(jù)往往需要搬運(yùn)到數(shù)據(jù)倉庫或者機(jī)器學(xué)習(xí)平臺進(jìn)行數(shù)據(jù)消費(fèi),數(shù)據(jù)消費(fèi)人群也僅僅是數(shù)據(jù)倉庫管理員、決策層等少數(shù)人群;現(xiàn)在,在數(shù)據(jù)驅(qū)動型場景大幅增加的加持下,人人都是隨時隨地的數(shù)據(jù)消費(fèi)者,極大推動OLTP場景與OLAP場景的融合。

第三,數(shù)據(jù)驅(qū)動型場景的井噴式出現(xiàn),讓計(jì)算與數(shù)據(jù)兩個角色出現(xiàn)變化,過去一直都是以計(jì)算為核心,而數(shù)據(jù)驅(qū)動型場景則是以數(shù)據(jù)為核心,核心角色的轉(zhuǎn)變意味著數(shù)據(jù)架構(gòu)將發(fā)生徹底改變。

所以這就涉及到一個核心問題:即在OLTP場景和OLAP場景加速融合的趨勢下,在架構(gòu)層到底是Move Data還是Move Code。過去,OLTP場景產(chǎn)生數(shù)據(jù)之后,往往需要通過ETL將數(shù)據(jù)導(dǎo)入到數(shù)據(jù)倉庫,然后在數(shù)據(jù)倉庫中建模、ODS、建立報(bào)表,如果涉及到需要應(yīng)用到機(jī)器學(xué)習(xí),還需要將數(shù)據(jù)導(dǎo)入到機(jī)器學(xué)習(xí)平臺,數(shù)據(jù)移動次數(shù)已經(jīng)足夠頻繁。現(xiàn)在,OLTP場景和OLAP場景加速融合,BI呈現(xiàn)和AI操作服務(wù)實(shí)時化,數(shù)據(jù)互相移動將更加頻繁,這無疑對于數(shù)據(jù)架構(gòu)帶來極大挑戰(zhàn)。

關(guān)于數(shù)據(jù)移動,AWS有一個經(jīng)典的描述:AWS認(rèn)為隨著數(shù)據(jù)量的不斷增加,數(shù)據(jù)的往來移動操作變得越來越困難,稱之為“數(shù)據(jù)重力”現(xiàn)象。要想解決“數(shù)據(jù)重力”現(xiàn)象,AWS的做法類似Move Data,針對每個場景有專用數(shù)據(jù)庫,并且集成Athena、Glue等工具集,讓ETL等移動操作更加集成化、自動化和高效化。這種模式比較適合大型互聯(lián)網(wǎng)企業(yè),擁有比較強(qiáng)大的技術(shù)團(tuán)隊(duì)。

另一種則是Move Code,通過HTAP這種融合的數(shù)據(jù)平臺,在一份數(shù)據(jù)上同時支撐業(yè)務(wù)系統(tǒng)運(yùn)行并實(shí)現(xiàn)OLAP 場景,縮短數(shù)據(jù)移動路徑,讓數(shù)據(jù)不再搬家,就地實(shí)現(xiàn)OLTP場景和OLAP場景的融合。這個更符合大多數(shù)企業(yè),尤其是企業(yè)數(shù)字化轉(zhuǎn)型的需求。

本質(zhì)上,HTAP的做法更具變革性,打破了OLTP場景和OLAP場景之間過去傳統(tǒng)的分界線,大幅提升大數(shù)據(jù)體系下數(shù)據(jù)實(shí)時處理和分析計(jì)算能力;另一方面,通過分布式架構(gòu),也徹底解決了過去困擾傳統(tǒng)數(shù)據(jù)庫、數(shù)據(jù)倉庫多年的性能、擴(kuò)展性,實(shí)時性等難題。

但HTAP雖好,但實(shí)現(xiàn)起來卻沒有那么簡單。這里不能不提PingCAP,其在HTAP上的戰(zhàn)略布局顯然更快人一步,隨著TiDB 5.0的發(fā)布,也標(biāo)志著國產(chǎn)數(shù)據(jù)庫廠商在HTAP領(lǐng)域占領(lǐng)先機(jī)。

都是HTAP,哪些趨勢不能忽視

事實(shí)上,不光是PingCAP和OceanBase在搞HTAP,Oracle、GreenPlum這些傳統(tǒng)數(shù)據(jù)庫時代的大咖也在聚焦HTAP。

都是HTAP,哪些才是真正代表著HTAP的趨勢呢?

其一,產(chǎn)品架構(gòu)上需要對未來做好準(zhǔn)備,HTAP本質(zhì)上已經(jīng)開始逐漸演變成一體化數(shù)據(jù)服務(wù)平臺,其多元化場景決定了絕非是OLTP和OLAP簡單疊加,如果通過OLTP架構(gòu)外擴(kuò)實(shí)現(xiàn)OLAP,顯然只能算權(quán)宜之計(jì),不能代表面向未來的架構(gòu)。用戶在分布式數(shù)據(jù)庫和大數(shù)據(jù)技術(shù)的融合也產(chǎn)生了廣泛意義的HTAP的需求,長遠(yuǎn)來看,HTAP會成為數(shù)字化時代一種普遍性的需求。

以PingCAP為例,其TiDB 4.0就是一款為HTAP而設(shè)計(jì)的分布式數(shù)據(jù)庫,到了5.0版本,在TiFlash引入MPP模式與多項(xiàng)企業(yè)級特性的增加,使得TiDB 5.0發(fā)展為“一棧式數(shù)據(jù)服務(wù)平臺”。

其二,開源生態(tài)決定基礎(chǔ),數(shù)據(jù)庫作為重要的基礎(chǔ)軟件,HTAP數(shù)據(jù)庫未來需要在成百上千的場景中打磨,過去那種封閉模式不管是技術(shù)迭代還是用戶增長都是舉步維艱,走向開放開源的生態(tài)之路已經(jīng)是大勢所趨。比如,TiDB5.0發(fā)布會“TiDB+FIink”的混合架構(gòu)突破了狹義HTAP的范圍,開啟了“分布式數(shù)據(jù)+大數(shù)據(jù)技術(shù)棧”的HTAP生態(tài)模式。

未來,將開源戰(zhàn)略作為核心戰(zhàn)略、構(gòu)建高度活躍的開源社區(qū)將會是HTAP數(shù)據(jù)庫的長遠(yuǎn)目標(biāo)。

其三,擁抱云是未來,需要支持云原生架構(gòu),充分利用云原生技術(shù)輕量化、松耦合、靈活度高等優(yōu)勢,另外還實(shí)現(xiàn)跨云與多云部署。

同樣,TiDB 5.0在這方面也做出了榜樣,基于云原生架構(gòu)的TiDB 5.0能夠充分發(fā)揮云資源的能力,PingCAP在海外市場推出了TiDB Cloud服務(wù),堅(jiān)定擁抱云路線。國內(nèi)也有很多客戶在云原生架構(gòu)中采用TiDB構(gòu)建云原生技術(shù)棧。

HTAP將是新藍(lán)海

既然HTAP如此火熱,那么它會取代以O(shè)racle為代表的關(guān)系型數(shù)據(jù)庫或者傳統(tǒng)數(shù)據(jù)倉庫么?

在筆者看來,HTAP雖然不是一個很新的概念,卻是一個新的藍(lán)海市場,它代表著數(shù)據(jù)驅(qū)動型場景井噴之后,用戶在數(shù)據(jù)處理、消費(fèi)整個需求的迭代升級,HTAP的興起意味著一個新的數(shù)據(jù)庫藍(lán)海市場正在逐步形成。

因此,單純的談?wù)揌TAP點(diǎn)對點(diǎn)的取代關(guān)系型數(shù)據(jù)庫或者傳統(tǒng)數(shù)據(jù)倉庫其實(shí)并無太大意義,HTAP也不應(yīng)該成為國產(chǎn)化替代的一個“借口”,它更像一條新的數(shù)據(jù)庫賽道,給予了像PingCAP、OceanBase這些后起之秀更多市場機(jī)會,讓它們看到了抓住新需求的機(jī)遇,以及打破數(shù)據(jù)庫市場壟斷局面的希望。

從更大的范圍來看,新一代HTAP,正在成為分布式數(shù)據(jù)庫與大數(shù)據(jù)棧融合的明珠,我們甚至可以預(yù)見,未來的HTAP不再是數(shù)據(jù)庫的一個技術(shù)術(shù)語,而是成為一種以融合簡化方式構(gòu)建數(shù)據(jù)棧的一種方式。

總體來看,HTAP現(xiàn)在很火,市場既有像PingCAP這樣具有前瞻性的新銳數(shù)據(jù)庫創(chuàng)新企業(yè),也有OceanBase這種自帶光環(huán)的明星數(shù)據(jù)庫公司,還有Oracle這樣的大鱷,未來競爭必然會愈發(fā)激烈。對于中國數(shù)據(jù)庫廠商而言,路很長、未來很遠(yuǎn),砥礪前行,且行且珍惜。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2021-06-09
TiDB、OceanBase都在談的HTAP,為何如此燚?
彼時,正是大數(shù)據(jù)興起之際,人們對于數(shù)據(jù)及其價值有著重新的認(rèn)識與認(rèn)知;另一方面,多核處理器、閃存等硬件技術(shù)的高速發(fā)展,也讓人們逐漸意識到數(shù)據(jù)庫設(shè)計(jì)是時候重新設(shè)計(jì)了,在同一數(shù)據(jù)庫處理OLTP和OLAP請

長按掃碼 閱讀全文