睿帆科技:千億級(jí)數(shù)據(jù)毫秒響應(yīng)的分布式列存數(shù)據(jù)庫(kù)雪球DB

睿帆科技:千億級(jí)數(shù)據(jù)毫秒響應(yīng)的分布式列存數(shù)據(jù)庫(kù)雪球DB

近兩年,大數(shù)據(jù)作為重要資源被提上國(guó)家戰(zhàn)略。今年兩會(huì),馬化騰、雷軍、丁磊、張近東等互聯(lián)網(wǎng)企業(yè)的全國(guó)兩會(huì)代表委員就關(guān)于大數(shù)據(jù)戰(zhàn)略、數(shù)字經(jīng)濟(jì)發(fā)展積極獻(xiàn)策。

此外,國(guó)家發(fā)改委還在近期刊發(fā)了關(guān)于2020年發(fā)展數(shù)字經(jīng)濟(jì)的八大舉措。

例如“實(shí)體經(jīng)濟(jì)數(shù)字化融合;促進(jìn)數(shù)據(jù)要素流通;發(fā)展新型基礎(chǔ)設(shè)施”等,以鼓勵(lì)傳統(tǒng)產(chǎn)業(yè)加快數(shù)字化轉(zhuǎn)型,推進(jìn)前沿信息技術(shù)在各場(chǎng)景的融合應(yīng)用。

海量的數(shù)據(jù)是政務(wù)管理、企業(yè)數(shù)字化轉(zhuǎn)型的核心生產(chǎn)因素,但現(xiàn)階段,真正被有效儲(chǔ)存、使用的數(shù)據(jù)還不到10%。如何喚醒大量“沉睡的”數(shù)據(jù)并從中尋找、分析有價(jià)值的信息,促進(jìn)業(yè)務(wù)發(fā)展,無(wú)疑是一個(gè)巨大挑戰(zhàn)。

“4G時(shí)代,大數(shù)據(jù)更多是服務(wù)IT基礎(chǔ)建設(shè)成熟行業(yè)的頭部客戶,離個(gè)人還有一定距離。5G的到來(lái)和國(guó)家進(jìn)一步提出深化大數(shù)據(jù)的發(fā)展,更多中小型企業(yè)對(duì)于數(shù)據(jù)采集、存儲(chǔ)、治理、分析和挖掘的需求也在快速增加。”在睿帆科技大數(shù)據(jù)科學(xué)家、雪球數(shù)據(jù)庫(kù)總架構(gòu)師李求實(shí)博士看來(lái),行業(yè)頭部企業(yè)數(shù)據(jù)每年以PB級(jí)甚至上百PB爆炸式增長(zhǎng),催生了對(duì)于PB級(jí)數(shù)據(jù)量在線或?qū)崟r(shí)數(shù)據(jù)分析的處理能力的需求。

關(guān)于PB級(jí)數(shù)據(jù),美國(guó)未來(lái)學(xué)家雷·庫(kù)茲韋爾有過(guò)一個(gè)形象的比喻:如果人類(lèi)功能記憶的容量預(yù)計(jì)在1.25個(gè)TB,那么800個(gè)人類(lèi)記憶才相當(dāng)于1個(gè)PB。

面對(duì)龐大的數(shù)據(jù)量,很多企業(yè)早期主要通過(guò)抽樣數(shù)據(jù)來(lái)獲取結(jié)論。李博士告訴「獵云網(wǎng)」,這種方法的弊端在于“抽樣之后的數(shù)據(jù)變成了百萬(wàn)級(jí)或千萬(wàn)級(jí),是原始數(shù)據(jù)的一個(gè)子集,和實(shí)際情況會(huì)有很大偏差,導(dǎo)致根據(jù)樣本得出的結(jié)論可靠性大大降低。”

為了追求數(shù)據(jù)的準(zhǔn)確性,有的企業(yè)不得不降低數(shù)據(jù)處理的實(shí)時(shí)性,采用離線處理的方式。但數(shù)據(jù)的價(jià)值就在于其時(shí)效性,越早分析越能得到快速準(zhǔn)確的反饋或響應(yīng),并及時(shí)利用結(jié)論指導(dǎo)后續(xù)的業(yè)務(wù)工作。

此時(shí),一款針對(duì)海量數(shù)據(jù)進(jìn)行毫秒級(jí)在線即席查詢分析的數(shù)據(jù)庫(kù)就顯得尤其關(guān)鍵——它甚至決定了企業(yè)是否能以比競(jìng)爭(zhēng)對(duì)手更低的成本、更快的速度解決問(wèn)題,構(gòu)建起核心競(jìng)爭(zhēng)力。

滿足大數(shù)據(jù)量查詢的穩(wěn)、準(zhǔn)、快

過(guò)去十年,業(yè)內(nèi)一直推崇的分布式計(jì)算平臺(tái)是Apache基金會(huì)旗下的Hadoop。2009年,Hadoop將1TB數(shù)據(jù)的排序時(shí)間縮短到了62秒,從此名聲大噪。

它也憑借其高可靠性、高可擴(kuò)展性、高容錯(cuò)性和低成本成為當(dāng)今大數(shù)據(jù)領(lǐng)域運(yùn)用最多、范圍最廣的技術(shù)平臺(tái),被雅虎、FaceBook、last.fm等眾多公司應(yīng)用。

李博士介紹,由于Hadoop的設(shè)計(jì)初衷是針對(duì)存儲(chǔ)和分析離線大數(shù)據(jù),因此無(wú)法提供便捷高效的數(shù)據(jù)交互、多維分析、快速查詢服務(wù),“雖然產(chǎn)生了諸多如Spark、Impala、Drill等SQLonHadoop項(xiàng)目來(lái)優(yōu)化Hadoop在服務(wù)效率上的短板,但由于這些項(xiàng)目仍然基于Hadoop底層機(jī)制,所以無(wú)法從根本上解決這些問(wèn)題。”

為了幫助企業(yè)做到穩(wěn)、準(zhǔn)、快的實(shí)現(xiàn)海量數(shù)據(jù)的調(diào)用需求,掌握PB級(jí)數(shù)據(jù)核心處理技術(shù)的大數(shù)據(jù)產(chǎn)品及解決方案供應(yīng)商睿帆科技,在原有的零距大數(shù)據(jù)中臺(tái)的基礎(chǔ)上,自研了一款具有千億級(jí)數(shù)據(jù)毫秒查詢速度的分布式分析型數(shù)據(jù)庫(kù)雪球DB。

“雪球”的特點(diǎn)主要在于列式存儲(chǔ),向量化執(zhí)行引擎,高可靠的集群架構(gòu)以及數(shù)據(jù)自動(dòng)均衡、實(shí)現(xiàn)副本異步拷貝的能力。

睿帆科技:千億級(jí)數(shù)據(jù)毫秒響應(yīng)的分布式列存數(shù)據(jù)庫(kù)雪球DB

首先,與行式存儲(chǔ)將每一行的數(shù)據(jù)連續(xù)存儲(chǔ)不同,列存是連續(xù)存儲(chǔ)每一列的數(shù)據(jù)。它的優(yōu)勢(shì)是在數(shù)據(jù)讀取時(shí),只需要讀取參與計(jì)算的列,這極大降低了IO 的消耗,加快了查詢速度。與此同時(shí),同一列中的數(shù)據(jù)屬于同一類(lèi)型,這使得列式存儲(chǔ)可對(duì)數(shù)據(jù)進(jìn)行高達(dá)十倍甚至數(shù)十倍的壓縮,這節(jié)省了存儲(chǔ)空間和成本消耗,非常適合大數(shù)據(jù)查詢分析和高并發(fā)查詢。

其次,雪球DB還實(shí)現(xiàn)了向量化執(zhí)行引擎,對(duì)內(nèi)存中的列式數(shù)據(jù),一個(gè)批次調(diào)用一次指令(而非每一行調(diào)用一次),不僅減少了函數(shù)調(diào)用次數(shù),而且可以充分發(fā)揮指令的并行能力,大幅縮短了計(jì)算耗時(shí)。相當(dāng)于讓數(shù)據(jù)處理的效率有了幾何倍的提升。

此外,雪球DB通過(guò)Share-nothing節(jié)點(diǎn)方式,消除了主節(jié)點(diǎn)性能瓶頸,大幅提升集群性能。

“Share-nothing說(shuō)白了就是什么任何東西都不共享,好處就在于通過(guò)硬件設(shè)備的疊加,就可以完成性能的線性疊加。而傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)會(huì)共享一定的設(shè)備,因此會(huì)擁有疊加瓶頸,使其疊加效率非常低。”李博士表示。

而針對(duì)傳統(tǒng)分布式系統(tǒng)宕機(jī)過(guò)程中造成各節(jié)點(diǎn)內(nèi)數(shù)據(jù)分布不均衡的問(wèn)題,睿帆科技開(kāi)發(fā)了“應(yīng)對(duì)節(jié)點(diǎn)宕機(jī)時(shí)的負(fù)載均衡優(yōu)化”專(zhuān)利技術(shù)。

睿帆科技:千億級(jí)數(shù)據(jù)毫秒響應(yīng)的分布式列存數(shù)據(jù)庫(kù)雪球DB

理想狀態(tài)下,每個(gè)節(jié)點(diǎn)的計(jì)算量是同等的,否則工作量較大的節(jié)點(diǎn)將決定整體任務(wù)的完成時(shí)間,比負(fù)載平衡所用的時(shí)間大大延長(zhǎng)。而一旦所有工作都集中在某一個(gè)或某幾個(gè)機(jī)器上,并行優(yōu)勢(shì)也將無(wú)從體現(xiàn)。

通過(guò)先進(jìn)的Hash隨機(jī)算法,雪球DB能夠在一個(gè)節(jié)點(diǎn)宕機(jī)時(shí)自動(dòng)均衡各節(jié)點(diǎn)內(nèi)數(shù)據(jù)分布,保證各節(jié)點(diǎn)磁盤(pán)占用相對(duì)均衡,避免雪崩效應(yīng)。同時(shí),雪球DB支持多副本備份,可以在不同的節(jié)點(diǎn)上維護(hù)相同的數(shù)據(jù)。當(dāng)前節(jié)點(diǎn)如果發(fā)生故障,則自動(dòng)切換由備份副本提供服務(wù)。

這些核心特點(diǎn)使得“雪球”在根本上解決了Hadoop體系交互復(fù)雜、效率低下的問(wèn)題,滿足了海量數(shù)據(jù)在線交互、多維分析和高效查詢,確保數(shù)據(jù)分析結(jié)果更真實(shí)。

李博士表示,雪球DB是基于高并發(fā)環(huán)境下、千億級(jí)數(shù)據(jù)毫秒級(jí)查詢所研發(fā)的數(shù)據(jù)庫(kù)。產(chǎn)品剛研發(fā)出來(lái)時(shí),我們對(duì)于實(shí)際測(cè)試結(jié)果還是很興奮的。但合作伙伴試用后反饋效果一般,和其他數(shù)據(jù)庫(kù)產(chǎn)品差不多,都是在幾十毫秒左右。后來(lái)發(fā)現(xiàn),他們只是拿雪球在做少量并發(fā)的常規(guī)數(shù)據(jù)查詢。但當(dāng)對(duì)方內(nèi)部系統(tǒng)升級(jí),上線了很多新功能,數(shù)據(jù)量和并發(fā)數(shù)呈幾何性增長(zhǎng)時(shí),雪球DB和其他數(shù)據(jù)庫(kù)對(duì)比,性能優(yōu)勢(shì)就顯現(xiàn)出來(lái)了,在海量數(shù)據(jù)高并發(fā)、多條件等苛刻場(chǎng)景下的測(cè)試,結(jié)果比原有數(shù)據(jù)庫(kù)快了幾個(gè)數(shù)量級(jí)。

這家公司后來(lái)與睿帆建立了長(zhǎng)期合作,其用戶覆蓋近億,單日增量數(shù)據(jù)超過(guò)1PB,在雪球DB的PB級(jí)聯(lián)機(jī)分析能力下,根本上解決了數(shù)據(jù)不及時(shí)、查詢延遲高、分析維度受限等問(wèn)題,大幅提高了服務(wù)效率。

疫情期間,某通信運(yùn)營(yíng)商就通過(guò)雪球DB解決了海量多種類(lèi)型數(shù)據(jù)如何及時(shí)、高效地處理和分析的問(wèn)題。

睿帆科技:千億級(jí)數(shù)據(jù)毫秒響應(yīng)的分布式列存數(shù)據(jù)庫(kù)雪球DB

“為了輸出潛在2B人員名單、分析疫情趨勢(shì)、建立駐留人員熱點(diǎn)區(qū)域圖,需要對(duì)海量數(shù)據(jù)進(jìn)行調(diào)取分析。放在過(guò)去,需要大量的人工排查,耗時(shí)耗力。但通過(guò)我們毫秒級(jí)在線分析模型,幾分鐘就能調(diào)出結(jié)果。”李博士提到。

或者在公共安全領(lǐng)域,面對(duì)多警種的數(shù)據(jù)內(nèi)容,以千億級(jí)數(shù)據(jù)毫秒查詢速度,結(jié)合睿帆科技其他產(chǎn)品能夠?qū)⒁曨l、音頻、文檔、圖標(biāo)等結(jié)構(gòu)化非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行實(shí)時(shí)分析可視化決策,實(shí)現(xiàn)警情態(tài)勢(shì)的全局把控。

在原版雪球DB的基礎(chǔ)上,睿帆科技還針對(duì)小B客戶開(kāi)發(fā)了“輕量版”。后者可以只在一臺(tái)機(jī)器上運(yùn)行,不支持分布式和磁盤(pán)復(fù)制,削減了部分功能從而進(jìn)一步降本增效。

李博士告訴「獵云網(wǎng)」,由于大部分中小企業(yè)的數(shù)據(jù)調(diào)用需求受時(shí)間、季節(jié)的影響,比如銷(xiāo)售淡旺季、疫情關(guān)鍵節(jié)點(diǎn)等,因此針對(duì)這類(lèi)客戶主要采用aPaaS模式,以公司的另一款產(chǎn)品零距大數(shù)據(jù)中臺(tái)作為最下層依托,與雪球相結(jié)合推出一整套解決方案——由于零距大數(shù)據(jù)中臺(tái)“低代碼+圖形化”的界面,因此可以極大地降低客戶使用門(mén)檻。

大數(shù)據(jù)經(jīng)濟(jì)真正的價(jià)值,在于普惠中小企業(yè)

隨著信息技術(shù)和人類(lèi)生活的深度融合,以及互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的快速發(fā)展,各行各業(yè)的數(shù)據(jù)呈爆發(fā)增長(zhǎng)態(tài)勢(shì)。來(lái)自IDC的數(shù)據(jù)顯示,全球的數(shù)據(jù)量2020年將達(dá)到40ZB(1ZB=1024EB,1EB=1024PB),如果換算成128G iPad的高度,可以達(dá)到地球到月球距離的6.6倍。

龐大的數(shù)據(jù)量也催生了數(shù)據(jù)存儲(chǔ)更多、更快、更穩(wěn)定的需求。由于數(shù)據(jù)量的增長(zhǎng)速度遠(yuǎn)遠(yuǎn)超存儲(chǔ)設(shè)備本身能力的增長(zhǎng),原有的存儲(chǔ)設(shè)備,甚至整個(gè)存儲(chǔ)架構(gòu)都需要不斷擴(kuò)容和升級(jí)。

也使得大數(shù)據(jù)存儲(chǔ)技術(shù)在數(shù)據(jù)存儲(chǔ)的成本、數(shù)據(jù)讀寫(xiě)能力以及數(shù)據(jù)自動(dòng)備份安全性等方面,都面臨很大的挑戰(zhàn)。而這些痛點(diǎn)并不能僅通過(guò)硬件和存儲(chǔ)陣列本身存儲(chǔ)能力的提升來(lái)解決。

在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)無(wú)法滿足海量數(shù)據(jù)的存儲(chǔ)處理需求的情況下,以阿里巴巴為首的互聯(lián)網(wǎng)企業(yè)最早開(kāi)啟了“去IOE化”的歷程。

在此之前,阿里主要使用的是IBM、惠普的小型機(jī),存儲(chǔ)設(shè)備主要是EMC的產(chǎn)品,和部分戴爾存儲(chǔ)設(shè)備;數(shù)據(jù)庫(kù)都是Oracle的。但在電子商務(wù)業(yè)務(wù)的爆發(fā)式增長(zhǎng)下,原有的技術(shù)架構(gòu)和成本阻礙了業(yè)務(wù)發(fā)展。

所謂去IOE化,其實(shí)就是集中式部署(IOE架構(gòu))很難適應(yīng)互聯(lián)網(wǎng)大規(guī)模應(yīng)用對(duì)擴(kuò)展性的要求,因此用分布式架構(gòu)系統(tǒng)替代了集中式架構(gòu)商用系統(tǒng),進(jìn)而有了分布式數(shù)據(jù)庫(kù)的產(chǎn)生。

睿帆科技:千億級(jí)數(shù)據(jù)毫秒響應(yīng)的分布式列存數(shù)據(jù)庫(kù)雪球DB

“IOE時(shí)代,數(shù)據(jù)通常存儲(chǔ)在IOE的硬件設(shè)備中,”李博士提到,“當(dāng)數(shù)據(jù)量增加時(shí),就會(huì)通過(guò)堆砌IOE的硬件設(shè)備來(lái)實(shí)現(xiàn)存儲(chǔ)任務(wù)。由于IOE的軟硬件相互配合,成本也會(huì)水漲船高。”

但這套解決方案并非適用于所有公司。阿里的“去IOE”從2010年開(kāi)始共耗時(shí)三年,前后投入近1.7萬(wàn)名技術(shù)員工。遷移之后,系統(tǒng)的維護(hù)和運(yùn)營(yíng)成本的耗費(fèi)也十分高昂,比如為了重新架構(gòu)全新的運(yùn)維體系,僅X86服務(wù)器就花了1.5萬(wàn)臺(tái),以替代原來(lái)的幾百臺(tái)小型機(jī)的系統(tǒng)。

對(duì)于大多數(shù)具有成本壓力的中小企業(yè),睿帆科技推出了一站式解決方案,它由零距大數(shù)據(jù)中臺(tái)為底層依托,再附加雪球DB和少量語(yǔ)料即可完成文本識(shí)別的大禹中文智慧文本平臺(tái),三大產(chǎn)品組合形成了覆蓋結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的整套系統(tǒng)。這套系統(tǒng)所有的產(chǎn)品都支持PB級(jí)以上的數(shù)據(jù)處理能力,同時(shí)還能支撐起產(chǎn)品對(duì)于性能和承壓性需求。

“這種PB級(jí)+低代碼+數(shù)據(jù)中臺(tái)的組合可以讓中小型企業(yè)以相對(duì)較低的成本用上大數(shù)據(jù)產(chǎn)品。”在李博士看來(lái),這才是大數(shù)據(jù)經(jīng)濟(jì)真正的價(jià)值,即幫助更多傳統(tǒng)中小型公司通過(guò)對(duì)大數(shù)據(jù)的精細(xì)化管理,提升企業(yè)工作效率,實(shí)現(xiàn)轉(zhuǎn)型升級(jí)。

睿帆科技成立于2015年,這期間,李博士和團(tuán)隊(duì)見(jiàn)證了大數(shù)據(jù)應(yīng)用不斷向產(chǎn)業(yè)互聯(lián)網(wǎng)延伸的趨勢(shì),與此同時(shí),華為、阿里等大廠也推出了自家的私有云解決方案和大數(shù)據(jù)解決方案,和創(chuàng)新型公司共同搶食大數(shù)據(jù)服務(wù)市場(chǎng)。

“巨頭的加入驗(yàn)證了行業(yè)的潛力,同時(shí)起到了一定的‘鯰魚(yú)效應(yīng)’。”李博士認(rèn)為,未來(lái)大公司的入局需要用更辯證的眼光來(lái)看待,一方面,未來(lái)的市場(chǎng)格局,普惠性的項(xiàng)目更多是交給巨頭來(lái)做,他們有充足的資源和資本;此外,如金融、安防等垂直細(xì)分市場(chǎng)可以交給睿帆科技這樣的技術(shù)型創(chuàng)新企業(yè),“我們會(huì)深耕在我們已經(jīng)布局的、擅長(zhǎng)的,已經(jīng)形成行業(yè)競(jìng)爭(zhēng)壁壘的PB級(jí)大數(shù)據(jù)領(lǐng)域。”

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )