大數(shù)據(jù)不得不說(shuō)的事兒(一):存算分離憑什么能一統(tǒng)天下

隨著大數(shù)據(jù)系統(tǒng)建設(shè)的深入,企業(yè)的數(shù)據(jù)基礎(chǔ)設(shè)施面臨兩個(gè)問(wèn)題:

一個(gè)是成本問(wèn)題,隨著累積的數(shù)據(jù)量的增大,大數(shù)據(jù)業(yè)務(wù)量的增多,數(shù)據(jù)存儲(chǔ)和處理的成本越來(lái)越高,企業(yè)數(shù)據(jù)基礎(chǔ)設(shè)施的投資越來(lái)越大,這部分投資擠占了企業(yè)大數(shù)據(jù)業(yè)務(wù)創(chuàng)新的空間。另一個(gè)是效率問(wèn)題,大數(shù)據(jù)處理組件多,不同組件使用不同的數(shù)據(jù)處理格式,比如大家熟悉的數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)使用的就是不同的格式,多樣化的數(shù)據(jù)格式導(dǎo)致數(shù)據(jù)存儲(chǔ)變得復(fù)雜,系統(tǒng)中應(yīng)對(duì)不同的場(chǎng)景,往往同樣的數(shù)據(jù)需要存儲(chǔ)多份,不同組件之間還需要大量的數(shù)據(jù)拷貝和格式轉(zhuǎn)換,消耗大量的資源。

那么,為什么存算分離架構(gòu)會(huì)受到越來(lái)越多企業(yè)IT部門的青睞呢?

這里不得不說(shuō)一下Hadoop架構(gòu),2004-2006年間,Google陸續(xù)發(fā)表了Google File System、MapReduce和BigTable三篇革命性技術(shù)的文章,奠定了分布式系統(tǒng)理論基礎(chǔ)。隨后以這三項(xiàng)技術(shù)為核心的開(kāi)源框架如雨后春筍般涌現(xiàn)出來(lái),Apache基金會(huì)開(kāi)發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop便是其中之一。由于Hadoop能夠在開(kāi)發(fā)者不了解分布式底層細(xì)節(jié)的情況下,利用集群的計(jì)算和存儲(chǔ)能力,對(duì)大量數(shù)據(jù)進(jìn)行可靠、高效、可伸縮的分布式高速運(yùn)算,成為了大數(shù)據(jù)分析時(shí)代驅(qū)動(dòng)數(shù)據(jù)價(jià)值挖掘和變現(xiàn)炙手可熱的技術(shù)之一。

而在Hadoop三代版本的演進(jìn)中證明了存算分離已成為大數(shù)據(jù)建設(shè)的必然趨勢(shì)。

存算分離1.0:以靈活擴(kuò)展,優(yōu)化成本為核心

作為大數(shù)據(jù)平臺(tái)普遍的技術(shù)棧基礎(chǔ),Hadoop 1.0使用通用服務(wù)器和普通硬盤搭建了大規(guī)模數(shù)據(jù)存儲(chǔ)和計(jì)算集群。在設(shè)計(jì)之初,由于單機(jī)吞吐量和集群網(wǎng)絡(luò)帶寬限制,Hadoop集群部署都存儲(chǔ)和計(jì)算在一起,將計(jì)算的代碼移動(dòng)到數(shù)據(jù)所在的地方,而不是將數(shù)據(jù)傳輸?shù)接?jì)算節(jié)點(diǎn),這種方式可以產(chǎn)生更少的數(shù)據(jù)遷移,降低機(jī)器間、機(jī)柜間的網(wǎng)絡(luò)帶寬消耗,有效解決了分散在各個(gè)弱連接的存儲(chǔ)節(jié)點(diǎn)間的海量數(shù)據(jù)訪問(wèn)的困難。

經(jīng)過(guò)十幾年的發(fā)展,隨著海量負(fù)載和大數(shù)據(jù)用例的出現(xiàn),單一Hadoop集群的規(guī)模變大,多個(gè)Hadoop集群需同時(shí)支撐不同的業(yè)務(wù)。因此在存儲(chǔ)和計(jì)算耦合架構(gòu)下,大數(shù)據(jù)集群將面臨兩個(gè)重要問(wèn)題:

成本:由于存算一體,計(jì)算資源和存儲(chǔ)資源是按某一比例強(qiáng)綁定,系統(tǒng)擴(kuò)容必須按節(jié)點(diǎn)數(shù)目增加,導(dǎo)致內(nèi)存或磁盤的浪費(fèi)。另外由于使用3副本的數(shù)據(jù)存儲(chǔ)模式,在大集群(100+ 節(jié)點(diǎn)、PB級(jí)別)下將造成高昂的存儲(chǔ)成本。資源利用率低:由于多個(gè)Hadoop 集群承接不同的工作負(fù)載,隨著支撐業(yè)務(wù)需求的波動(dòng),系統(tǒng)負(fù)載出現(xiàn)峰谷,然而存算一體的架構(gòu)導(dǎo)致各集群的資源完全獨(dú)立隔離不能共享(跨行業(yè)的存算一體架構(gòu)下的Hadoop集群平均資源利用率在25%以下)。

考慮到上述問(wèn)題,不少企業(yè)開(kāi)始思考這種一體化架構(gòu)以及數(shù)據(jù)本地化的必要性。2012年前后,F(xiàn)acebook、AWS等廠商基于GFS論文中的EC算法,提出了存儲(chǔ)和計(jì)算分離的架構(gòu)原型。

2014年,EMC Isilon使用One File System (OneFS)作為底層文件系統(tǒng)提供EC能力,并局部兼容HDFS以RPC協(xié)議來(lái)連接Hadoop計(jì)算集群,從而為Hadoop集群實(shí)現(xiàn)了存算分離的能力。隨后VMWare推出虛擬化Hadoop計(jì)算節(jié)點(diǎn)支持,連同Isilon OneFS分布式存儲(chǔ)實(shí)現(xiàn)了商業(yè)可用的存算分離Hadoop平臺(tái),給產(chǎn)品帶來(lái)了非常大的靈活性,存儲(chǔ)和計(jì)算可以按需創(chuàng)建和自動(dòng)彈性伸縮,無(wú)須準(zhǔn)確估算未來(lái)的業(yè)務(wù)規(guī)模,降低了系統(tǒng)部署和擴(kuò)展成本,同時(shí)將CPU和磁盤充分調(diào)度起來(lái),解決了資源利用不均衡的問(wèn)題,而存算分離也因此逐漸成為Hadoop 2.0 技術(shù)演進(jìn)的趨勢(shì)。

下一代存算分離:以數(shù)據(jù)為中心,走向?qū)崟r(shí)分析

Hadoop 2.0 平臺(tái)的優(yōu)點(diǎn)在于使用EC替代了3副本減低了存儲(chǔ)的成本,并在存算解耦后能獨(dú)立擴(kuò)計(jì)算集群和存儲(chǔ)集群提高資源利用率。但用戶依然面對(duì)管理多套異構(gòu)集群,數(shù)據(jù)跨集群遷移耗用大量計(jì)算和帶寬資源,和管理HDFS協(xié)議和S3協(xié)議異構(gòu)存儲(chǔ)的困境。

以政府行業(yè)為例,當(dāng)前政務(wù)管理大數(shù)據(jù)逐漸向城市運(yùn)行大數(shù)據(jù)演進(jìn),涉及多部門、IoT等數(shù)據(jù)。上百個(gè)水平(城市)+垂直(委辦局)應(yīng)用涌現(xiàn),辦理一項(xiàng)業(yè)務(wù)經(jīng)常涉及多種應(yīng)用,同時(shí)在城市運(yùn)行大數(shù)據(jù)演進(jìn)過(guò)程中,還會(huì)有新應(yīng)用不斷接入進(jìn)來(lái)這些應(yīng)用的高峰時(shí)間段差異很大,每種應(yīng)用的擴(kuò)容周期也差異較大,因此需要多種應(yīng)用間可共享數(shù)據(jù),提升數(shù)據(jù)使用效率;系統(tǒng)靈活擴(kuò)展,安心運(yùn)維。

因此隨著新興業(yè)務(wù)的發(fā)展,解決數(shù)據(jù)存得下的問(wèn)題已經(jīng)無(wú)法滿足企業(yè)大數(shù)據(jù)建設(shè)的訴求,下一代大數(shù)據(jù)存儲(chǔ)應(yīng)該更多以數(shù)據(jù)為中心,聚焦數(shù)據(jù)用得好的問(wèn)題,以數(shù)據(jù)驅(qū)動(dòng)融合分析、統(tǒng)一存儲(chǔ),進(jìn)一步驅(qū)動(dòng)數(shù)據(jù)價(jià)值實(shí)時(shí)變現(xiàn)。

開(kāi)源社區(qū)提出了湖倉(cāng)融合的新興數(shù)據(jù)格式,支持?jǐn)?shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)使用同一種格式,同一份數(shù)據(jù)支持多種組件訪問(wèn),減少數(shù)據(jù)重復(fù)存儲(chǔ)和搬遷,縮短了數(shù)據(jù)加工鏈路、減少中間過(guò)程的同時(shí),大大提高了數(shù)據(jù)分析的效率。

華為海量存儲(chǔ)在商用的存算分離1.0方案滿足降成本的客戶需求后,當(dāng)前率先在存儲(chǔ)上支持湖倉(cāng)融合的新興數(shù)據(jù)格式,在下一代存算分離架構(gòu)下,基于一份數(shù)據(jù)支持接數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)同時(shí)訪問(wèn)。提供以業(yè)務(wù)為中心的高彈性大數(shù)據(jù)計(jì)算,以數(shù)據(jù)為中心的高性能海量存儲(chǔ),用戶無(wú)感知的原生HDFS和S3兼容能力,進(jìn)一步向湖倉(cāng)一體、一湖多云、實(shí)時(shí)分析演進(jìn)。

隨著5G和IoT到來(lái),數(shù)據(jù)激增,同時(shí)大數(shù)據(jù)業(yè)務(wù)重要性不斷提高,逐步轉(zhuǎn)變?yōu)樯a(chǎn)核心系統(tǒng),例如金融的大數(shù)據(jù)清算、經(jīng)營(yíng)分析,運(yùn)營(yíng)商的行程碼、詳單查詢和應(yīng)急救災(zāi)業(yè)務(wù)等,大數(shù)據(jù)系統(tǒng)已經(jīng)成為對(duì)企業(yè)生產(chǎn)運(yùn)營(yíng)有重大影響的關(guān)鍵一環(huán),而且數(shù)據(jù)價(jià)值密度不斷提升,海量大數(shù)據(jù)存儲(chǔ)既要求低成本,又要求高可靠高性能,還要擁有容災(zāi)備份、多租戶隔離防擾臨、大數(shù)據(jù)復(fù)雜生態(tài)對(duì)接、計(jì)算熱插拔、跨域協(xié)同分析、安全性等能力,因此隨著企業(yè)級(jí)大數(shù)據(jù)建設(shè)的深入,基于存算分離架構(gòu),計(jì)算承接豐富的應(yīng)用接入需求,存儲(chǔ)提供成熟穩(wěn)定的底座支撐業(yè)務(wù)發(fā)展和生態(tài)對(duì)接是一道必經(jīng)之路。

附:后續(xù)還將推出《論大數(shù)據(jù)存算分離》第二篇,敬請(qǐng)關(guān)注!

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2022-04-16
大數(shù)據(jù)不得不說(shuō)的事兒(一):存算分離憑什么能一統(tǒng)天下
隨后VMWare推出虛擬化Hadoop計(jì)算節(jié)點(diǎn)支持,連同IsilonOneFS分布式存儲(chǔ)實(shí)現(xiàn)了商業(yè)可用的存算分離Hadoop平臺(tái),給產(chǎn)品帶來(lái)了非常大的靈活性,存儲(chǔ)和計(jì)算可以按需創(chuàng)建和自動(dòng)彈性伸縮,無(wú)

長(zhǎng)按掃碼 閱讀全文