新型存算分離架構(gòu)技術(shù)展望

關(guān)鍵詞:存算分離 分離式存儲(chǔ)系統(tǒng) 存儲(chǔ)模組 資源池化

數(shù)字化、信息化的不斷發(fā)展是推動(dòng)計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等IT基礎(chǔ)設(shè)施演化和進(jìn)步的重要?jiǎng)恿ΑkS著全球范圍內(nèi)企業(yè)數(shù)字化轉(zhuǎn)型的快速發(fā)展,各行各業(yè)產(chǎn)生的數(shù)據(jù)呈現(xiàn)海量增長(zhǎng)趨勢(shì)。云和互聯(lián)網(wǎng)行業(yè)構(gòu)建了我國(guó)最大的IT基礎(chǔ)設(shè)施平臺(tái),其存儲(chǔ)和處理的數(shù)據(jù)量占比最大。同時(shí),我國(guó)東數(shù)西算工程的持續(xù)推進(jìn),對(duì)數(shù)據(jù)中心走向綠色集約、基礎(chǔ)設(shè)施自主可控提出了更高要求。

實(shí)際應(yīng)用中,大數(shù)據(jù)存儲(chǔ)解決方案一般有存算融合和存算分離兩種部署形態(tài)。存算融合以基于服務(wù)器的超融合系統(tǒng)為代表,它將服務(wù)器的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等資源進(jìn)行統(tǒng)一管理和調(diào)度,具有彈性的橫向擴(kuò)展能力;但是當(dāng)實(shí)際業(yè)務(wù)對(duì)計(jì)算和存儲(chǔ)需求不同時(shí),該方案存在資源擴(kuò)展不靈活、利用率低下等問題。存算分離將存儲(chǔ)資源和計(jì)算資源拆分為獨(dú)立的模塊進(jìn)行建設(shè),在資源利用率、存儲(chǔ)資源高效共享、多場(chǎng)景靈活部署、網(wǎng)存算協(xié)同等方面具有顯著優(yōu)勢(shì)。存算分離架構(gòu)當(dāng)前已經(jīng)在許多場(chǎng)景得到應(yīng)用:金融及電信等行業(yè)核心交易系統(tǒng)、數(shù)據(jù)庫等關(guān)鍵應(yīng)用通常采用小型機(jī)結(jié)合高端存儲(chǔ)的方式;在企業(yè)辦公場(chǎng)景下,為滿足跨平臺(tái)企業(yè)應(yīng)用的數(shù)據(jù)共享訴求,通常采用通用服務(wù)器結(jié)合文件共享存儲(chǔ)(Network Attached Storage,NAS)的方式;在大數(shù)據(jù)場(chǎng)景下,為實(shí)現(xiàn)多業(yè)務(wù)數(shù)據(jù)共享,通常采用分析計(jì)算服務(wù)結(jié)合數(shù)據(jù)湖的形式。多樣化的存算分離實(shí)踐為存儲(chǔ)系統(tǒng)帶來了數(shù)據(jù)共享、靈活伸縮等優(yōu)勢(shì)。

存算分離技術(shù)發(fā)展分析

新的業(yè)務(wù)挑戰(zhàn)

從云和互聯(lián)網(wǎng)的業(yè)務(wù)場(chǎng)景來看,其存儲(chǔ)域主要采用基于服務(wù)器部署分布式存儲(chǔ)服務(wù)的融合方式,它面臨如下挑戰(zhàn):

1.數(shù)據(jù)保存周期與服務(wù)器更新周期不匹配。大數(shù)據(jù)、人工智能等新興業(yè)務(wù)催生出海量數(shù)據(jù),大量數(shù)據(jù)需按照其生命周期策略(例如8~10年)進(jìn)行保存。而在當(dāng)前存儲(chǔ)域中,基于服務(wù)器的存儲(chǔ)系統(tǒng)換代周期由處理器的升級(jí)周期(例如3~5年)[1]決定。這種數(shù)據(jù)生命周期與服務(wù)器更新周期之間巨大的差異導(dǎo)致系統(tǒng)資源被大量浪費(fèi),比如,存儲(chǔ)域中服務(wù)器組件都隨CPU升級(jí)而淘汰,為此須進(jìn)行相應(yīng)的數(shù)據(jù)遷移等[2]。

2.性能可靠與資源利用率難以兼得。支撐業(yè)務(wù)的分布式存儲(chǔ)系統(tǒng)大致可以分為性能型存儲(chǔ)和容量型存儲(chǔ),它們均無法同時(shí)實(shí)現(xiàn)高性能可靠與高資源利用率。具體地,性能型存儲(chǔ)主要運(yùn)行數(shù)據(jù)庫、虛擬化等關(guān)鍵業(yè)務(wù),通常采用三副本或兩副本并配合獨(dú)立冗余磁盤陣列(Redundant Array of Independent Disks,RAID)卡模式;這類方案雖兼顧了性能和可靠性,但其大約30%的空間利用率卻是對(duì)存儲(chǔ)資源的極大浪費(fèi)。容量型系統(tǒng)為了提升空間利用率,采用糾刪碼(Erasure Code,EC)方式,然而,EC計(jì)算過程中的讀寫、重構(gòu)等會(huì)消耗大量網(wǎng)絡(luò)資源,導(dǎo)致系統(tǒng)重構(gòu)效率低下、重構(gòu)時(shí)間長(zhǎng),給系統(tǒng)可靠性帶來風(fēng)險(xiǎn)(如圖1所示)。

圖1 分布式存儲(chǔ)資源利用率

3.新型分布式應(yīng)用的極簡(jiǎn)高效共享存儲(chǔ)訴求。以無服務(wù)器(serverless)應(yīng)用為代表的新型分布式應(yīng)用在近些年涌現(xiàn),這類應(yīng)用從無狀態(tài)化向有狀態(tài)化擴(kuò)展,比如數(shù)據(jù)庫、消息總線等組件紛紛容器化,數(shù)據(jù)共享訪問的訴求不斷增多。與此同時(shí),人工智能和機(jī)器學(xué)習(xí)等應(yīng)用需要大量異構(gòu)算力協(xié)同,甚至產(chǎn)生共享內(nèi)存訪問的訴求,它們關(guān)注高帶寬、低時(shí)延的訪問能力,僅需要輕量、便捷的共享存儲(chǔ)系統(tǒng)即可,不需要搭載具有復(fù)雜企業(yè)特性的傳統(tǒng)存儲(chǔ)。

4.數(shù)據(jù)中心稅導(dǎo)致數(shù)據(jù)密集型應(yīng)用效率低下。面向數(shù)據(jù)密集型場(chǎng)景,在基于以CPU為中心的服務(wù)器架構(gòu)下,應(yīng)用為獲取數(shù)據(jù)所繳納的“數(shù)據(jù)中心稅”(datacenter tax)日益加重。例如,服務(wù)器內(nèi)的CPU為處理網(wǎng)絡(luò)及存儲(chǔ)IO請(qǐng)求,需要消耗高達(dá)30%的算力[3];此外,由于通用CPU并不擅長(zhǎng)數(shù)據(jù)處理運(yùn)算,導(dǎo)致其能效比低下。

傳統(tǒng)存算分離架構(gòu)將算力資源和存儲(chǔ)資源(機(jī)械硬盤、固態(tài)硬盤等)分離至彼此獨(dú)立的計(jì)算域和存儲(chǔ)域,并通過以太網(wǎng)或?qū)S么鎯?chǔ)網(wǎng)絡(luò)(例如光纖通道)將二者互連,實(shí)現(xiàn)了存儲(chǔ)資源的靈活擴(kuò)展和高效共享(如圖2左側(cè)所示);該架構(gòu)主要為復(fù)雜的傳統(tǒng)企業(yè)特性設(shè)計(jì),難以應(yīng)對(duì)上述挑戰(zhàn),為了讓云和互聯(lián)網(wǎng)存儲(chǔ)域服務(wù)兼顧資源利用率、可靠性、性能、效率等眾多訴求,亟須基于新型軟硬件技術(shù)構(gòu)建新型存算分離架構(gòu)。

硬件技術(shù)趨勢(shì)

面對(duì)數(shù)據(jù)中心在容量利用率、存力效率等方面的挑戰(zhàn),近年來,專用數(shù)據(jù)處理器、新型網(wǎng)絡(luò)等技術(shù)快速發(fā)展,為數(shù)據(jù)中心基礎(chǔ)設(shè)施的重構(gòu)提供了技術(shù)基礎(chǔ)。

首先,為取代服務(wù)器本地盤,很多廠商推出以太網(wǎng)閃存簇(Ethernet Bunch of Flash,EBOF)高性能盤框(例如,近期陸續(xù)發(fā)布的西數(shù)OpenFlex、Vast Data Ceres高性能盤框等)。這類盤框不再具有復(fù)雜企業(yè)特性,而是注重采用新型的數(shù)據(jù)訪問標(biāo)準(zhǔn),比如支持NoF(NVM Express over Fabric)等接口,以提供高性能存儲(chǔ)實(shí)現(xiàn)對(duì)本地盤的替換。NoF協(xié)議由NVM Express(NVMe)標(biāo)準(zhǔn)組織在2016年發(fā)布,提供了NVMe命令到多種網(wǎng)絡(luò)傳輸協(xié)議的映射,使一臺(tái)計(jì)算機(jī)能夠訪問另一臺(tái)計(jì)算機(jī)的塊存儲(chǔ)設(shè)備。同時(shí),一些研究機(jī)構(gòu)進(jìn)一步探索遠(yuǎn)程內(nèi)存池化技術(shù),例如,韓國(guó)KAIST實(shí)驗(yàn)室實(shí)現(xiàn)了基于FPGA的CXL(Compute Express Link)互連協(xié)議[4];CXL為英特爾于2019年3月在Interconnect Day 2019上推出的一種開放性互聯(lián)協(xié)議,能夠讓CPU與GPU、FPGA或其他加速器之間實(shí)現(xiàn)高速高效互聯(lián),從而滿足高性能異構(gòu)計(jì)算的要求。

其次,業(yè)界涌現(xiàn)出越來越多的數(shù)據(jù)處理單元(Data Processing Unit,DPU)和基礎(chǔ)設(shè)施處理單元(Infrastructure Processing Unit,IPU)專用芯片,在數(shù)據(jù)流處理路徑上取代通用處理器,提升算力能效比。同時(shí),基于可編程交換機(jī)的網(wǎng)存協(xié)同也是研究熱點(diǎn),例如在網(wǎng)數(shù)據(jù)緩存的NetCache[5]、KV-Direct[6],在網(wǎng)數(shù)據(jù)協(xié)調(diào)的NetLock[7]、Concordia[8]、SwitchTx[9],在網(wǎng)數(shù)據(jù)聚合的SwitchML[10]、NetEC[11],在網(wǎng)數(shù)據(jù)調(diào)度的FLAIR[12]、AlNiCo[13]等相關(guān)論文紛紛在主流會(huì)議期刊發(fā)表。

最后,數(shù)據(jù)訪問網(wǎng)絡(luò)標(biāo)準(zhǔn)也在持續(xù)增強(qiáng),比如CXL協(xié)議新版本加強(qiáng)了內(nèi)存池化方向的技術(shù)特性,同時(shí)吸收了Gen-Z[14](由AMD、ARM、HPE等公司發(fā)起定義的面向內(nèi)存語義的技術(shù))、OpenCAPI[15](Open Coherent Accelerator Processor Interface,最早由IBM提出的異構(gòu)計(jì)算接口)等技術(shù)的成果,正逐步成為業(yè)界主流高速互聯(lián)標(biāo)準(zhǔn)。NVMe 2.0也在向著語義統(tǒng)一、Fabric統(tǒng)一和介質(zhì)統(tǒng)一方向演進(jìn)。

這些新型存儲(chǔ)、計(jì)算和網(wǎng)絡(luò)硬件為構(gòu)建面向云和互聯(lián)網(wǎng)場(chǎng)景的新型存算分離架構(gòu)帶來了諸多機(jī)遇,譬如使用DPU等專用芯片能夠打破傳統(tǒng)以CPU為中心的服務(wù)器架構(gòu),由此提升數(shù)據(jù)密集型應(yīng)用的效率。

新型存算分離架構(gòu)的特征

隨著遠(yuǎn)程直接內(nèi)存訪問(Remote Direct Memory Access,RDMA)、CXL、可編程網(wǎng)絡(luò)設(shè)備、高性能NVMe SSD、持久性內(nèi)存等新型硬件技術(shù)的發(fā)展,需要構(gòu)建新型存算分離架構(gòu),以確保云和互聯(lián)網(wǎng)存儲(chǔ)域服務(wù)能夠兼顧資源利用率、可靠性、性能、效率等眾多訴求。相較于傳統(tǒng)架構(gòu),新型存算分離架構(gòu)最為顯著的區(qū)別在于:(1)更為徹底的存算解耦,該架構(gòu)不再局限于將CPU和外存解耦,而是徹底打破各類存算硬件資源的邊界,將其組建為彼此獨(dú)立的硬件資源池(例如處理器池、內(nèi)存池、機(jī)械硬盤(HDD)/固態(tài)硬盤(SSD)池等),從真正意義上實(shí)現(xiàn)各類硬件的獨(dú)立擴(kuò)展及靈活共享;(2)更為細(xì)粒度的處理分工,即打破了傳統(tǒng)以通用CPU為中心的處理邏輯,使數(shù)據(jù)處理、聚合等原本CPU不擅長(zhǎng)的任務(wù)被專用加速器、DPU等替代,從全局角度實(shí)現(xiàn)硬件資源的最優(yōu)組合,進(jìn)而提供極致的能效比(如圖2右側(cè)所示)。

圖2 傳統(tǒng)存算分離架構(gòu)與新型存算分離架構(gòu)對(duì)比

總結(jié)來說,新型存算分離架構(gòu)具有如下特征:

1.無盤化的服務(wù)器。新型存算分離架構(gòu)將服務(wù)器本地盤拉遠(yuǎn)構(gòu)成無盤化(diskless)服務(wù)器和遠(yuǎn)端存儲(chǔ)池,同時(shí)還通過遠(yuǎn)程內(nèi)存池?cái)U(kuò)展本地內(nèi)存,實(shí)現(xiàn)了真正意義上的存算解耦,可極大提升存儲(chǔ)資源利用率。業(yè)務(wù)使用時(shí),可根據(jù)應(yīng)用需求選擇配置不同性能、容量的虛擬盤及池化內(nèi)存空間,這樣一方面可以避免由于不同服務(wù)器本地存儲(chǔ)空間利用率過低導(dǎo)致超配造成的浪費(fèi);另一方面,當(dāng)服務(wù)器出現(xiàn)故障或者更新?lián)Q代時(shí),也不影響數(shù)據(jù)的保存,不需要額外的數(shù)據(jù)遷移。

2.多樣化的網(wǎng)絡(luò)協(xié)議。連接計(jì)算和存儲(chǔ)間的網(wǎng)絡(luò)協(xié)議從當(dāng)前的IP或光纖通道(Fibre Channel,F(xiàn)C)協(xié)議擴(kuò)展到CXL+NoF+IP協(xié)議組合。CXL協(xié)議使得網(wǎng)絡(luò)時(shí)延降低到亞微秒級(jí)別,有助于內(nèi)存型介質(zhì)的池化;NoF協(xié)議加速SSD池化;IP協(xié)議可滿足HDD等慢速介質(zhì)訪問訴求。通過這幾類協(xié)議組合構(gòu)建的高通量網(wǎng)絡(luò),滿足了多種場(chǎng)景池化接入訴求。

3.專用化的數(shù)據(jù)處理器。數(shù)據(jù)存儲(chǔ)、訪問等操作不再由通用處理器負(fù)責(zé),而是卸載到專用數(shù)據(jù)處理器。此外,特定的數(shù)據(jù)操作可由專用硬件加速器進(jìn)行進(jìn)一步加速,如糾刪碼、加密壓縮、網(wǎng)絡(luò)通信等。通過專用數(shù)據(jù)處理器,可以釋放通用處理器算力,用于服務(wù)更適合的場(chǎng)景,顯著提升系統(tǒng)整體能效比。

4.極高存力密度的存儲(chǔ)系統(tǒng)。分離式存儲(chǔ)系統(tǒng)(disaggregate storage)是新型架構(gòu)的重要組件,作為持久化數(shù)據(jù)的底座,在存儲(chǔ)介質(zhì)的集約化管理基礎(chǔ)上,結(jié)合芯片、介質(zhì)的深度協(xié)同設(shè)計(jì),整合當(dāng)前系統(tǒng)、盤兩級(jí)的空間管理,通過大比例糾刪碼算法減少冗余資源開銷比例。此外,還可通過基于芯片加速的場(chǎng)景化數(shù)據(jù)縮減技術(shù)提供更多的數(shù)據(jù)可用空間。

面向云和互聯(lián)網(wǎng)場(chǎng)景的存算分離架構(gòu)及關(guān)鍵技術(shù)

面向云和互聯(lián)網(wǎng)場(chǎng)景的存算分離架構(gòu)

新型存算分離架構(gòu)意在解決前文所提的當(dāng)前架構(gòu)面臨的幾大痛點(diǎn)挑戰(zhàn),通過將原有架構(gòu)的多級(jí)分層資源進(jìn)行徹底解耦池化和重組整合,形成新的三大簡(jiǎn)化分層:存儲(chǔ)模組、總線網(wǎng)絡(luò)和算力模組,從而提供服務(wù)器本地存儲(chǔ)拉遠(yuǎn)池化、新型網(wǎng)絡(luò)靈活組裝、以數(shù)據(jù)為中心的多元處理、高容量極簡(jiǎn)盤框等幾大新興能力。

存儲(chǔ)模組

面向云和互聯(lián)網(wǎng)數(shù)據(jù)中心,需要以更專業(yè)的存儲(chǔ)能力重新定義云和互聯(lián)網(wǎng)的存儲(chǔ)架構(gòu)。新型存算分離架構(gòu)中,存儲(chǔ)型模組主要以EBOF、以太網(wǎng)內(nèi)存簇(Ethernet Bunch of Memory,EBOM)、以太網(wǎng)磁盤簇(Ethernet Bunch of Disk,EBOD)等新型盤框形態(tài)存在,RAID/EC/壓縮等傳統(tǒng)存儲(chǔ)能力下沉到新型盤框中,構(gòu)成“盤即存儲(chǔ)”的大盤技術(shù),對(duì)外通過NoF等高速共享網(wǎng)絡(luò)提供塊、文件等標(biāo)準(zhǔn)存儲(chǔ)服務(wù)。這一類新型盤框?qū)鹘y(tǒng)磁盤陣列的冗余池化技術(shù)和數(shù)據(jù)縮減技術(shù)進(jìn)行了高度集約化和小型化。

從存儲(chǔ)模組內(nèi)部架構(gòu)來看,其介質(zhì)層可由標(biāo)準(zhǔn)硬盤組成,也可由晶圓工藝直接整合的顆粒大板組成,盤與框的邊界融合有助于實(shí)現(xiàn)極致成本的創(chuàng)新。在介質(zhì)層之上,存儲(chǔ)模組需構(gòu)建類似傳統(tǒng)存儲(chǔ)陣列的池化子系統(tǒng),基于RAID、EC等可靠冗余技術(shù)實(shí)現(xiàn)本地介質(zhì)的池化,結(jié)合重刪壓縮等算法技術(shù)對(duì)數(shù)據(jù)容量進(jìn)行大比例縮減,進(jìn)一步實(shí)現(xiàn)可得容量的提升。為了支撐新型存算分離架構(gòu)的高通量數(shù)據(jù)調(diào)度,存儲(chǔ)模組需要提供更加高效的數(shù)據(jù)吞吐能力,通?;谟布蓖ǖ燃夹g(shù)構(gòu)建極簡(jiǎn)的快速數(shù)據(jù)訪問路徑。和傳統(tǒng)陣列相比,存儲(chǔ)模組在IO處理上盡量避免用戶數(shù)據(jù)和控制數(shù)據(jù)(元數(shù)據(jù)等)的低效交織,盡量減少傳統(tǒng)存儲(chǔ)陣列的某些復(fù)雜特性處理(復(fù)制、雙活等容災(zāi)特性),盡量減少子系統(tǒng)分層進(jìn)而縮短IO處理的路徑,最終實(shí)現(xiàn)高吞吐、低時(shí)延的極致性能體驗(yàn)。最后,通過硬盤亞健康管理,例如慢IO快速返回、慢盤隔離等能力,實(shí)現(xiàn)毫秒級(jí)穩(wěn)定時(shí)延。

云和互聯(lián)網(wǎng)的多樣業(yè)務(wù)主要分為三種典型的應(yīng)用場(chǎng)景(如圖3所示)。第一種場(chǎng)景是針對(duì)虛擬化業(yè)務(wù),直接將數(shù)據(jù)中心存儲(chǔ)域服務(wù)器的本地盤拉遠(yuǎn),對(duì)分布式開源存儲(chǔ)集群的物理硬盤層形成替代。第二種場(chǎng)景是為數(shù)據(jù)庫、大數(shù)據(jù)服務(wù)等需要極熱數(shù)據(jù)處理的業(yè)務(wù)提供大內(nèi)存、鍵-值(Key-Value,KV)接口,加速數(shù)據(jù)處理效率;第三種場(chǎng)景是針對(duì)容器等新業(yè)務(wù)場(chǎng)景,為Ceph、Lustre等分布式應(yīng)用直接提供文件語義,卸載本地?cái)?shù)據(jù)布局,并支持將溫?zé)釘?shù)據(jù)分級(jí)到更冷的EBOD等機(jī)械硬盤或磁帶型存儲(chǔ)模組中,提升整系統(tǒng)資源使用效率。

圖3 存儲(chǔ)模組的三類典型應(yīng)用場(chǎng)景

存儲(chǔ)模組作為一種存力集約化、緊湊化、極致化的新型存儲(chǔ)形態(tài),加速了服務(wù)器的無盤化發(fā)展趨勢(shì),將服務(wù)器的本地盤、內(nèi)存等拉遠(yuǎn)進(jìn)行池化共享,有效支撐了傳統(tǒng)數(shù)據(jù)中心架構(gòu)朝極簡(jiǎn)分層的新型存算分離架構(gòu)演進(jìn)。

算力模組

當(dāng)前,摩爾定律演進(jìn)變緩,只有采用專用處理器才能進(jìn)一步以異構(gòu)方式發(fā)揮出下一階段的算力。引入專用處理器后,算力池化是必然選擇;否則,如果為每臺(tái)服務(wù)器配置異構(gòu)算力卡,不僅使整機(jī)功耗巨大,還會(huì)導(dǎo)致資源利用率十分低下。以DPU為代表的專業(yè)數(shù)據(jù)處理器具備成本更低、功耗更低、即插即用、即換即用等獨(dú)特優(yōu)勢(shì),并且在運(yùn)行狀態(tài)下不與業(yè)務(wù)應(yīng)用發(fā)生資源爭(zhēng)搶,保證用戶業(yè)務(wù)正常運(yùn)行的同時(shí)也保障了基礎(chǔ)設(shè)施的服務(wù)質(zhì)量。

高通量數(shù)據(jù)總線

存算分離架構(gòu)中,網(wǎng)絡(luò)技術(shù)非常重要,它決定了系統(tǒng)的響應(yīng)速度以及吞吐能力,也決定了系統(tǒng)資源池化的能力范圍。過去10年,萬兆IP網(wǎng)絡(luò)促使HDD池化,基于IP網(wǎng)絡(luò)發(fā)展了支持塊、文件、對(duì)象共享的訪問協(xié)議。當(dāng)前,面向熱數(shù)據(jù)處理,NVMe/RoCE(RDMA over Converged Ethernet,RDMA融合以太網(wǎng) )促使SSD池化;并且,NVMe協(xié)議快速發(fā)展使其開始收編煙囪式協(xié)議規(guī)范。下一步,面向極熱數(shù)據(jù)處理,內(nèi)存型網(wǎng)絡(luò)(例如CXL Fabric)將促使內(nèi)存資源池化,為業(yè)務(wù)提供更大的共享內(nèi)存空間(如圖4所示)。

圖4 網(wǎng)絡(luò)技術(shù)發(fā)展時(shí)間線

關(guān)鍵技術(shù)

新型存算分離架構(gòu)改變了各類硬件資源的組合形式,其近遠(yuǎn)關(guān)系、松緊耦合的變化催生了一系列圍繞該架構(gòu)的關(guān)鍵技術(shù),例如場(chǎng)景化數(shù)據(jù)縮減、高通量超融合網(wǎng)絡(luò)、網(wǎng)存協(xié)同、盤芯協(xié)同等。

場(chǎng)景化數(shù)據(jù)縮減

在新型存算分離架構(gòu)下,數(shù)據(jù)縮減能力將下沉到存儲(chǔ)模組中,通過前后臺(tái)縮減任務(wù)配合,可有效減少對(duì)性能的影響,同時(shí)提升數(shù)據(jù)縮減率。此外,針對(duì)不同場(chǎng)景的數(shù)據(jù)特征,可使用不同的縮減技術(shù)。例如,針對(duì)基因、醫(yī)療等場(chǎng)景,可通過多幀圖片聚合壓縮、多波段數(shù)據(jù)合并壓縮等實(shí)現(xiàn)更高縮減率;在數(shù)據(jù)保護(hù)場(chǎng)景,可通過變長(zhǎng)或相似性重刪獲得更高縮減率;在視頻、媒資場(chǎng)景,可通過前景提取、碼率控制等技術(shù)實(shí)現(xiàn)更高縮減率。

高通量超融合網(wǎng)絡(luò)

根據(jù)部署場(chǎng)景及多樣化網(wǎng)絡(luò)敏捷和自適應(yīng)性的業(yè)務(wù)需求,存算模組間的網(wǎng)絡(luò)連接可以選用基于CXL Fabric、NoF、IP的組合進(jìn)行組網(wǎng),在網(wǎng)絡(luò)協(xié)議上,有以下關(guān)鍵技術(shù)需要考慮:

首先,網(wǎng)絡(luò)連接可以選用直連模式或是池化模式。直連模式下,網(wǎng)卡資源被設(shè)備獨(dú)占使用;池化模式下,網(wǎng)卡資源池化,被多個(gè)設(shè)備共享使用,可以提供更經(jīng)濟(jì)的使用效率。池化模式下,需要解決網(wǎng)絡(luò)資源細(xì)粒度動(dòng)態(tài)分配能力、安全隔離能力等,從而保證多個(gè)設(shè)備對(duì)資源的公平使用。

其次,跨機(jī)架通信通常采用RDMA機(jī)制。傳統(tǒng)RDMA連接數(shù)受限,需要解決大規(guī)?;ヂ?lián)的擴(kuò)展性問題。例如,可使用無連接等技術(shù),解耦連接狀態(tài)和網(wǎng)絡(luò)應(yīng)用,做到支持?jǐn)?shù)萬的連接規(guī)模;同時(shí)通過軟硬協(xié)同,硬件確保請(qǐng)求及時(shí)完成,提供快速的操作失敗通知,而軟件負(fù)責(zé)操作重試和故障恢復(fù),兩者配合實(shí)現(xiàn)高性能可靠連接。此外,還可考慮使用多路徑技術(shù),通過支持?jǐn)?shù)據(jù)包亂序收發(fā)能力、異步ACK機(jī)制,解決單條網(wǎng)絡(luò)帶寬有限等問題。

網(wǎng)存協(xié)同

智能網(wǎng)卡和DPU是服務(wù)器的數(shù)據(jù)出入口,可編程交換機(jī)是服務(wù)器、存儲(chǔ)之間的數(shù)據(jù)交換中樞,它們?cè)谙到y(tǒng)中占據(jù)特殊的位置。因此,結(jié)合其可編程能力,可以實(shí)現(xiàn)高效的數(shù)據(jù)協(xié)同處理。

首先,智能網(wǎng)卡和DPU可以實(shí)現(xiàn)任務(wù)卸載,包括NoF加速、壓縮及解壓加速、安全算法(AES、RSA、ECC、Diffie等)卸載、正則表達(dá)式卸載等;其次,利用其可編程能力,通過精細(xì)化的流水線并行技術(shù),可將存儲(chǔ)的文件服務(wù)、塊服務(wù)、內(nèi)存與KV服務(wù)等卸載到智能網(wǎng)卡和DPU里面,縮短IO訪問的響應(yīng)時(shí)間;最后,面向特定場(chǎng)景加速(例如,虛擬化場(chǎng)景的虛機(jī)直通、大數(shù)據(jù)場(chǎng)景算子下推、shuffle協(xié)同等),可極大地提升系統(tǒng)運(yùn)行效率??傊?,充分利用好智能網(wǎng)卡和DPU的硬件加速資源,協(xié)同好主機(jī)和DPU間的任務(wù)調(diào)度,有助于降低主機(jī)數(shù)據(jù)處理開銷,提升IO訪問效率。

可編程交換機(jī)具備自定義網(wǎng)絡(luò)協(xié)議和網(wǎng)絡(luò)包轉(zhuǎn)發(fā)的能力,并且其上配置了小塊片上內(nèi)存用于存儲(chǔ)數(shù)據(jù),這些可編程能力結(jié)合交換機(jī)的中心化和高性能的優(yōu)勢(shì),可以實(shí)現(xiàn)在網(wǎng)數(shù)據(jù)處理加速。例如,將消息轉(zhuǎn)發(fā)和并發(fā)控制卸載至交換機(jī),降低分布式協(xié)調(diào)開銷;或者,將元數(shù)據(jù)、熱點(diǎn)鍵值對(duì)緩存在交換機(jī)的內(nèi)存中,并利用交換機(jī)中的算力執(zhí)行相關(guān)插入、排序、查找、刪除等操作加速元數(shù)據(jù)響應(yīng)。此外,還可利用交換機(jī)廣播、組播能力,實(shí)現(xiàn)數(shù)據(jù)副本傳輸,降低主機(jī)開銷。

盤芯協(xié)同

通過介質(zhì)和控制芯片深度協(xié)同可獲得端到端最佳總體擁有成本(Total Cost Ownership,TCO)和效率。以數(shù)據(jù)冗余設(shè)計(jì)為例,原有的體系架構(gòu)中存在多層數(shù)據(jù)冗余:即SSD盤內(nèi)第一層的介質(zhì)層EC冗余,在硬盤之上基于RAID或副本技術(shù)形成第二層冗余,每一層冗余設(shè)計(jì)相互獨(dú)立且無法協(xié)同。新型存儲(chǔ)型模組直接集成介質(zhì)顆粒,僅在框這一級(jí)構(gòu)建一層大比例EC的池化空間,輔助專有芯片對(duì)算法進(jìn)行卸載加速,最終簡(jiǎn)化了原有的多層冗余設(shè)計(jì),有效改善端到端的資源利用率。

此外,還可基于專用芯片設(shè)計(jì)實(shí)現(xiàn)對(duì)磨損均衡、垃圾回收、多流等特定介質(zhì)高級(jí)能力的深度管理,與上層應(yīng)用協(xié)同垂直優(yōu)化,實(shí)現(xiàn)場(chǎng)景優(yōu)化。

最后,新型存儲(chǔ)模組基于專有芯片除了提供傳統(tǒng)IO接口外,還可以提供基于控制器內(nèi)存緩沖區(qū)(Controller Memory Buffer,CMB)的旁路接口加速,這有助于系統(tǒng)元數(shù)據(jù)路徑繞開厚重的IO棧,使用遠(yuǎn)程內(nèi)存訪問方式來提升系統(tǒng)訪問并行能力。

面向云和互聯(lián)網(wǎng)場(chǎng)景的存算分離的技術(shù)挑戰(zhàn)與機(jī)遇

技術(shù)挑戰(zhàn)

面向云和互聯(lián)網(wǎng)場(chǎng)景的新型存算分離架構(gòu)受網(wǎng)絡(luò)、算力等技術(shù)驅(qū)動(dòng),順應(yīng)未來數(shù)據(jù)中心可組合式架構(gòu)(composable infrastructure)趨勢(shì)。然而,構(gòu)建這類系統(tǒng)并充分發(fā)揮其潛在效率,也面臨眾多技術(shù)挑戰(zhàn),需要產(chǎn)業(yè)界、學(xué)術(shù)界專家共同探索解決。

首先,計(jì)算和存儲(chǔ)之間的數(shù)據(jù)訪問接口及標(biāo)準(zhǔn)主要采用“主-從”請(qǐng)求響應(yīng)模式,并以傳輸塊存儲(chǔ)語義為主。然而,隨著內(nèi)存盤、計(jì)算型盤、智能網(wǎng)卡異構(gòu)算力的快速發(fā)展,內(nèi)存訪問語義、計(jì)算協(xié)同存儲(chǔ)語義等方面的表現(xiàn)能力出現(xiàn)不足。此外,當(dāng)前國(guó)內(nèi)對(duì)于業(yè)界主流數(shù)據(jù)訪問接口的定義,如NVMe標(biāo)準(zhǔn)等,缺乏自主可控能力,實(shí)現(xiàn)我國(guó)自主定義存算間新型數(shù)據(jù)訪問標(biāo)準(zhǔn)意義十分重大。

其次,如何與已有生態(tài)應(yīng)用結(jié)合,發(fā)揮出基于新型存算分離架構(gòu)的基礎(chǔ)設(shè)施的潛力仍需深入探索。例如,新的數(shù)據(jù)處理器、全局共享存儲(chǔ)系統(tǒng)的引入,計(jì)算、存儲(chǔ)的獨(dú)立彈性擴(kuò)展等,都為新型應(yīng)用提供了較好的基礎(chǔ)設(shè)施能力,但如何最大限度地將這些基礎(chǔ)設(shè)施潛力發(fā)揮出來,如何設(shè)計(jì)更高效的應(yīng)用服務(wù)框架,如何與上層應(yīng)用協(xié)同等,都是一個(gè)長(zhǎng)期而艱巨的任務(wù)。

機(jī)遇展望

根據(jù)我國(guó)“十四五”規(guī)劃,為助推社會(huì)經(jīng)濟(jì)高質(zhì)量發(fā)展、加強(qiáng)數(shù)字政府建設(shè)、激活數(shù)據(jù)要素潛能以及為各行各業(yè)的數(shù)字化轉(zhuǎn)型注入新動(dòng)能,國(guó)家在多個(gè)地區(qū)構(gòu)建智算中心,并基于一體化大數(shù)據(jù)中心構(gòu)建東數(shù)西算工程。預(yù)計(jì)到2025年,我國(guó)將具備300 EFLOPS(Exa FLoating-point Operations Per Second)的算力,數(shù)據(jù)量將達(dá)到48.6 ZB[16]。這些規(guī)劃都為未來基礎(chǔ)設(shè)施的發(fā)展帶來極大的挑戰(zhàn),例如,在如此高速度的算力增長(zhǎng)下,如何避免因?yàn)榇鎯?chǔ)、網(wǎng)絡(luò)等性能限制導(dǎo)致算力長(zhǎng)期處于空閑狀態(tài)?在介質(zhì)產(chǎn)能有限的情況下,如何保存這些海量數(shù)據(jù)?此外,未來數(shù)據(jù)中心的發(fā)展將嚴(yán)重受限于其功耗預(yù)算和碳排放配額,如何提供綠色節(jié)能的基礎(chǔ)設(shè)施系統(tǒng)?這些問題既是挑戰(zhàn),也是機(jī)會(huì),相信新型存算分離以其靈活的架構(gòu)、精細(xì)化的資源利用率、綠色低碳的能耗比等優(yōu)勢(shì),在我國(guó)宏大數(shù)字化歷史進(jìn)程下,將迎來最佳的歷史發(fā)展機(jī)遇。

作者:舒繼武

舒繼武

CCF會(huì)士、信息存儲(chǔ)專委會(huì)主任。清華大學(xué)教授。廈門大學(xué)信息學(xué)院院長(zhǎng)。主要研究方向?yàn)樾畔⒋鎯?chǔ)系統(tǒng)、并行分布式系統(tǒng)、邊緣數(shù)據(jù)存儲(chǔ)系統(tǒng)等。

轉(zhuǎn)載自:中國(guó)計(jì)算機(jī)學(xué)會(huì)

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )