高精尖領(lǐng)域數(shù)據(jù)暴增,分布式存儲(chǔ)漸當(dāng)大任

近年來(lái),數(shù)據(jù)存儲(chǔ)市場(chǎng)“最靚的仔”無(wú)疑就是分布式存儲(chǔ)。

大模型火了之后,圍繞Chat的應(yīng)用也越來(lái)越多,通過(guò)AI生成圖片、報(bào)表、音視頻的應(yīng)用比比皆是。眾所周知,要想訓(xùn)練出一個(gè)有學(xué)習(xí)能力的、可理解的、響應(yīng)迅速的大模型應(yīng)用,必經(jīng)之路是給算法模型“投喂”大量的文本、圖像、音視頻數(shù)據(jù)。

面對(duì)大量新興應(yīng)用場(chǎng)景中爆增的數(shù)據(jù),既想“存的下”,還要“讀得快”,如果不差錢的話,顯然購(gòu)買更多的存儲(chǔ)設(shè)備、疊加容量是最省心的選擇。但這種方法治標(biāo)不治本,性能線性提升始終受到機(jī)頭限制,往往最后讓企業(yè)“不堪重負(fù)”的,是高昂的設(shè)備成本和運(yùn)維成本。

正因如此,分布式存儲(chǔ)憑借在性能、性價(jià)比等方面的持續(xù)突破,終于有機(jī)會(huì)“大展身手”。并迅速在AI、芯片設(shè)計(jì)、PACS影像、多媒體編輯等高精尖領(lǐng)域漸當(dāng)大任,擺脫了"只能做第二存儲(chǔ)"的困境。

在深信服近期發(fā)布的EDS 501高性能版本中,我們既看到了“最靚的仔”——分布式存儲(chǔ)絕非花架子,憑借自研的技術(shù)破除性能瓶頸,也看到了一個(gè)內(nèi)外兼修的“硬漢”在高精尖領(lǐng)域中“大展拳腳”,表現(xiàn)出卓越的性能和穩(wěn)定性。

分布式存儲(chǔ)堪當(dāng)大任

為什么分布式存儲(chǔ)能在越來(lái)越多高精尖領(lǐng)域中脫穎而出、堪當(dāng)大任?

其一、隨著云計(jì)算技術(shù)與理念走向普及,以及數(shù)字化轉(zhuǎn)型的深入,基礎(chǔ)設(shè)施層面加快分布式相關(guān)技術(shù)的部署已經(jīng)成為大勢(shì)所趨。

例如,《金融科技發(fā)展規(guī)劃(2022—2025年)》就明確要求金融機(jī)構(gòu)建設(shè)分布式架構(gòu)的先進(jìn)基礎(chǔ)設(shè)施,加速核心業(yè)務(wù)應(yīng)用向分布式基礎(chǔ)設(shè)施的遷移與部署。

此外,像運(yùn)營(yíng)商、制造業(yè)、政務(wù)等行業(yè)都在進(jìn)行核心業(yè)務(wù)系統(tǒng)的分布式架構(gòu)改造與遷移,這無(wú)疑讓分布式存儲(chǔ)今后有機(jī)會(huì)支撐起更多核心業(yè)務(wù)系統(tǒng)。

其二、需要主存儲(chǔ)支撐的關(guān)鍵業(yè)務(wù)場(chǎng)景,近年來(lái)也在發(fā)生顯著變化。

《分布式存儲(chǔ)發(fā)展白皮書(shū)》認(rèn)為,分布式存儲(chǔ)當(dāng)前適用的九大典型應(yīng)用場(chǎng)景包括HPC、大數(shù)據(jù)分析、AI、醫(yī)療影像等,這些場(chǎng)景里存在著大量以音視頻、圖片、文檔等非結(jié)構(gòu)化數(shù)據(jù)為主的海量小文件,要想充分挖掘數(shù)據(jù)中蘊(yùn)含的巨大價(jià)值,亟需一個(gè)高性能存儲(chǔ)系統(tǒng)來(lái)支撐。

其三、分布式存儲(chǔ)的崛起最為關(guān)鍵的原因,還是技術(shù)上的持續(xù)突破。

過(guò)去,開(kāi)源Ceph軟件對(duì)于分布式存儲(chǔ)的普及和推廣功不可沒(méi);但落后的技術(shù)棧、羸弱的性能表現(xiàn),使得Ceph很難在諸多核心業(yè)務(wù)場(chǎng)景中取得突破。

如今,像深信服等廠商自研分布式存儲(chǔ)系統(tǒng),技術(shù)棧更加先進(jìn),加上軟硬件結(jié)合與適配,在性能、可靠性等方面出類拔萃,勝任高精尖領(lǐng)域的各種存儲(chǔ)需求。

高性能分布式存儲(chǔ):離不開(kāi)技術(shù)創(chuàng)新

做分布式存儲(chǔ)容易,但做好高性能的分布式存儲(chǔ)很難。

這就是為什么分布式存儲(chǔ)市場(chǎng)雖然近年來(lái)一直保持著高速增長(zhǎng),但市場(chǎng)上的產(chǎn)品、解決方案魚(yú)龍混雜,不少產(chǎn)品性能、可靠性等方面難以令人滿意。

可以說(shuō),隨著閃存介質(zhì)成本的不斷下降,以及像NVMe、PCI-E等協(xié)議的快速發(fā)展,分布式存儲(chǔ)將加速迎來(lái)系統(tǒng)架構(gòu)、軟件堆棧和關(guān)鍵技術(shù)的一次全面變革:海量多樣性數(shù)據(jù)應(yīng)用,推動(dòng)分布式存儲(chǔ)面向混合工作負(fù)載、多協(xié)議互通、解耦式的架構(gòu)演進(jìn)、HPC/HPDA、AI等應(yīng)用對(duì)于分布式存儲(chǔ)超高性能提出更高要求……

以深信服分布式存儲(chǔ)EDS 501高性能版本為例,其正是分布式存儲(chǔ)走向全面變革大趨勢(shì)的一款代表性產(chǎn)品。它在整體架構(gòu)、技術(shù)堆棧以及核心技術(shù)的突破,成為了高精尖領(lǐng)域中的一把性能利器,讓企業(yè)在數(shù)字化轉(zhuǎn)型中全速前進(jìn)。

首先是在架構(gòu)層面,不同于開(kāi)源Ceph的系統(tǒng)架構(gòu),深信服EDS 501高性能版本采用了清晰分層、解耦協(xié)同的架構(gòu),Persistence層具備穩(wěn)定可靠、空間高效、擴(kuò)展性強(qiáng)等特點(diǎn);Index層則實(shí)現(xiàn)靈活高效的邏輯映射,打造極致低時(shí)延;Service層則具備彈性可伸縮、海量的元數(shù)據(jù)能力;Access層則具備開(kāi)放兼容、輕量級(jí)的協(xié)議架構(gòu)。

架構(gòu)的領(lǐng)先性,使得深信服EDS 501高性能版本承載用戶的核心數(shù)據(jù)生產(chǎn)業(yè)務(wù),在激活海量小文件等非結(jié)構(gòu)化數(shù)據(jù)產(chǎn)能的同時(shí),做到“性能”和“容量”兼得。

其次,深信服EDS 501高性能版本自主研發(fā)的鳳凰分布式高性能文件系統(tǒng),在軟件堆棧層面更具先進(jìn)性。支持混合IO負(fù)載、兼具大小文件能力,對(duì)元數(shù)據(jù)高并發(fā)、小文件密集型、大文件高吞吐和混合負(fù)載四種場(chǎng)景有著極好的支撐;同時(shí),鳳凰分布式高性能文件系統(tǒng)實(shí)現(xiàn)軟件解鎖單機(jī)瓶頸,兼具卓越性能與彈性擴(kuò)展。

第三,深信服EDS 501高性能版本在分布式存儲(chǔ)的核心技術(shù)上取得突破,巨量元數(shù)據(jù)能力、全局IO動(dòng)態(tài)整合、自適應(yīng)三級(jí)緩存和協(xié)議增強(qiáng)支持等四大自研創(chuàng)新技術(shù),讓分布式存儲(chǔ)的性能表現(xiàn)徹底脫胎換骨。

例如,巨量元數(shù)據(jù)能力在百億規(guī)模文件場(chǎng)景下也能做到存儲(chǔ)性能穩(wěn)定一致,內(nèi)存緩存元數(shù)據(jù)的規(guī)模提升7倍,在最大化利用系統(tǒng)資源的同時(shí),充分發(fā)揮各節(jié)點(diǎn)的計(jì)算性能;全局IO動(dòng)態(tài)整合技術(shù)則釋放機(jī)械盤順序?qū)懙男阅軆?yōu)勢(shì),業(yè)務(wù)寫(xiě)IO可在NVMe SSD組成的大性能層進(jìn)行智能排序整理后寫(xiě)入容量層,解決小文件寫(xiě)放大導(dǎo)致的空間浪費(fèi)問(wèn)題,提升混合配置下的數(shù)據(jù)回刷速度;自適應(yīng)三級(jí)緩存技術(shù)則通過(guò)客戶端內(nèi)存—存儲(chǔ)節(jié)點(diǎn)內(nèi)存—NVMe SSD縮短數(shù)據(jù)路徑,將數(shù)據(jù)時(shí)延降至us級(jí);協(xié)議增強(qiáng)支持則采用更精密的協(xié)議設(shè)計(jì),進(jìn)一步降低協(xié)議對(duì)性能的額外開(kāi)銷,縮短時(shí)延和提升性能。

《分布式存儲(chǔ)發(fā)展白皮書(shū)》認(rèn)為,分布式存儲(chǔ)市場(chǎng)正在高速發(fā)展,未來(lái)具備軟硬件一體化能力的廠商和產(chǎn)品會(huì)在市場(chǎng)更具優(yōu)勢(shì)。深信服EDS利用性能SSD 與容量 HDD 的獨(dú)立擴(kuò)展,適應(yīng)復(fù)雜的場(chǎng)景配置,最大限度地發(fā)揮裸金屬服務(wù)器性能的同時(shí),通過(guò)軟件中立來(lái)解鎖廠商綁定,不僅減少硬件成本(如避免 SSD 的不合理溢價(jià)),還能降低運(yùn)維保護(hù)費(fèi)用,從整體上降低了總擁有成本。

因此,軟硬一體化得以實(shí)現(xiàn)端到端的優(yōu)化,讓分布式存儲(chǔ)的性能、擴(kuò)展性和可靠性發(fā)揮到極致。

無(wú)疑,深信服EDS 501高性能版本已經(jīng)為市場(chǎng)樹(shù)立了一個(gè)絕佳的標(biāo)桿。

深入場(chǎng)景,高性能要經(jīng)受真考驗(yàn)

不可否認(rèn),閃存介質(zhì)成本的持續(xù)下降,讓分布式存儲(chǔ)的性能提升變得不再是一件高門檻的事情,但要做到真正的高性能表現(xiàn),分布式存儲(chǔ)還需要在真實(shí)場(chǎng)景中經(jīng)受考驗(yàn)。

事實(shí)上,近年來(lái)市場(chǎng)中已經(jīng)有很多分布式存儲(chǔ)產(chǎn)品,在一些性能測(cè)試的表現(xiàn)是一頓操作猛如虎,但到真實(shí)場(chǎng)景中卻是“仔細(xì)一看原地杵”。

究其原因,一方面是測(cè)試機(jī)構(gòu)的測(cè)試方法與實(shí)際業(yè)務(wù)場(chǎng)景相差甚遠(yuǎn),尤其是考慮到當(dāng)下新應(yīng)用、新場(chǎng)景涌現(xiàn)的情況下,一些測(cè)試方法并不能真實(shí)反應(yīng)出分布式存儲(chǔ)的性能;另一方面,閃存對(duì)于性能的提升,使得一些分布式存儲(chǔ)產(chǎn)品滿足于“虛榮”的高性能,距離真實(shí)場(chǎng)景的高性能存儲(chǔ)需求尚有差距。

顯然,作為分布式存儲(chǔ)領(lǐng)域耕耘多年的廠商,深信服深知分布式存儲(chǔ)必須與真實(shí)場(chǎng)景的性能需求緊密結(jié)合。

例如在醫(yī)學(xué)影像領(lǐng)域,PACS系統(tǒng)等應(yīng)用對(duì)接的各種影像設(shè)備都在朝著超高速、高精度方向發(fā)展。最典型的就是CT成像技術(shù),320排探測(cè)器、動(dòng)態(tài)640層帶來(lái)了比以往大得多的數(shù)據(jù)量。此外,PACS系統(tǒng)對(duì)接多臺(tái)醫(yī)療設(shè)備經(jīng)常是多臺(tái)設(shè)備同時(shí)連續(xù)寫(xiě)入,而醫(yī)生在閱片時(shí)又是序列讀取,這就使得PACS系統(tǒng)逐漸呈現(xiàn)出連續(xù)寫(xiě)、序列讀的性能特征。

對(duì)此,深信服EDS 501高性能版本在千兆PACS環(huán)境閱片測(cè)試場(chǎng)景下,能實(shí)現(xiàn)秒級(jí)加載450幅影像。在上海市肺科醫(yī)院的PACS影像閱片真實(shí)場(chǎng)景,閱片端12秒即可完全加載患者700~800張CT影像,小文件性能表現(xiàn)極為出色。

又如,AI、芯片制造、工業(yè)設(shè)計(jì)等領(lǐng)域融合了HPC、大數(shù)據(jù)和AI技術(shù)的應(yīng)用層出不窮,對(duì)于分布式存儲(chǔ)的性能要求更為苛刻。在這種“數(shù)據(jù)密集型”應(yīng)用承載中,深信服EDS 501高性能版本穩(wěn)定承載深南電路超過(guò)20億的AI檢測(cè)文件,實(shí)現(xiàn)了EDA前后仿真效率提升40%,性能表現(xiàn)持續(xù)刷新預(yù)期。

此外,在自然資源&實(shí)景三維、多媒體編輯&娛樂(lè)等場(chǎng)景中,深信服EDS 501高性能版本也是經(jīng)受住了各種性能挑戰(zhàn)。

截至目前,深信服EDS在AI、醫(yī)療醫(yī)院&生物科技、多媒體編輯&娛樂(lè)、自然資源&實(shí)景三維、芯片&工業(yè)設(shè)計(jì)等領(lǐng)域累計(jì)服務(wù)了2萬(wàn)個(gè)用戶、 完成了35000 小時(shí)的穩(wěn)定交付,承載的PB級(jí)項(xiàng)目超過(guò)200個(gè)。

綜合觀察,在市場(chǎng)和需求告訴增長(zhǎng)的大趨勢(shì)下,分布式存儲(chǔ)迎來(lái)了其黃金時(shí)代。與此同時(shí),分布式存儲(chǔ)的一場(chǎng)技術(shù)、產(chǎn)品變革也在發(fā)生,架構(gòu)、技術(shù)堆棧以及軟硬協(xié)同將重塑分布式存儲(chǔ)的產(chǎn)品。深信服EDS 501高性能版本在性能等方面的出色表現(xiàn),無(wú)疑為整個(gè)市場(chǎng)樹(shù)立了標(biāo)桿。面向未來(lái),隨著千行百業(yè)數(shù)字化轉(zhuǎn)型的深入,分布式存儲(chǔ)數(shù)字底座基石的作用將會(huì)愈發(fā)突出,也必然會(huì)在更多業(yè)務(wù)場(chǎng)景中發(fā)揮關(guān)鍵作用。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2023-07-18
高精尖領(lǐng)域數(shù)據(jù)暴增,分布式存儲(chǔ)漸當(dāng)大任
高精尖領(lǐng)域數(shù)據(jù)暴增,分布式存儲(chǔ)漸當(dāng)大任

長(zhǎng)按掃碼 閱讀全文