華為數(shù)據(jù)存儲(chǔ)兩大新品齊發(fā):全面閃存化,全面向AI

極客網(wǎng)·企業(yè)級(jí)IT 9月27日 近日,在華為全聯(lián)接大會(huì)2024期間,華為重磅發(fā)布了兩大數(shù)據(jù)存儲(chǔ)新品,一是全新AI存儲(chǔ)OceanStor A800,二是新一代OceanStor Dorado全閃存存儲(chǔ)。在千行萬(wàn)業(yè)積極融入AI、并借助AI重塑業(yè)務(wù)的關(guān)鍵階段,這兩款產(chǎn)品以Storage for AI助力企業(yè)組織通往AI數(shù)智時(shí)代。

其中,全新AI存儲(chǔ)OceanStor A800以長(zhǎng)記憶內(nèi)存新范式全面提升AI大模型訓(xùn)練和推理能力,助力千行萬(wàn)業(yè)大步邁入數(shù)智時(shí)代;新一代OceanStor Dorado全閃存存儲(chǔ)旨在以極致性能、極致韌性、AI-Ready的能力,為AI時(shí)代高速增長(zhǎng)的的企業(yè)核心業(yè)務(wù)提供先進(jìn)數(shù)據(jù)存力。

全新AI存儲(chǔ)OceanStor A800,以長(zhǎng)記憶內(nèi)存新范式提升AI大模型訓(xùn)推能力

全新AI存儲(chǔ)OceanStor A800在A(yíng)I大模型高效訓(xùn)練能力的基礎(chǔ)上,大幅增強(qiáng)推理能力,并在集群性能、新數(shù)據(jù)范式上有了跨越式提升,呈現(xiàn)出三大特征。

首先,單套AI存儲(chǔ)設(shè)備支持十萬(wàn)卡級(jí)大模型訓(xùn)練。OceanStor A800通過(guò)構(gòu)建前端網(wǎng)卡全共享、控制器與后端SSD盤(pán)全互聯(lián)的技術(shù)架構(gòu),單套存儲(chǔ)設(shè)備可支持10萬(wàn)卡級(jí)集群全互聯(lián)。一套OceanStor A800 存儲(chǔ)最多可實(shí)現(xiàn)與19.2萬(wàn)卡訓(xùn)練集群的靜態(tài)全連接,性能提升40%,空間占用降低80%。

其次,以存強(qiáng)算,AI集群可用度提升30%。AI訓(xùn)練中斷頻發(fā)是困擾行業(yè)的大難題,據(jù)統(tǒng)計(jì)AI訓(xùn)練中心持續(xù)訓(xùn)練的時(shí)間最長(zhǎng)僅為2.6天,而根據(jù)業(yè)界某知名公司公開(kāi)的萬(wàn)卡集群訓(xùn)練數(shù)據(jù)顯示,在54天的訓(xùn)練周期內(nèi)意外中斷419次,更是平均3小時(shí)中斷一次,導(dǎo)致GPU/NPU必須反復(fù)保存CKPT數(shù)據(jù)。中國(guó)移動(dòng)將華為OceanStor AI存儲(chǔ)用于大模型訓(xùn)練,實(shí)現(xiàn)150PB單存儲(chǔ)集群、8TB/s帶寬和2.3億IOPS的能力,端到端訓(xùn)練效率提升5%,為后續(xù)更大規(guī)模大模型訓(xùn)練提供了有力支撐。

再次,以存代算,長(zhǎng)記憶內(nèi)存型存儲(chǔ)提升推理體驗(yàn)并降低系統(tǒng)成本。在Long context(長(zhǎng)上下文)成為大模型推理的必然發(fā)展趨勢(shì)背景下,根據(jù)Scaling law,提供足夠高的推理算力和中間Token數(shù),可大幅提升推理的準(zhǔn)確度。通過(guò)專(zhuān)業(yè)AI存儲(chǔ),可長(zhǎng)期保存Long context及海量中間推理Token,并提供高速訪(fǎng)問(wèn)性能,最大程度提升大模型的邏輯思考和推理能力,實(shí)現(xiàn)在幫助大模型推理提升慢思考能力的同時(shí),也幫助大模型將慢思考的結(jié)果轉(zhuǎn)變后后續(xù)的快思考,讓大模型越用越聰明。

OceanStor A800作為業(yè)界首款提供長(zhǎng)記憶能力的存儲(chǔ),創(chuàng)新性采用多級(jí)KV緩存機(jī)制,將所有的思考結(jié)果持久化保存并高效使用,讓大模型推理具備長(zhǎng)記憶能力,減少在Prefill階段的重復(fù)計(jì)算,客戶(hù)推理時(shí)延降低近八成,單個(gè)xPU卡的吞吐量提升約2/3,大幅提升推理體驗(yàn)的同時(shí)降低成本。

華為公司副總裁、數(shù)據(jù)存儲(chǔ)產(chǎn)品線(xiàn)總裁周躍峰博士表示,存儲(chǔ)的創(chuàng)新是由應(yīng)用驅(qū)動(dòng)的,上層的應(yīng)用變化了,存儲(chǔ)一定要變化。今天的AI訓(xùn)練系統(tǒng)對(duì)數(shù)據(jù)吞吐量的要求非常大,動(dòng)則萬(wàn)卡、十萬(wàn)卡使得內(nèi)部的網(wǎng)絡(luò)互聯(lián)、集群的關(guān)系也非常復(fù)雜,同時(shí)當(dāng)前AI推理的記憶主要發(fā)生在內(nèi)存里,長(zhǎng)序列推理難以永久記憶且成本高昂,這些都要求存儲(chǔ)行業(yè)做出改變。因此華為發(fā)布全新的長(zhǎng)記憶內(nèi)存型存儲(chǔ)架構(gòu)產(chǎn)品,去解決行業(yè)面臨的xPU與存儲(chǔ)的帶寬不足、算力集群可用度低、推理時(shí)延長(zhǎng)等挑戰(zhàn)。

新一代OceanStor Dorado全閃存存儲(chǔ),加速企業(yè)生產(chǎn)核心業(yè)務(wù)步入AI時(shí)代

華為新一代OceanStor Dorado全閃存存儲(chǔ)帶來(lái)了極致性能、極致韌性、AI-Ready三大能力躍升。

在極致性能方面,新一代全閃存軟硬件全面升級(jí),智能DPU(數(shù)據(jù)處理單元)網(wǎng)卡提供數(shù)據(jù)流和控制流分離能力,打破處理器性能瓶頸,以專(zhuān)用硬件功能卡卸載CPU算力,開(kāi)啟增值特性功能后性能無(wú)損。軟硬件深度協(xié)同釋放性能,全新升級(jí)的FLASHLINK? 智能盤(pán)控卡協(xié)同算法,達(dá)成存儲(chǔ)系統(tǒng)億級(jí)IOPS、0.03毫秒低時(shí)延,相較上一代全閃存存儲(chǔ)產(chǎn)品提升性能3倍,為AI時(shí)代高速增長(zhǎng)的核心業(yè)務(wù)數(shù)據(jù)提供了先進(jìn)數(shù)據(jù)存力。

在極致韌性方面,新一代SmartMatrix全局互聯(lián)架構(gòu),容忍引擎、硬盤(pán)框、機(jī)柜多層故障,單設(shè)備可靠性達(dá)99.99999%,極端場(chǎng)景下支持8個(gè)引擎7個(gè)故障時(shí)業(yè)務(wù)仍恒穩(wěn)在線(xiàn)。此外,新一代OceanStor Dorado支持SAN和NAS全域防勒索,勒索病毒檢測(cè)率最高達(dá)99.99%。通過(guò)智能快照關(guān)聯(lián)分析及智能合成技術(shù),保障數(shù)據(jù)恢復(fù)100%可用。

在A(yíng)I-Ready方面,新一代OceanStor Dorado全閃存存儲(chǔ)采用原生塊、文件、對(duì)象統(tǒng)一存儲(chǔ)架構(gòu),支持?jǐn)?shù)據(jù)庫(kù)、文件、容器等多樣化應(yīng)用,廣泛承載AI時(shí)代多樣化生產(chǎn)核心數(shù)據(jù)存儲(chǔ)需求。通過(guò)AI大模型DataMaster加持的DME數(shù)據(jù)管理引擎實(shí)現(xiàn)對(duì)話(huà)式運(yùn)維,并利用大模型技術(shù)主動(dòng)發(fā)現(xiàn)異常,運(yùn)維效率提升5倍。

在華為閃存存儲(chǔ)領(lǐng)域總裁黃濤看來(lái),新一代OceanStor Dorado全閃存存儲(chǔ)實(shí)現(xiàn)了兩個(gè)重定義,一是重新定義高端存儲(chǔ),實(shí)現(xiàn)了3倍的性能提升,7個(gè)9的可靠性保障,5倍的運(yùn)維效率提升;二是重新定義了新的統(tǒng)一的融合協(xié)議,把SAN、NAS和對(duì)象存儲(chǔ)融合到一起,同時(shí)保證性能和可靠性不下降,以更好地加速AI時(shí)代多樣化數(shù)據(jù)處理的挑戰(zhàn)。

全面閃存化+全面向AI,華為數(shù)據(jù)存儲(chǔ)面向AI大模型時(shí)代交出最新答卷

公開(kāi)資料顯示,華為數(shù)據(jù)存儲(chǔ)已廣泛應(yīng)用在金融、制造、教育、醫(yī)療等多個(gè)行業(yè),服務(wù)全球26000多家客戶(hù),150多個(gè)國(guó)家和地區(qū),其中全球Top100銀行中已有53家選擇華為,其一舉一動(dòng)都備受關(guān)注。從本次發(fā)布的兩大新品的特點(diǎn)看,全面閃存化、全面向AI,已成為華為數(shù)據(jù)存儲(chǔ)面向AI大模型時(shí)代交出的最新答卷。

一方面,作為高端存儲(chǔ)行業(yè)的領(lǐng)軍企業(yè),更高性能、更低能耗的全閃一直是華為孜孜不倦的追求。恰如周躍峰博士不止一次所說(shuō),“中國(guó)的存儲(chǔ)全閃存比例太低了,太費(fèi)電”。

市場(chǎng)研究數(shù)據(jù)顯示,今天中國(guó)市場(chǎng)的閃存率不足30%,而在美國(guó)達(dá)到了60%。同時(shí),中國(guó)的閃存率不僅僅落后于美國(guó),甚至還落后于新加坡、南非這些小國(guó)。所以無(wú)論是從客戶(hù)需求還是從供應(yīng)鏈的安全角度看,中國(guó)未來(lái)的全閃存存儲(chǔ)市場(chǎng)都還有大幅度的發(fā)展空間。中國(guó)市場(chǎng)整個(gè)產(chǎn)業(yè)界也正在聯(lián)合起來(lái),驅(qū)動(dòng)整個(gè)存儲(chǔ)走向全閃化,以實(shí)現(xiàn)綠色高質(zhì)量的發(fā)展。

另一方面,作為業(yè)界最早提出邁向智能世界愿景的企業(yè),華為認(rèn)為面向AI時(shí)代的IT基礎(chǔ)設(shè)施應(yīng)該是存、算、網(wǎng)協(xié)同發(fā)展。這方面周躍峰博士也不止一次表示,“我們不能只管算,不管存和網(wǎng)”。

眾所周知,AI事實(shí)上有三大組成部分,即算力、算法和數(shù)據(jù)。但今天在社會(huì)上,算力和算法(包含模型)的熱度遠(yuǎn)高于對(duì)數(shù)據(jù)的關(guān)注度。然而,數(shù)據(jù)的準(zhǔn)備在整個(gè)AI系統(tǒng)建設(shè)里面花的時(shí)間要超過(guò)40%,這還不包括數(shù)據(jù)收集的時(shí)間。所以,企業(yè)擁抱AI大模型,數(shù)據(jù)得從當(dāng)下就著手準(zhǔn)備,包括協(xié)議的歸一、數(shù)據(jù)存放的歸一、數(shù)據(jù)的編織等,并做好數(shù)據(jù)與xPU算力之間的大帶寬高速網(wǎng)絡(luò)傳輸,全面AI-Ready,才能事半而功倍,同時(shí)確保成本效益。

AI大模型時(shí)代,數(shù)據(jù)是最重要的生產(chǎn)要素,企業(yè)整個(gè)數(shù)據(jù)基礎(chǔ)設(shè)施也必須圍繞數(shù)據(jù)做文章,才能充分支撐AI的訓(xùn)練、推理及應(yīng)用。數(shù)據(jù)存儲(chǔ)作為核心一環(huán),全面閃存化、做到AI-Ready刻不容緩!

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2024-09-27
華為數(shù)據(jù)存儲(chǔ)兩大新品齊發(fā):全面閃存化,全面向AI
以Storage for AI助力企業(yè)組織通往AI數(shù)智時(shí)代。

長(zhǎng)按掃碼 閱讀全文