萬(wàn)卡時(shí)代不打群架,中國(guó)智算正過(guò)三關(guān)

我前兩天看到了一個(gè)挺震撼的視頻,科學(xué)家們?cè)贜ASA戈達(dá)德空間飛行中心的天體物理學(xué)家指導(dǎo)下,使用Discover超級(jí)計(jì)算機(jī)模擬了跳入黑洞的過(guò)程。

畫(huà)面視覺(jué)效果攝人心魄,而一組數(shù)據(jù)同樣讓我感到震撼:該視頻生成10TB的數(shù)據(jù),只用了5天,耗費(fèi)了0.3%總算力。如果我們想用自己的筆記本電腦模擬這個(gè)場(chǎng)景,需要花費(fèi)的時(shí)間是10年。

“時(shí)間就是金錢(qián),效率就是生命”,這句改開(kāi)時(shí)代的口號(hào),在大模型驅(qū)動(dòng)的智算時(shí)代,仍舊不過(guò)時(shí)。

算力作為生產(chǎn)力,所節(jié)約的不只是金錢(qián),更重要的是時(shí)間。

目前算力集群已經(jīng)從千卡,邁入了萬(wàn)卡、五萬(wàn)卡集群。甚至有媒體預(yù)測(cè),GPT6未來(lái)部署的時(shí)候,需要70萬(wàn)-80萬(wàn)張卡才能支撐。

那問(wèn)題來(lái)了,萬(wàn)卡集群在執(zhí)行大規(guī)模訓(xùn)練任務(wù)時(shí)負(fù)載重,發(fā)生軟硬件錯(cuò)誤的概率,當(dāng)然也就更高。萬(wàn)卡時(shí)代,一張卡、一臺(tái)機(jī)器或一個(gè)鏈路的故障,都可能導(dǎo)致中斷,拖慢進(jìn)程。那么十萬(wàn)卡、百萬(wàn)卡等更大數(shù)量級(jí)的提升,未來(lái)如何應(yīng)對(duì)?

最近幾個(gè)月,我們團(tuán)隊(duì)跟不少I(mǎi)CT廠商做了交流,簡(jiǎn)單總結(jié)一下行業(yè)動(dòng)向,那就是:邁入萬(wàn)卡時(shí)代,必須“過(guò)三關(guān)”。

萬(wàn)卡時(shí)代,做AI=“中彩票”?

有必要首先說(shuō)明一下,為什么智能計(jì)算仍在“堆卡”?從千卡、萬(wàn)卡到十萬(wàn)卡、百萬(wàn)卡,這個(gè)趨勢(shì)是可持續(xù)的嗎?

伴隨著模型規(guī)模與數(shù)據(jù)參數(shù)愈發(fā)龐大,在可以預(yù)見(jiàn)的未來(lái),基礎(chǔ)設(shè)施層面的“堆卡”競(jìng)賽仍將繼續(xù)。

目前,國(guó)際科技巨頭如谷歌、微軟、蘋(píng)果等,在算力集群建設(shè)上持續(xù)投入,其中AI算力占總算力支出的比例持續(xù)增長(zhǎng),預(yù)計(jì)到2025年將達(dá)到25%。放眼國(guó)內(nèi),萬(wàn)卡及以上的組網(wǎng)也成為下一代智算中心的建設(shè)重點(diǎn)。

然而,算力集群卡的數(shù)量非線性增加,會(huì)帶來(lái)更大的不穩(wěn)定性和協(xié)作難度。正如新華三在前不久的媒體與分析師大會(huì)上所說(shuō),單卡單打獨(dú)斗我們(與N卡)有差距,多卡集群服務(wù)不能打群架。

(拍攝自新華三集團(tuán)2024媒體與分析師溝通會(huì))

我們知道,分布式并行訓(xùn)練能夠加速訓(xùn)練過(guò)程,是大模型常用的訓(xùn)練方式,相當(dāng)于將任務(wù)分配給多個(gè)AI硬件,組成協(xié)作節(jié)點(diǎn)和集群,主打一個(gè)“人多力量大”。但是,人多還得心齊啊,讓多卡用高效一致的步伐進(jìn)行協(xié)作,卻是一件難事,容易出現(xiàn)“打群架”的情況。

多卡“打架”,集群就會(huì)因故障而中斷。

一位清華大學(xué)計(jì)算機(jī)教授曾分享過(guò)一個(gè)數(shù)據(jù),其團(tuán)隊(duì)寫(xiě)一次容錯(cuò)檢查點(diǎn)checkpoint需要三小時(shí),這還是世界先進(jìn)水平(未經(jīng)優(yōu)化前)。

工作三小時(shí)就得被迫停下,活(訓(xùn)練過(guò)程)又一點(diǎn)不能少,只能加班加點(diǎn)。普通打工人聽(tīng)了都得“抓狂”,更別說(shuō)要跟技術(shù)創(chuàng)新?lián)屗俣?、作業(yè)生產(chǎn)要效率的產(chǎn)學(xué)界了。

多卡集群“不打群架”,將算力最大化地有效使用起來(lái),發(fā)揮每一張GPU的價(jià)值,提升訓(xùn)練效率,對(duì)開(kāi)發(fā)人員來(lái)說(shuō),堪比中“彩票”,價(jià)值很大,但概率卻不定。

顯然,千行百業(yè)智能化,當(dāng)然不能靠“中彩”和運(yùn)氣。

當(dāng)算力集群即將從萬(wàn)卡,邁入五萬(wàn)、十萬(wàn)乃至百萬(wàn)卡的清晰未來(lái),我們不能只以單一的規(guī)模和FLOPS浮點(diǎn)運(yùn)算次數(shù),來(lái)衡量智算中心的綜合水平。其他因素也同樣重要,比如集群擴(kuò)展性、兼容性、算效比、能耗比等。

如何提供一個(gè)穩(wěn)定可靠高性能的智算基礎(chǔ)設(shè)施,萬(wàn)卡時(shí)代要“過(guò)三關(guān)”。

第一關(guān):闖過(guò)資源墻

超大規(guī)模集群的不穩(wěn)定性,一方面要對(duì)抗硬件數(shù)量非線性增長(zhǎng)帶來(lái)的“增熵”。

隨著集群增大,AI芯片也會(huì)出現(xiàn)算力衰減的情況。支撐穩(wěn)定高效的訓(xùn)練,就需要優(yōu)化分布式計(jì)算系統(tǒng)的并行加速比。

更高的加速比,可以讓集群在執(zhí)行同一任務(wù)時(shí),獲得更高的速度和效率。也就是說(shuō),算力集群能夠最大限度地一直運(yùn)轉(zhuǎn),那么有效訓(xùn)練時(shí)間的比例更高,是開(kāi)發(fā)人員衡量集群性能的一個(gè)關(guān)鍵。

比如國(guó)產(chǎn)大模型文心4.0,就通過(guò)百度智能云的萬(wàn)卡集群進(jìn)行訓(xùn)練,支持模型的穩(wěn)定高效迭代進(jìn)化。目前,百度智能云上萬(wàn)卡訓(xùn)練集群的加速比和有效訓(xùn)練時(shí)間,達(dá)到 95% 以上。

(拍攝自IPF2024浪潮信息生態(tài)伙伴大會(huì))

另一方面,中國(guó)智算還有一個(gè)特殊的要求,那就是闖過(guò)多元異構(gòu)算力的“資源墻(resource wall)”。

不少智算中心,使用不一樣的AI芯片服務(wù)器組成異構(gòu)集群合池訓(xùn)練,共同完成一個(gè)大模型訓(xùn)練。尤其是此前GPU緊缺的情況下,一些數(shù)據(jù)中心、智算中心在不同時(shí)期,購(gòu)買(mǎi)了不同的GPU,形成了不同類(lèi)型、不同版本的異構(gòu)集群。

多元異構(gòu)的國(guó)產(chǎn)算力,既能以用促建,促進(jìn)國(guó)產(chǎn)AI芯片的發(fā)展,減少對(duì)海外單一供應(yīng)鏈的依賴(lài),也能發(fā)揮不同類(lèi)型芯片的特性,提高計(jì)算資源的利用率和訓(xùn)練效率。

但要將多元異構(gòu)算力進(jìn)行合池訓(xùn)練,會(huì)帶來(lái)精度誤差、同步問(wèn)題,以及更復(fù)雜的資源管理和調(diào)度策略,更高的開(kāi)發(fā)運(yùn)維難度等。

未來(lái),每個(gè)行業(yè)、每家公司都可能訓(xùn)練自己的大模型,帶來(lái)充沛、高效、穩(wěn)定的AI算力需求。讓十萬(wàn)百萬(wàn)級(jí)集群、多元異構(gòu)的算卡,以高效一致的步伐進(jìn)行協(xié)作,將成為中國(guó)智算行業(yè)的關(guān)鍵挑戰(zhàn)。

第二關(guān):踏寬通信路

如果網(wǎng)絡(luò)通信的聯(lián)接能力不暢,大量算力資源折損在傳輸過(guò)程中,給智算中心與AI模型開(kāi)發(fā)者帶來(lái)的損失都是難以估量的。

如何將大量算卡有效地連接起來(lái),形成一個(gè)高效穩(wěn)定的計(jì)算網(wǎng)絡(luò),是支撐超大規(guī)模集群的關(guān)鍵。

需要說(shuō)明的是,網(wǎng)絡(luò)作為算力運(yùn)輸?shù)牡缆罚⒉荒軣o(wú)止境地拓寬。集群網(wǎng)絡(luò),尤其是萬(wàn)卡、十萬(wàn)卡集群網(wǎng)絡(luò)的拓展,會(huì)受到幾方面的制約。

首先是成本上,萬(wàn)卡乃至五萬(wàn)卡集群,所需要的網(wǎng)絡(luò)設(shè)備數(shù)、端口數(shù)、光模塊數(shù)量,可能會(huì)達(dá)到百萬(wàn)級(jí)別。而一個(gè)普通的400G光模塊功耗就在10瓦到12瓦,當(dāng)一個(gè)網(wǎng)絡(luò)需要一萬(wàn)多個(gè)光模塊,僅僅是電費(fèi)成本都非常龐大。

此外,有業(yè)內(nèi)人士向我們表示,萬(wàn)卡集群還容易搭建起來(lái),未來(lái)如果要有百萬(wàn)卡集群來(lái)訓(xùn)練的大模型,可能整個(gè)城市的電都不夠用。解決這個(gè)問(wèn)題,那就需要分區(qū)、跨城域的算網(wǎng),比如將多個(gè)萬(wàn)卡集群連起來(lái),組成五萬(wàn)卡、十萬(wàn)卡集群。這就需要超高帶寬的400G甚至800G網(wǎng)絡(luò),低時(shí)延、無(wú)損地支撐算力資源調(diào)度。

而一張運(yùn)力強(qiáng)大、輻射范圍廣的算力網(wǎng)絡(luò),意味著管理運(yùn)維的難度,也前所未有地增大了,依靠傳統(tǒng)人力運(yùn)維是不現(xiàn)實(shí)、不高效的。通過(guò)智能化、平臺(tái)化、自動(dòng)化,來(lái)實(shí)現(xiàn)更有效的網(wǎng)絡(luò)納管,是華為、新華三等ICT廠商正在探索的方向。

第三關(guān):走出軟件生態(tài)叢林

鄭緯民院士曾提到一個(gè)觀點(diǎn):目前國(guó)內(nèi)已經(jīng)有30多家公司推出了國(guó)產(chǎn)AI芯片,“但用戶不太喜歡用,核心問(wèn)題就是生態(tài)不好”。

這里的生態(tài),指的是國(guó)產(chǎn)軟件生態(tài)。

目前,編程框架、并行加速、通信庫(kù)、算子庫(kù)、AI編譯器、編程語(yǔ)言、調(diào)度器、內(nèi)存分配系統(tǒng)、容錯(cuò)系統(tǒng)、存儲(chǔ)系統(tǒng)等關(guān)鍵軟件,雖然都有國(guó)產(chǎn)的,但仍有不足之處,比如功能不夠齊全、性能不夠好、生態(tài)貢獻(xiàn)者不夠繁榮等。

在鄭院士看來(lái),如果能把軟件問(wèn)題解決好,那么國(guó)產(chǎn)AI芯片硬件性能達(dá)到國(guó)外芯片的60%,大多數(shù)用戶也可以是滿意的,國(guó)產(chǎn)AI卡也會(huì)大受歡迎。軟件做不好,國(guó)產(chǎn)硬件再好,也沒(méi)有市場(chǎng)。

而萬(wàn)卡時(shí)代,意味著AI硬件的種類(lèi)更多,既有不同架構(gòu),還有不同品類(lèi)、不同版本。企業(yè)或開(kāi)發(fā)者想要著手AI模型和應(yīng)用開(kāi)發(fā),會(huì)在復(fù)雜的軟件生態(tài)中暈頭轉(zhuǎn)向,很難快速找到路徑。

比如說(shuō),每個(gè)芯片廠商都有自己的底層軟件棧,且彼此不兼容,這就給AI開(kāi)發(fā)者帶來(lái)了大量移植工作,適配遷移的操作繁瑣,時(shí)間、人力、金錢(qián)成本都很高。

我們注意到,2024年以來(lái),幫助企業(yè)和AI開(kāi)發(fā)者加快走出軟件叢林,不少智算廠商都在強(qiáng)化AI軟件賦能。比如寧暢在3月提出了“全局智算”戰(zhàn)略,以“AI軟動(dòng)力”支持“精、準(zhǔn)、穩(wěn)”的AI集群設(shè)計(jì),幫助客戶實(shí)現(xiàn)大規(guī)模AI集群方案架構(gòu)設(shè)計(jì);中科曙光首次提出了“立體計(jì)算”體系,在“建、用、生態(tài)”三維發(fā)力的全新計(jì)算體系中,加大對(duì)軟件生態(tài)的投入和支持;4月浪潮信息發(fā)布的企業(yè)大模型開(kāi)發(fā)平臺(tái)“元腦企智(EPAI)”,通過(guò)端到端的解決方案,為企業(yè)提供AI應(yīng)用開(kāi)發(fā)全流程的系列工具。

可以看到,“軟硬兼施”的均衡能力,正在成為智算市場(chǎng)的兵家必爭(zhēng)之地。

(拍攝自寧暢全局智算發(fā)布會(huì))

大模型正在重塑產(chǎn)品、企業(yè)和社會(huì),AI將無(wú)處不在,也讓萬(wàn)卡時(shí)代成為一個(gè)確定性的未來(lái)。五萬(wàn)卡、十萬(wàn)卡乃至百萬(wàn)卡的算力集群,將是第四次工業(yè)革命的蒸汽機(jī)、發(fā)動(dòng)機(jī)。

量子力學(xué)的創(chuàng)始人海森堡說(shuō)過(guò),提出正確的問(wèn)題,往往等于解決了問(wèn)題的大半。

從這個(gè)角度來(lái)說(shuō),正在闖關(guān)的中國(guó)智算行業(yè),一定能在萬(wàn)卡時(shí)代,將算力的“心臟”握在自己手中。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2024-05-08
萬(wàn)卡時(shí)代不打群架,中國(guó)智算正過(guò)三關(guān)
萬(wàn)卡時(shí)代不打群架,中國(guó)智算正過(guò)三關(guān)

長(zhǎng)按掃碼 閱讀全文