支撐ChatGPT的超強(qiáng)算力,到底需要什么樣的數(shù)據(jù)中心?

2022年11月30日,OpenAI發(fā)布ChatGPT智能聊天程序。ChatGPT能夠?qū)W習(xí)和理解人類的語言來進(jìn)行對(duì)話,還能根據(jù)聊天的上下文進(jìn)行互動(dòng),真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼、寫論文等等。截至2023年2月,ChatGPT已經(jīng)在全球范圍內(nèi)狂攬1億名用戶,成為當(dāng)下最火爆的頭條熱點(diǎn)。歐美各大高校甚至明確提出禁止學(xué)生使用ChatGPT做作業(yè),足見其智能化程度,是前所未有的。

1、千億參數(shù)超大模型成為常態(tài),高性能網(wǎng)絡(luò)成為核心訴求

ChatGPT為什么能有如此強(qiáng)大的功能,因?yàn)樗谋澈笫且粋€(gè)擁有千億參數(shù)的巨型神經(jīng)網(wǎng)絡(luò)模型。作為對(duì)比,我們?nèi)四X也只有120-140億神經(jīng)元。其實(shí),超大模型在這幾年已經(jīng)成為了趨勢(shì),從2018年至今,每過一年,模型參數(shù)就增大一個(gè)數(shù)量級(jí)。OpenAI的下一代GPT-4將會(huì)突破萬億參數(shù),有傳聞甚至達(dá)到100萬億參數(shù)。

圖片1.png

那么如此巨大的AI模型,是如何訓(xùn)練出來的呢?首先,一個(gè)大規(guī)模的GPU集群是必不可少的。以GPT-3模型1750億參數(shù)為例,每個(gè)參數(shù)在訓(xùn)練時(shí)需要存儲(chǔ)16bit低精度用于前向傳播計(jì)算,和32bit高精度用于梯度更新計(jì)算。除此之外,當(dāng)使用Adam優(yōu)化器進(jìn)行參數(shù)優(yōu)化時(shí),還需要存儲(chǔ)16bit的梯度,32bit的動(dòng)量和32bit方差。這樣可以算出,1750億參數(shù)的模型總共對(duì)存儲(chǔ)空間的需求是2.8TB。NVIDIA最新的H100 GPU單卡顯存是80GB,也就是說,至少需要35塊H100 GPU才能放下一個(gè)模型。在實(shí)際訓(xùn)練中,還需要進(jìn)行數(shù)據(jù)并行,即用不同GPU存儲(chǔ)相同的模型,但訓(xùn)練不同的數(shù)據(jù)集,以此提高訓(xùn)練效率和收斂性。因此,要訓(xùn)練GPT-3這種級(jí)別的大模型,需要幾萬個(gè)V100 GPU構(gòu)建成一個(gè)集群才能做到,訓(xùn)練費(fèi)用高達(dá)460萬美金一次。

大規(guī)模集群有一個(gè)性能指標(biāo)叫做加速比,它的定義是一個(gè)擁有N個(gè)GPU的集群,其算力和單個(gè)GPU算力N倍的比值,理想情況下這兩者是相等的。但集群訓(xùn)練會(huì)引入額外的通信開銷,從而導(dǎo)致N個(gè)GPU算力達(dá)不到單個(gè)GPU算力的N倍。因此,高性能的網(wǎng)絡(luò)互聯(lián),是大規(guī)模GPU集群所必須的。

2、鏈路負(fù)載均衡與故障快速恢復(fù)成為主要訴求

分布式訓(xùn)練需要多臺(tái)主機(jī)之間同步參數(shù)、梯度、以及中間變量。對(duì)于大模型而言,單次的參數(shù)同步量一般都在百M(fèi)B~GB的量級(jí),因此需求網(wǎng)絡(luò)高帶寬?,F(xiàn)在,25Gbps帶寬的網(wǎng)絡(luò)已經(jīng)成為數(shù)據(jù)中心內(nèi)的主流,40Gbps, 100Gbps甚至200Gbps的網(wǎng)絡(luò)都開始逐步使用,那是不是直接用大帶寬網(wǎng)絡(luò)就能提升GPU集群的性能呢?其實(shí)并不盡然,研究表明40Gbps和100Gbps的網(wǎng)絡(luò)根本無法充分利用其帶寬,原因是網(wǎng)絡(luò)協(xié)議棧的開銷影響了傳輸性能。因此,大模型對(duì)網(wǎng)絡(luò)的第一個(gè)要求就是能夠充分利用現(xiàn)在以太網(wǎng)的大帶寬。

大模型訓(xùn)練一般會(huì)將數(shù)據(jù)并行、流水線并行、張量并行等多種并行模式混合使用,以充分利用集群的算力。無論是哪種并行模式,多機(jī)之間都會(huì)涉及一種叫AllReduce的集合通信。一個(gè)AllReduce任務(wù)包含多個(gè)點(diǎn)對(duì)點(diǎn)的通信,而AllReduce的完成需要所有點(diǎn)對(duì)點(diǎn)通信都成功完成,因此集合通信存在“木桶效應(yīng)”,即AllReduce的完成時(shí)間,由其中最慢的點(diǎn)對(duì)點(diǎn)通信時(shí)間決定。

圖片2.png

正因?yàn)槿绱?,大模型?xùn)練對(duì)網(wǎng)絡(luò)提出了另外兩個(gè)要求:

一是鏈路負(fù)載均衡要做到完美。因?yàn)?ldquo;木桶效應(yīng)”,只要有一條鏈路出現(xiàn)負(fù)載不均導(dǎo)致網(wǎng)絡(luò)擁塞,成為了木桶的短板,那么即使其它鏈路都暢通無阻,集合通信時(shí)間仍然會(huì)大幅增加,從而影響訓(xùn)練效率。當(dāng)前的負(fù)載均衡技術(shù)基于哈希隨機(jī),只能做到流比較多時(shí)的一個(gè)近似均衡散列,并不能保證所有鏈路都完美均衡開。因此,尋找一種完美的負(fù)載均衡技術(shù),是提升機(jī)器學(xué)習(xí)大模型訓(xùn)練效率的關(guān)鍵。

二是網(wǎng)絡(luò)出現(xiàn)故障能快速恢復(fù)。隨著集群規(guī)模增大,鏈路故障在所難免。類似的,一條鏈路故障就會(huì)導(dǎo)致整個(gè)AllReduce通信停滯,進(jìn)而使模型訓(xùn)練停滯。如何做到故障后快速恢復(fù),最好是上層訓(xùn)練業(yè)務(wù)不感知,是保障一個(gè)AI大規(guī)模集群性能的關(guān)鍵。

3、RDMA智能無損,大幅提升帶寬吞吐

傳統(tǒng)TCP網(wǎng)絡(luò)因?yàn)橹鳈C(jī)側(cè)協(xié)議棧開銷大,無法充分利用網(wǎng)絡(luò)帶寬。RDMA通信技術(shù)通過網(wǎng)卡硬件實(shí)現(xiàn)通信控制,繞過了主機(jī)側(cè)協(xié)議棧,因此既避免了協(xié)議棧內(nèi)存拷貝,又節(jié)約了CPU的開銷。使RDMA通信相比TCP,具有更低時(shí)延和更高吞吐的特點(diǎn),非常適合大模型GPU訓(xùn)練的場(chǎng)景。

但是,RDMA是無損協(xié)議,需要鏈路層PFC來保障不丟包。PFC在大規(guī)模集群可能會(huì)出現(xiàn)隊(duì)頭阻塞、擁塞擴(kuò)散,甚至網(wǎng)絡(luò)死鎖等危害,因此直接大規(guī)模部署RDMA存在很高的風(fēng)險(xiǎn)。華為智能無損RDMA,在標(biāo)準(zhǔn)RDMA over Ethernet(ROCE)的基礎(chǔ)上,通過PFC防死鎖技術(shù)解決了死鎖問題;通過基于AI的自適應(yīng)擁塞控制技術(shù),解決頭阻問題的同時(shí)保證了網(wǎng)絡(luò)的有效吞吐。

基于無損以太的數(shù)據(jù)中心網(wǎng)絡(luò)已經(jīng)可以支持RDMA應(yīng)用的規(guī)模部署,并且已經(jīng)在互聯(lián)網(wǎng)、教育、科研、氣象、金融、油氣等領(lǐng)域得到了廣泛的應(yīng)用。這些技術(shù)在大規(guī)模GPU集群中,也擁有極高的價(jià)值。

圖片3.png

圖片4.png

4、NSLB全網(wǎng)負(fù)載均衡,實(shí)現(xiàn)90%超高吞吐

現(xiàn)有的網(wǎng)絡(luò)負(fù)載均衡技術(shù)絕大多數(shù)只是解決了本地等價(jià)路徑之間的均衡,但對(duì)于整個(gè)網(wǎng)絡(luò)而言,局部均衡并不意味著全局均衡。更何況,對(duì)于ECMP這種依賴哈希隨機(jī)性的負(fù)載均衡技術(shù),在網(wǎng)絡(luò)流量比較少時(shí),對(duì)于本地路徑的完美均衡都難以做到。就像拋10000次硬幣,正反面各出現(xiàn)一半很正常;但拋4次硬幣,就有63%幾率不是2正面2反面。AI訓(xùn)練是一種吞吐敏感型業(yè)務(wù),其典型流量特征是流數(shù)少、單流帶寬大、強(qiáng)同步,在這種場(chǎng)景下,ECMP技術(shù)因?yàn)榭赡艹霈F(xiàn)的哈希不均勻,難以保證網(wǎng)絡(luò)負(fù)載均衡。

針對(duì)這個(gè)問題,華為提出了網(wǎng)絡(luò)級(jí)負(fù)載均衡(Network Scale Load Balance, NSLB)的概念。華為基于算網(wǎng)協(xié)同實(shí)現(xiàn)多任務(wù)全局均衡路由,基于全局擁塞狀態(tài)的自適應(yīng)路由算法,實(shí)現(xiàn)AI訓(xùn)練流量滿吞吐和網(wǎng)絡(luò)帶寬的完全利用。類似于擁有多條跑道的超大型機(jī)場(chǎng)的智慧調(diào)度系統(tǒng),多條跑道同時(shí)起飛降落時(shí),也不會(huì)互相沖撞,同時(shí)也滿足最大游客吞吐量。基于NSLB,AI訓(xùn)練效率都可以大幅提升,如下圖的測(cè)試結(jié)果,單任務(wù)、多任務(wù)線性度均達(dá)到90%以上。

圖片5.png

5、DPFR數(shù)據(jù)面故障快速自愈,使業(yè)務(wù)對(duì)故障0感知

傳統(tǒng)網(wǎng)絡(luò)的故障收斂依賴設(shè)備控制面或者集中的控制器的動(dòng)態(tài)路由收斂,網(wǎng)絡(luò)故障收斂時(shí)間數(shù)百ms到數(shù)s,網(wǎng)絡(luò)故障盡管是可以恢復(fù)的,但是故障期間大量丟包,會(huì)導(dǎo)致RDMA連接中斷,直接影響AI訓(xùn)練業(yè)務(wù)的穩(wěn)定性和性能。下圖的紅線測(cè)試結(jié)果,我們看到由于鏈路故障,導(dǎo)致長達(dá)數(shù)秒的業(yè)務(wù)性能跌零。

針對(duì)這個(gè)問題,華為提出了一種基于數(shù)據(jù)面的故障無感自愈的方案,我們稱為數(shù)據(jù)面故障快速自愈(Data Plan Fast Recovery, DPFR),故障的感知、通告和自愈完全在數(shù)據(jù)面實(shí)現(xiàn),不需要控制面參與,基于這種技術(shù)網(wǎng)絡(luò)故障收斂,網(wǎng)絡(luò)故障基本可以做到業(yè)務(wù)無感。下圖的綠線就是開啟DPFR之后的業(yè)務(wù)表現(xiàn),在發(fā)生故障后數(shù)據(jù)面自動(dòng)恢復(fù),使得上層應(yīng)用無感知。這項(xiàng)技術(shù)可以有效消除網(wǎng)絡(luò)故障對(duì)大規(guī)模AI訓(xùn)練的影響。

這就好比在一個(gè)部門里面,上級(jí)一開始就和下級(jí)以及周邊部門協(xié)商好了任務(wù)處理模式,當(dāng)有任務(wù)觸發(fā)時(shí),下級(jí)部門直接就和周邊部門協(xié)同處理來提高工作效率,不用像傳統(tǒng)模式一層層協(xié)商匯報(bào)后再等上級(jí)部門下達(dá)命名再處理任務(wù)。華為做的就是開發(fā)出了這個(gè)“下級(jí)部門”的處理能力,不再單純只做執(zhí)行者。

圖片6.png

6、應(yīng)勢(shì)而起,領(lǐng)勢(shì)而上

在機(jī)器學(xué)習(xí)大模型火熱的今天,如何有效訓(xùn)練這些大模型成為各大企業(yè)關(guān)注的焦點(diǎn)。華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)中的智能無損RDMA技術(shù),網(wǎng)絡(luò)級(jí)負(fù)載均衡的NSLB技術(shù)和數(shù)據(jù)面故障快速自愈的DPFR技術(shù),給大規(guī)模GPU集群帶來了高質(zhì)量的網(wǎng)絡(luò)底座,助力超大模型的高效訓(xùn)練。

MWC 2023世界移動(dòng)通信大會(huì)將于2月27日在西班牙巴塞羅那會(huì)展中心拉開帷幕,邀您相約在1號(hào)館Intelligent Data Center展島。華為將全新升級(jí)Easy CloudFabric數(shù)據(jù)中心網(wǎng)絡(luò)解決方案,助力各行業(yè)邁入多元算力新時(shí)代。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )