支撐ChatGPT的超強算力,到底需要什么樣的數(shù)據(jù)中心?

2022年11月30日,OpenAI發(fā)布ChatGPT智能聊天程序。ChatGPT能夠學習和理解人類的語言來進行對話,還能根據(jù)聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼、寫論文等等。截至2023年2月,ChatGPT已經在全球范圍內狂攬1億名用戶,成為當下最火爆的頭條熱點。歐美各大高校甚至明確提出禁止學生使用ChatGPT做作業(yè),足見其智能化程度,是前所未有的。

1、千億參數(shù)超大模型成為常態(tài),高性能網絡成為核心訴求

ChatGPT為什么能有如此強大的功能,因為它的背后是一個擁有千億參數(shù)的巨型神經網絡模型。作為對比,我們人腦也只有120-140億神經元。其實,超大模型在這幾年已經成為了趨勢,從2018年至今,每過一年,模型參數(shù)就增大一個數(shù)量級。OpenAI的下一代GPT-4將會突破萬億參數(shù),有傳聞甚至達到100萬億參數(shù)。

圖片1.png

那么如此巨大的AI模型,是如何訓練出來的呢?首先,一個大規(guī)模的GPU集群是必不可少的。以GPT-3模型1750億參數(shù)為例,每個參數(shù)在訓練時需要存儲16bit低精度用于前向傳播計算,和32bit高精度用于梯度更新計算。除此之外,當使用Adam優(yōu)化器進行參數(shù)優(yōu)化時,還需要存儲16bit的梯度,32bit的動量和32bit方差。這樣可以算出,1750億參數(shù)的模型總共對存儲空間的需求是2.8TB。NVIDIA最新的H100 GPU單卡顯存是80GB,也就是說,至少需要35塊H100 GPU才能放下一個模型。在實際訓練中,還需要進行數(shù)據(jù)并行,即用不同GPU存儲相同的模型,但訓練不同的數(shù)據(jù)集,以此提高訓練效率和收斂性。因此,要訓練GPT-3這種級別的大模型,需要幾萬個V100 GPU構建成一個集群才能做到,訓練費用高達460萬美金一次。

大規(guī)模集群有一個性能指標叫做加速比,它的定義是一個擁有N個GPU的集群,其算力和單個GPU算力N倍的比值,理想情況下這兩者是相等的。但集群訓練會引入額外的通信開銷,從而導致N個GPU算力達不到單個GPU算力的N倍。因此,高性能的網絡互聯(lián),是大規(guī)模GPU集群所必須的。

2、鏈路負載均衡與故障快速恢復成為主要訴求

分布式訓練需要多臺主機之間同步參數(shù)、梯度、以及中間變量。對于大模型而言,單次的參數(shù)同步量一般都在百MB~GB的量級,因此需求網絡高帶寬?,F(xiàn)在,25Gbps帶寬的網絡已經成為數(shù)據(jù)中心內的主流,40Gbps, 100Gbps甚至200Gbps的網絡都開始逐步使用,那是不是直接用大帶寬網絡就能提升GPU集群的性能呢?其實并不盡然,研究表明40Gbps和100Gbps的網絡根本無法充分利用其帶寬,原因是網絡協(xié)議棧的開銷影響了傳輸性能。因此,大模型對網絡的第一個要求就是能夠充分利用現(xiàn)在以太網的大帶寬。

大模型訓練一般會將數(shù)據(jù)并行、流水線并行、張量并行等多種并行模式混合使用,以充分利用集群的算力。無論是哪種并行模式,多機之間都會涉及一種叫AllReduce的集合通信。一個AllReduce任務包含多個點對點的通信,而AllReduce的完成需要所有點對點通信都成功完成,因此集合通信存在“木桶效應”,即AllReduce的完成時間,由其中最慢的點對點通信時間決定。

圖片2.png

正因為如此,大模型訓練對網絡提出了另外兩個要求:

一是鏈路負載均衡要做到完美。因為“木桶效應”,只要有一條鏈路出現(xiàn)負載不均導致網絡擁塞,成為了木桶的短板,那么即使其它鏈路都暢通無阻,集合通信時間仍然會大幅增加,從而影響訓練效率。當前的負載均衡技術基于哈希隨機,只能做到流比較多時的一個近似均衡散列,并不能保證所有鏈路都完美均衡開。因此,尋找一種完美的負載均衡技術,是提升機器學習大模型訓練效率的關鍵。

二是網絡出現(xiàn)故障能快速恢復。隨著集群規(guī)模增大,鏈路故障在所難免。類似的,一條鏈路故障就會導致整個AllReduce通信停滯,進而使模型訓練停滯。如何做到故障后快速恢復,最好是上層訓練業(yè)務不感知,是保障一個AI大規(guī)模集群性能的關鍵。

3、RDMA智能無損,大幅提升帶寬吞吐

傳統(tǒng)TCP網絡因為主機側協(xié)議棧開銷大,無法充分利用網絡帶寬。RDMA通信技術通過網卡硬件實現(xiàn)通信控制,繞過了主機側協(xié)議棧,因此既避免了協(xié)議棧內存拷貝,又節(jié)約了CPU的開銷。使RDMA通信相比TCP,具有更低時延和更高吞吐的特點,非常適合大模型GPU訓練的場景。

但是,RDMA是無損協(xié)議,需要鏈路層PFC來保障不丟包。PFC在大規(guī)模集群可能會出現(xiàn)隊頭阻塞、擁塞擴散,甚至網絡死鎖等危害,因此直接大規(guī)模部署RDMA存在很高的風險。華為智能無損RDMA,在標準RDMA over Ethernet(ROCE)的基礎上,通過PFC防死鎖技術解決了死鎖問題;通過基于AI的自適應擁塞控制技術,解決頭阻問題的同時保證了網絡的有效吞吐。

基于無損以太的數(shù)據(jù)中心網絡已經可以支持RDMA應用的規(guī)模部署,并且已經在互聯(lián)網、教育、科研、氣象、金融、油氣等領域得到了廣泛的應用。這些技術在大規(guī)模GPU集群中,也擁有極高的價值。

圖片3.png

圖片4.png

4、NSLB全網負載均衡,實現(xiàn)90%超高吞吐

現(xiàn)有的網絡負載均衡技術絕大多數(shù)只是解決了本地等價路徑之間的均衡,但對于整個網絡而言,局部均衡并不意味著全局均衡。更何況,對于ECMP這種依賴哈希隨機性的負載均衡技術,在網絡流量比較少時,對于本地路徑的完美均衡都難以做到。就像拋10000次硬幣,正反面各出現(xiàn)一半很正常;但拋4次硬幣,就有63%幾率不是2正面2反面。AI訓練是一種吞吐敏感型業(yè)務,其典型流量特征是流數(shù)少、單流帶寬大、強同步,在這種場景下,ECMP技術因為可能出現(xiàn)的哈希不均勻,難以保證網絡負載均衡。

針對這個問題,華為提出了網絡級負載均衡(Network Scale Load Balance, NSLB)的概念。華為基于算網協(xié)同實現(xiàn)多任務全局均衡路由,基于全局擁塞狀態(tài)的自適應路由算法,實現(xiàn)AI訓練流量滿吞吐和網絡帶寬的完全利用。類似于擁有多條跑道的超大型機場的智慧調度系統(tǒng),多條跑道同時起飛降落時,也不會互相沖撞,同時也滿足最大游客吞吐量?;贜SLB,AI訓練效率都可以大幅提升,如下圖的測試結果,單任務、多任務線性度均達到90%以上。

圖片5.png

5、DPFR數(shù)據(jù)面故障快速自愈,使業(yè)務對故障0感知

傳統(tǒng)網絡的故障收斂依賴設備控制面或者集中的控制器的動態(tài)路由收斂,網絡故障收斂時間數(shù)百ms到數(shù)s,網絡故障盡管是可以恢復的,但是故障期間大量丟包,會導致RDMA連接中斷,直接影響AI訓練業(yè)務的穩(wěn)定性和性能。下圖的紅線測試結果,我們看到由于鏈路故障,導致長達數(shù)秒的業(yè)務性能跌零。

針對這個問題,華為提出了一種基于數(shù)據(jù)面的故障無感自愈的方案,我們稱為數(shù)據(jù)面故障快速自愈(Data Plan Fast Recovery, DPFR),故障的感知、通告和自愈完全在數(shù)據(jù)面實現(xiàn),不需要控制面參與,基于這種技術網絡故障收斂,網絡故障基本可以做到業(yè)務無感。下圖的綠線就是開啟DPFR之后的業(yè)務表現(xiàn),在發(fā)生故障后數(shù)據(jù)面自動恢復,使得上層應用無感知。這項技術可以有效消除網絡故障對大規(guī)模AI訓練的影響。

這就好比在一個部門里面,上級一開始就和下級以及周邊部門協(xié)商好了任務處理模式,當有任務觸發(fā)時,下級部門直接就和周邊部門協(xié)同處理來提高工作效率,不用像傳統(tǒng)模式一層層協(xié)商匯報后再等上級部門下達命名再處理任務。華為做的就是開發(fā)出了這個“下級部門”的處理能力,不再單純只做執(zhí)行者。

圖片6.png

6、應勢而起,領勢而上

在機器學習大模型火熱的今天,如何有效訓練這些大模型成為各大企業(yè)關注的焦點。華為超融合數(shù)據(jù)中心網絡中的智能無損RDMA技術,網絡級負載均衡的NSLB技術和數(shù)據(jù)面故障快速自愈的DPFR技術,給大規(guī)模GPU集群帶來了高質量的網絡底座,助力超大模型的高效訓練。

MWC 2023世界移動通信大會將于2月27日在西班牙巴塞羅那會展中心拉開帷幕,邀您相約在1號館Intelligent Data Center展島。華為將全新升級Easy CloudFabric數(shù)據(jù)中心網絡解決方案,助力各行業(yè)邁入多元算力新時代。

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )