亚洲无码av导航一区二区,亚洲精品无码视频

2022年11月30日，OpenAI發(fā)布ChatGPT智能聊天程序。ChatGPT能夠?qū)W習(xí)和理解人類的語言來進(jìn)行對(duì)話，還能根據(jù)聊天的上下文進(jìn)行互動(dòng)，真正像人類一樣來聊天交流，甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼、寫論文等等。截至2023年2月，ChatGPT已經(jīng)在全球范圍內(nèi)狂攬1億名用戶，成為當(dāng)下最火爆的頭條熱點(diǎn)。歐美各大高校甚至明確提出禁止學(xué)生使用ChatGPT做作業(yè)，足見其智能化程度，是前所未有的。

1、千億參數(shù)超大模型成為常態(tài)，高性能網(wǎng)絡(luò)成為核心訴求

ChatGPT為什么能有如此強(qiáng)大的功能，因?yàn)樗谋澈笫且粋€(gè)擁有千億參數(shù)的巨型神經(jīng)網(wǎng)絡(luò)模型。作為對(duì)比，我們?nèi)四X也只有120-140億神經(jīng)元。其實(shí)，超大模型在這幾年已經(jīng)成為了趨勢(shì)，從2018年至今，每過一年，模型參數(shù)就增大一個(gè)數(shù)量級(jí)。OpenAI的下一代GPT-4將會(huì)突破萬億參數(shù)，有傳聞甚至達(dá)到100萬億參數(shù)。

圖片1.png

那么如此巨大的AI模型，是如何訓(xùn)練出來的呢?首先，一個(gè)大規(guī)模的GPU集群是必不可少的。以GPT-3模型1750億參數(shù)為例，每個(gè)參數(shù)在訓(xùn)練時(shí)需要存儲(chǔ)16bit低精度用于前向傳播計(jì)算，和32bit高精度用于梯度更新計(jì)算。除此之外，當(dāng)使用Adam優(yōu)化器進(jìn)行參數(shù)優(yōu)化時(shí)，還需要存儲(chǔ)16bit的梯度，32bit的動(dòng)量和32bit方差。這樣可以算出，1750億參數(shù)的模型總共對(duì)存儲(chǔ)空間的需求是2.8TB。NVIDIA最新的H100 GPU單卡顯存是80GB，也就是說，至少需要35塊H100 GPU才能放下一個(gè)模型。在實(shí)際訓(xùn)練中，還需要進(jìn)行數(shù)據(jù)并行，即用不同GPU存儲(chǔ)相同的模型，但訓(xùn)練不同的數(shù)據(jù)集，以此提高訓(xùn)練效率和收斂性。因此，要訓(xùn)練GPT-3這種級(jí)別的大模型，需要幾萬個(gè)V100 GPU構(gòu)建成一個(gè)集群才能做到，訓(xùn)練費(fèi)用高達(dá)460萬美金一次。

大規(guī)模集群有一個(gè)性能指標(biāo)叫做加速比，它的定義是一個(gè)擁有N個(gè)GPU的集群，其算力和單個(gè)GPU算力N倍的比值，理想情況下這兩者是相等的。但集群訓(xùn)練會(huì)引入額外的通信開銷，從而導(dǎo)致N個(gè)GPU算力達(dá)不到單個(gè)GPU算力的N倍。因此，高性能的網(wǎng)絡(luò)互聯(lián)，是大規(guī)模GPU集群所必須的。

2、鏈路負(fù)載均衡與故障快速恢復(fù)成為主要訴求

分布式訓(xùn)練需要多臺(tái)主機(jī)之間同步參數(shù)、梯度、以及中間變量。對(duì)于大模型而言，單次的參數(shù)同步量一般都在百M(fèi)B~GB的量級(jí)，因此需求網(wǎng)絡(luò)高帶寬?，F(xiàn)在，25Gbps帶寬的網(wǎng)絡(luò)已經(jīng)成為數(shù)據(jù)中心內(nèi)的主流，40Gbps, 100Gbps甚至200Gbps的網(wǎng)絡(luò)都開始逐步使用，那是不是直接用大帶寬網(wǎng)絡(luò)就能提升GPU集群的性能呢?其實(shí)并不盡然，研究表明40Gbps和100Gbps的網(wǎng)絡(luò)根本無法充分利用其帶寬，原因是網(wǎng)絡(luò)協(xié)議棧的開銷影響了傳輸性能。因此，大模型對(duì)網(wǎng)絡(luò)的第一個(gè)要求就是能夠充分利用現(xiàn)在以太網(wǎng)的大帶寬。

大模型訓(xùn)練一般會(huì)將數(shù)據(jù)并行、流水線并行、張量并行等多種并行模式混合使用，以充分利用集群的算力。無論是哪種并行模式，多機(jī)之間都會(huì)涉及一種叫AllReduce的集合通信。一個(gè)AllReduce任務(wù)包含多個(gè)點(diǎn)對(duì)點(diǎn)的通信，而AllReduce的完成需要所有點(diǎn)對(duì)點(diǎn)通信都成功完成，因此集合通信存在“木桶效應(yīng)”，即AllReduce的完成時(shí)間，由其中最慢的點(diǎn)對(duì)點(diǎn)通信時(shí)間決定。

圖片2.png

正因?yàn)槿绱?，大模型?xùn)練對(duì)網(wǎng)絡(luò)提出了另外兩個(gè)要求：

一是鏈路負(fù)載均衡要做到完美。因?yàn)?ldquo;木桶效應(yīng)”，只要有一條鏈路出現(xiàn)負(fù)載不均導(dǎo)致網(wǎng)絡(luò)擁塞，成為了木桶的短板，那么即使其它鏈路都暢通無阻，集合通信時(shí)間仍然會(huì)大幅增加，從而影響訓(xùn)練效率。當(dāng)前的負(fù)載均衡技術(shù)基于哈希隨機(jī)，只能做到流比較多時(shí)的一個(gè)近似均衡散列，并不能保證所有鏈路都完美均衡開。因此，尋找一種完美的負(fù)載均衡技術(shù)，是提升機(jī)器學(xué)習(xí)大模型訓(xùn)練效率的關(guān)鍵。

二是網(wǎng)絡(luò)出現(xiàn)故障能快速恢復(fù)。隨著集群規(guī)模增大，鏈路故障在所難免。類似的，一條鏈路故障就會(huì)導(dǎo)致整個(gè)AllReduce通信停滯，進(jìn)而使模型訓(xùn)練停滯。如何做到故障后快速恢復(fù)，最好是上層訓(xùn)練業(yè)務(wù)不感知，是保障一個(gè)AI大規(guī)模集群性能的關(guān)鍵。

3、RDMA智能無損，大幅提升帶寬吞吐

傳統(tǒng)TCP網(wǎng)絡(luò)因?yàn)橹鳈C(jī)側(cè)協(xié)議棧開銷大，無法充分利用網(wǎng)絡(luò)帶寬。RDMA通信技術(shù)通過網(wǎng)卡硬件實(shí)現(xiàn)通信控制，繞過了主機(jī)側(cè)協(xié)議棧，因此既避免了協(xié)議棧內(nèi)存拷貝，又節(jié)約了CPU的開銷。使RDMA通信相比TCP，具有更低時(shí)延和更高吞吐的特點(diǎn)，非常適合大模型GPU訓(xùn)練的場(chǎng)景。

但是，RDMA是無損協(xié)議，需要鏈路層PFC來保障不丟包。PFC在大規(guī)模集群可能會(huì)出現(xiàn)隊(duì)頭阻塞、擁塞擴(kuò)散，甚至網(wǎng)絡(luò)死鎖等危害，因此直接大規(guī)模部署RDMA存在很高的風(fēng)險(xiǎn)。華為智能無損RDMA，在標(biāo)準(zhǔn)RDMA over Ethernet(ROCE)的基礎(chǔ)上，通過PFC防死鎖技術(shù)解決了死鎖問題;通過基于AI的自適應(yīng)擁塞控制技術(shù)，解決頭阻問題的同時(shí)保證了網(wǎng)絡(luò)的有效吞吐。

基于無損以太的數(shù)據(jù)中心網(wǎng)絡(luò)已經(jīng)可以支持RDMA應(yīng)用的規(guī)模部署，并且已經(jīng)在互聯(lián)網(wǎng)、教育、科研、氣象、金融、油氣等領(lǐng)域得到了廣泛的應(yīng)用。這些技術(shù)在大規(guī)模GPU集群中，也擁有極高的價(jià)值。

圖片3.png

圖片4.png

4、NSLB全網(wǎng)負(fù)載均衡，實(shí)現(xiàn)90%超高吞吐

現(xiàn)有的網(wǎng)絡(luò)負(fù)載均衡技術(shù)絕大多數(shù)只是解決了本地等價(jià)路徑之間的均衡，但對(duì)于整個(gè)網(wǎng)絡(luò)而言，局部均衡并不意味著全局均衡。更何況，對(duì)于ECMP這種依賴哈希隨機(jī)性的負(fù)載均衡技術(shù)，在網(wǎng)絡(luò)流量比較少時(shí)，對(duì)于本地路徑的完美均衡都難以做到。就像拋10000次硬幣，正反面各出現(xiàn)一半很正常;但拋4次硬幣，就有63%幾率不是2正面2反面。AI訓(xùn)練是一種吞吐敏感型業(yè)務(wù)，其典型流量特征是流數(shù)少、單流帶寬大、強(qiáng)同步，在這種場(chǎng)景下，ECMP技術(shù)因?yàn)榭赡艹霈F(xiàn)的哈希不均勻，難以保證網(wǎng)絡(luò)負(fù)載均衡。

針對(duì)這個(gè)問題，華為提出了網(wǎng)絡(luò)級(jí)負(fù)載均衡(Network Scale Load Balance, NSLB)的概念。華為基于算網(wǎng)協(xié)同實(shí)現(xiàn)多任務(wù)全局均衡路由，基于全局擁塞狀態(tài)的自適應(yīng)路由算法，實(shí)現(xiàn)AI訓(xùn)練流量滿吞吐和網(wǎng)絡(luò)帶寬的完全利用。類似于擁有多條跑道的超大型機(jī)場(chǎng)的智慧調(diào)度系統(tǒng)，多條跑道同時(shí)起飛降落時(shí)，也不會(huì)互相沖撞，同時(shí)也滿足最大游客吞吐量?；贜SLB，AI訓(xùn)練效率都可以大幅提升，如下圖的測(cè)試結(jié)果，單任務(wù)、多任務(wù)線性度均達(dá)到90%以上。

圖片5.png

5、DPFR數(shù)據(jù)面故障快速自愈，使業(yè)務(wù)對(duì)故障0感知

傳統(tǒng)網(wǎng)絡(luò)的故障收斂依賴設(shè)備控制面或者集中的控制器的動(dòng)態(tài)路由收斂，網(wǎng)絡(luò)故障收斂時(shí)間數(shù)百ms到數(shù)s，網(wǎng)絡(luò)故障盡管是可以恢復(fù)的，但是故障期間大量丟包，會(huì)導(dǎo)致RDMA連接中斷，直接影響AI訓(xùn)練業(yè)務(wù)的穩(wěn)定性和性能。下圖的紅線測(cè)試結(jié)果，我們看到由于鏈路故障，導(dǎo)致長(zhǎng)達(dá)數(shù)秒的業(yè)務(wù)性能跌零。

針對(duì)這個(gè)問題，華為提出了一種基于數(shù)據(jù)面的故障無感自愈的方案，我們稱為數(shù)據(jù)面故障快速自愈(Data Plan Fast Recovery, DPFR)，故障的感知、通告和自愈完全在數(shù)據(jù)面實(shí)現(xiàn)，不需要控制面參與，基于這種技術(shù)網(wǎng)絡(luò)故障收斂，網(wǎng)絡(luò)故障基本可以做到業(yè)務(wù)無感。下圖的綠線就是開啟DPFR之后的業(yè)務(wù)表現(xiàn)，在發(fā)生故障后數(shù)據(jù)面自動(dòng)恢復(fù)，使得上層應(yīng)用無感知。這項(xiàng)技術(shù)可以有效消除網(wǎng)絡(luò)故障對(duì)大規(guī)模AI訓(xùn)練的影響。

這就好比在一個(gè)部門里面，上級(jí)一開始就和下級(jí)以及周邊部門協(xié)商好了任務(wù)處理模式，當(dāng)有任務(wù)觸發(fā)時(shí)，下級(jí)部門直接就和周邊部門協(xié)同處理來提高工作效率，不用像傳統(tǒng)模式一層層協(xié)商匯報(bào)后再等上級(jí)部門下達(dá)命名再處理任務(wù)。華為做的就是開發(fā)出了這個(gè)“下級(jí)部門”的處理能力，不再單純只做執(zhí)行者。

圖片6.png

6、應(yīng)勢(shì)而起，領(lǐng)勢(shì)而上

在機(jī)器學(xué)習(xí)大模型火熱的今天，如何有效訓(xùn)練這些大模型成為各大企業(yè)關(guān)注的焦點(diǎn)。華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)中的智能無損RDMA技術(shù)，網(wǎng)絡(luò)級(jí)負(fù)載均衡的NSLB技術(shù)和數(shù)據(jù)面故障快速自愈的DPFR技術(shù)，給大規(guī)模GPU集群帶來了高質(zhì)量的網(wǎng)絡(luò)底座，助力超大模型的高效訓(xùn)練。

MWC 2023世界移動(dòng)通信大會(huì)將于2月27日在西班牙巴塞羅那會(huì)展中心拉開帷幕，邀您相約在1號(hào)館Intelligent Data Center展島。華為將全新升級(jí)Easy CloudFabric數(shù)據(jù)中心網(wǎng)絡(luò)解決方案，助力各行業(yè)邁入多元算力新時(shí)代。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

支撐ChatGPT的超強(qiáng)算力，到底需要什么樣的數(shù)據(jù)中心？

支撐ChatGPT的超強(qiáng)算力，到底需要什么樣的數(shù)據(jù)中心？