隨著AI預訓練大模型的價值不斷顯現(xiàn),且模型規(guī)模愈發(fā)龐大。產(chǎn)學各界已經(jīng)形成了這樣一個共識:AI時代,算力就是生產(chǎn)力。
這一認知雖然正確,卻并不全面。數(shù)字化系統(tǒng)有存、算、網(wǎng)三大支柱,AI技術(shù)也是如此。如果拋開存儲和網(wǎng)絡談算力,那么大模型只能獨木難支。尤其是與大模型適配的網(wǎng)絡基礎(chǔ)設施,一直以來都沒有得到有效的重視。
面對動輒“萬卡集訓”“萬里部署”“萬億參數(shù)”的AI大模型,網(wǎng)絡運力是整個智能化體系中不容忽視的一環(huán)。其面臨的挑戰(zhàn)非常突出,也正在等待可以破局的答案。
(華為數(shù)據(jù)通信產(chǎn)品線總裁 王雷)
9月20日,華為全聯(lián)接大會2023期間舉辦了“星河AI網(wǎng)絡,加速行業(yè)智能化”為主題的數(shù)通峰會。各界代表共同探討了AI網(wǎng)絡技術(shù)的變革與發(fā)展趨勢。會上,華為數(shù)據(jù)通信產(chǎn)品線總裁王雷正式發(fā)布星河AI網(wǎng)絡解決方案。他表示,大模型讓AI更聰明,但訓練一個大模型的成本非常高,同時還要考慮AI人才的成本。因此,在行業(yè)智能化階段,集中建設大算力集群,面向社會提供智算云服務,才能真正讓人工智能深入千行萬業(yè)。華為發(fā)布新一代星河AI網(wǎng)絡解決方案,面向智能時代,打造超高吞吐、長穩(wěn)可靠、彈性高并發(fā)的新型網(wǎng)絡基礎(chǔ)設施,助力AI普惠,加速行業(yè)智能化。
借此機會,我們一起了解大模型崛起,給智算數(shù)據(jù)中心帶來的網(wǎng)絡挑戰(zhàn),以及華為星河AI網(wǎng)絡為什么是這些問題的最優(yōu)解。
如果說,一個模型、一條數(shù)據(jù)、一個計算單元,都是AI時代的一道星光。那么只有把它們高效穩(wěn)定地聯(lián)接起來,才能組成智能世界的燦爛星河。
大模型爆發(fā),隱藏的網(wǎng)絡激流
我們知道,AI模型分為訓練和推理部署兩個階段。伴隨著預訓練大模型的興起,這兩個階段也分別發(fā)生了巨大的AI網(wǎng)絡挑戰(zhàn)。
首先是在大模型的訓練階段。伴隨著模型規(guī)模與數(shù)據(jù)參數(shù)愈發(fā)龐大,大模型訓練開始需要千卡甚至萬卡規(guī)模的計算集群來完成。這也意味著大模型訓練必然發(fā)生在具備AI算力的數(shù)據(jù)中心當中。
在目前階段,智算數(shù)據(jù)中心的成本是非常高昂的。根據(jù)行業(yè)數(shù)據(jù),每建設100P算力的集群,成本就要達到4億人民幣。以某國際知名大模型為例,其訓練過程中每天的算力花費就要達到70萬美元。
如果數(shù)據(jù)中心網(wǎng)絡的聯(lián)接能力不暢,造成大量算力資源折損在網(wǎng)絡傳輸過程中,那么給數(shù)據(jù)中心與AI模型帶來的損失是難以估量的。相反,如果同等算力規(guī)模下,集群訓練效率更高,那么數(shù)據(jù)中心將獲得巨大商機。而負載率等網(wǎng)絡因素,直接決定了AI模型的訓練效率。另一方面,由于AI算力集群的規(guī)模不斷擴大,其復雜度也在相應增長,于是其故障發(fā)生概率也在提升。打造長穩(wěn)可靠的集群網(wǎng)絡,是數(shù)據(jù)中心提升投入產(chǎn)出比的重要支點。
在數(shù)據(jù)中心之外,AI模型的推理部署場景中,同樣也可以看到AI網(wǎng)絡的價值體現(xiàn)。大模型的推理部署主要依靠云服務,而云服務商必須在算力資源有限的情況下,盡量服務更大的客戶,以此實現(xiàn)大模型的商業(yè)價值最大化。如此一來,用戶越多整個云網(wǎng)結(jié)構(gòu)就會越復雜。如何能夠提供長期穩(wěn)定的網(wǎng)絡服務,成為了云計算服務商新的挑戰(zhàn)。
除此之外,在AI推理部署的最后一公里,政企用戶面臨著網(wǎng)絡質(zhì)量提升的需求。在真實場景下,1%的鏈路丟包會導致TCP性能下降50倍,也就是100Mbps的寬帶,實際能力不足2Mbps。因此,提升應用場景本身的網(wǎng)絡能力,才可以保證AI算力順暢流動,實現(xiàn)真正的普惠AI。
由此不難看出,在AI大模型的誕生、傳輸、應用全流程中,每個環(huán)節(jié)都面臨著網(wǎng)絡升級的挑戰(zhàn)與需求。大模型時代的運力難題,亟待破局解題。
從星光到星河,智能時代的網(wǎng)絡破局思路
大模型崛起帶來的網(wǎng)絡難題是一個多環(huán)節(jié)、全流程的挑戰(zhàn)。因此,對應的破局思路也必須是一個系統(tǒng)性工程。
華為提出,面向智算云服務的新型網(wǎng)絡基礎(chǔ)設施,需要支持 “訓練高效能”“算力不停歇”“普惠AI服務”。這三項能力,對應了AI大模型從訓練到推理部署的全場景。不僅著眼于單一需求滿足,單一技術(shù)的升級,而是全面推進AI網(wǎng)絡迭代,正是華為數(shù)據(jù)通信帶給行業(yè)獨特的破局思路。
具體而言,AI時代的網(wǎng)絡基礎(chǔ)設施需要包含如下能力:
首先,在訓練場景網(wǎng)絡需要最大化發(fā)揮出AI計算集群的價值。通過打造具備超大規(guī)模聯(lián)接能力的網(wǎng)絡,實現(xiàn)AI大模型的訓練高效能。
其次,為了保障AI任務的穩(wěn)定可持續(xù),需要打造長穩(wěn)可靠的網(wǎng)絡能力,保障月級訓練不中斷,同時要有秒級的穩(wěn)定定界、定位和回復,盡可能降低訓練中斷時常。這就是算力不停歇的能力建設。
再次,AI推理部署過程中,要求網(wǎng)絡具有彈性高并發(fā)的特質(zhì),可以智能編排海量用戶流,提供最佳的AI落地體驗,同時可以對抗網(wǎng)絡劣化沖擊,保障不同區(qū)域間AI算力順暢流動,這也就實現(xiàn)了“普惠AI服務”的能力建設。
秉承這樣的破局思路,華為最終帶來了星河AI網(wǎng)絡解決方案。它把散落的AI星光,基于強大運力聯(lián)成一片星河。
星河AI網(wǎng)絡,給大模型紀元一個運力答案
華為全聯(lián)接大會2023的期間,華為分享了對以大算力、大存力、大運力加速AI大模型打造的發(fā)展愿景。新一代華為星河AI網(wǎng)絡解決方案,就可以說是面向智能時代,華為為大模型帶來的運力答案。
對于智能數(shù)據(jù)中心來說,華為星河AI網(wǎng)絡是以網(wǎng)強算的最優(yōu)解。
其所具備的超高吞吐網(wǎng)絡特質(zhì),可以面向智算中心的AI集群提供提升網(wǎng)絡負載率,強化訓練效率的重要價值。具體來說,星河AI網(wǎng)絡智算交換機具有業(yè)界最高密400GE和800GE端口能力,僅2層交換網(wǎng)絡就可以實現(xiàn)1萬8000卡的無收斂集群組網(wǎng),從而支持超萬億參數(shù)的大模型訓練。組網(wǎng)層次一旦減少,就意味著數(shù)據(jù)中心能夠節(jié)省了大量的光模塊成本,同時提高對網(wǎng)絡風險的可預測性,獲得更加穩(wěn)定的大模型訓練能力。
星河AI網(wǎng)絡可以支持網(wǎng)絡級負載均衡NSLB,能夠?qū)⒇撦d率從50%提升到98%,相當于實現(xiàn)AI集群超頻運行,繼而將訓練效率提升20%,達成高效能訓練的預期。
對于云服務廠商來說,星河AI網(wǎng)絡可以提供穩(wěn)定可靠的算力保障。
其能夠在DCI算間互聯(lián)場景,提供多路徑智能調(diào)度等技術(shù),自動識別、主動適應業(yè)務高峰流量的沖擊,可以從百萬數(shù)據(jù)流中識別大小流,合理分配到10萬路徑,從而實現(xiàn)網(wǎng)絡0擁塞,彈性保障高并發(fā)的智算云服務。
對于政企用戶來說,星河AI網(wǎng)絡可以應對網(wǎng)絡劣化問題,保障普惠化的AI算力。
其能夠在DCA入算場景支持彈性抗劣化能力,采用Fillp技術(shù)優(yōu)化TCP協(xié)議,可以在1%丟包率的情況下將帶寬負載率從10%提升至60%,從而保障從都市圈到偏遠地區(qū)的算力順暢流動,加速AI服務的普惠應用。
如此一來,大模型從訓練到部署各個環(huán)節(jié)的網(wǎng)絡需求都被打通。從智算中心到千行萬業(yè),都有了以網(wǎng)強算的發(fā)展支點。
一個屬于智能化的時代,一個由大模型開啟的科技新紀元剛剛開始。星河AI網(wǎng)絡,給智能時代寫下了一個關(guān)于運力的答案。
免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。