全棧自研能力再度升級,騰訊云星脈網(wǎng)絡提質(zhì)增效AI大模型

7月5日消息(水易)人工智能技術在近年來不斷取得突破,各類智慧化應用不斷涌現(xiàn)。而隨著以ChatGPT為代表的生成式AI大模型的出現(xiàn),將AI的發(fā)展推向新高度。

在大眾的認知里,AI大模型的訓練需要海量算力,但是海量算力從何而來,單臺服務器的性能肯定不夠,需要由大量的服務器作為節(jié)點,通過高速網(wǎng)絡組成集群,相互協(xié)作完成訓練任務,這就對網(wǎng)絡提出更高要求。

這個時候?qū)τ谔峁┧懔Ψ盏脑朴嬎銖S商而言,或許購買商用網(wǎng)絡設備就可以了,但是騰訊云進一步深化自研能力,并于日前首次對外完整披露自研星脈高性能計算網(wǎng)絡,支撐AI大模型的發(fā)展。

騰訊云副總裁王亞晨表示:“星脈網(wǎng)絡是為大模型而生。它所提供的大帶寬、高利用率以及零丟包的高性能網(wǎng)絡服務,將助力算力瓶頸的突破,進一步釋放AI潛能,全面提升企業(yè)大模型的訓練效率,在云上加速大模型技術的迭代升級和落地應用。”

騰訊云副總裁王亞晨

AI大模型需要DCN向高性能演進

“去年國家‘東數(shù)西算’戰(zhàn)略啟動,提出布局算力網(wǎng)絡,實際上這就是一個解決大規(guī)模集群算力間互相協(xié)作的關鍵技術,那時騰訊云就已經(jīng)做了很多面向算力網(wǎng)絡的技術儲備。”王亞晨表示,數(shù)據(jù)中心網(wǎng)絡始終在持續(xù)演進,只是AI大模型的出現(xiàn)加速了這一進程。

回顧騰訊云數(shù)據(jù)中心網(wǎng)絡三代技術演進,都是伴隨著業(yè)務的升級。第一階段以C端業(yè)務為主,數(shù)據(jù)中心網(wǎng)絡流量主要由用戶訪問數(shù)據(jù)中心服務器的南北向流量構(gòu)成。第二階段,騰訊云的快速發(fā)展,服務器之間的東西向流量逐漸增多,數(shù)據(jù)中心網(wǎng)絡架構(gòu)逐漸演變?yōu)橥瑫r承載南北向和東西向流量的云網(wǎng)絡架構(gòu),

如今隨著AI大模型的出現(xiàn),DCN網(wǎng)絡需要進行新一輪的升級,東西向流量規(guī)模更大。與此同時,王亞晨介紹,以前的DCN都是圍繞CPU構(gòu)建,現(xiàn)在需要圍繞GPU互聯(lián)構(gòu)建,這個時候DCN就要向高性能網(wǎng)絡升級。

王亞晨表示,高性能網(wǎng)絡面向AI大模型時,首先不能丟包,其次是時延要求非常敏感,另外帶寬利用率要求非常高,這也是DCN網(wǎng)絡面臨的核心挑戰(zhàn)。因為集群一定會影響到GPU的性能,集群越大,產(chǎn)生的額外通信損耗越多。

具體來看,千億、萬億參數(shù)規(guī)模的大模型,訓練過程中通信占比最大可達50%,傳統(tǒng)低速網(wǎng)絡的帶寬遠遠無法支撐。同時,傳統(tǒng)網(wǎng)絡協(xié)議容易導致網(wǎng)絡擁塞、高延時和丟包,而僅0.1%的網(wǎng)絡丟包就可能導致50%的算力損失,最終造成算力資源的嚴重浪費。

深度自研,實現(xiàn)高利用率、信息無損

面對這些挑戰(zhàn),基于全面自研能力,騰訊云在交換機、通信協(xié)議、通信庫以及運營系統(tǒng)等方面,進行了軟硬一體的升級和創(chuàng)新,率先推出業(yè)界領先的大模型專屬高性能網(wǎng)絡——星脈網(wǎng)絡。

騰訊云數(shù)據(jù)中心網(wǎng)絡總監(jiān)李翔

騰訊云數(shù)據(jù)中心網(wǎng)絡總監(jiān)李翔表示,“打開”星脈網(wǎng)絡看它如何支撐AI大模型的訓練,可以形象地用道路上行駛的汽車來形容。

首先,星脈網(wǎng)絡基于騰訊的網(wǎng)絡研發(fā)平臺,采用全自研設備構(gòu)建“高速公路”,也就是網(wǎng)絡互聯(lián)底座,實現(xiàn)自動化部署和配置,同時也能夠做到更快的技術迭代和最優(yōu)的成本控制。

其次,當我們出門前,都會用導航系統(tǒng)查看哪條路線最優(yōu)。騰訊云為星脈網(wǎng)絡設計了高性能集合通信庫TCCL,融入定制化解決方案,使系統(tǒng)實現(xiàn)了微秒級感知網(wǎng)絡質(zhì)量。結(jié)合動態(tài)調(diào)度機制合理分配通信通道,可以避免因網(wǎng)絡問題導致的訓練中斷等問題,讓通信時延降低40%。

第三,當車開起來后,路上總會出現(xiàn)一些不可預料的擁塞和堵塞,這也是最大的困難。為此騰訊云自研的TiTa網(wǎng)絡協(xié)議,采用先進的擁塞控制和管理技術,能夠?qū)崟r監(jiān)測并調(diào)整網(wǎng)絡擁塞,滿足大量服務器節(jié)點之間的通信需求,確保數(shù)據(jù)交換流暢、延時低,實現(xiàn)高負載下的零丟包,使集群通信效率達90%以上。

第四,需要有一套“交通管理系統(tǒng)”,確保道路的高可用。騰訊云自研了端到端的全棧網(wǎng)絡運營系統(tǒng),通過端網(wǎng)立體化監(jiān)控與智能定位系統(tǒng),將端網(wǎng)問題自動定界分析,讓整體故障的排查時間由天級降低至分鐘級。同時,大模型訓練系統(tǒng)的整體部署時間從19天縮減至4.5天,保證基礎配置100%準確。

李翔表示,星脈網(wǎng)絡具備業(yè)界最高的3.2T通信帶寬,能提升40%的GPU利用率,節(jié)省30%-60%的模型訓練成本,為AI大模型帶來10倍通信性能提升?;隍v訊云新一代算力集群HCC,可支持10萬卡的超大計算規(guī)模。

二十余年積累,成就端到端網(wǎng)絡能力

“整個騰訊網(wǎng)絡大概由大大小小幾十個組件組成,數(shù)據(jù)中心網(wǎng)絡是其中一個,也是其中最大、歷史最悠久的一個。”王亞晨介紹,目前騰訊已經(jīng)形成ECN、DCI、DCN三大網(wǎng)絡架構(gòu),把用戶和業(yè)務服務器連接起來,并且把數(shù)百萬臺服務器連接起來。

王亞晨表示,騰訊網(wǎng)絡的構(gòu)建歷經(jīng)四個階段:階段一是2006年,采用商用設備+人工運維的模式;階段二是2010年,采用商業(yè)設備+工具支撐的模式;階段三是2015年,采用定制設備+路由控制的模式;階段四是2019年開始,采用開放設備+SDN/NFV的模式。

目前,騰訊網(wǎng)絡已經(jīng)在DCI領域、DCN領域、以及HOST主機側(cè),從設備開放、芯片定制、模塊融合,驅(qū)動基礎網(wǎng)絡設備全面、深度自研。包括DCI領域的開放光傳輸系統(tǒng),DCN的交換機、光模塊,主機側(cè)的智能網(wǎng)卡等都實現(xiàn)自研和可控,共同組成硬件自研體系。

有了硬件還要配合相應的軟件才能發(fā)揮作用。騰訊自研網(wǎng)絡服務軟件,實現(xiàn)商用路由系統(tǒng)向自研分布式路由系統(tǒng)演進,拆分成管控系統(tǒng)、路由系統(tǒng)、轉(zhuǎn)發(fā)系統(tǒng)、接入系統(tǒng),具備架構(gòu)解耦、彈性擴展、硬件加速、穩(wěn)定運營等特性。另外,自研網(wǎng)絡操作系統(tǒng)覆蓋全網(wǎng)多場景、結(jié)合自研網(wǎng)管平臺實現(xiàn)網(wǎng)絡能力簡化與定制、網(wǎng)絡系統(tǒng)穩(wěn)定運營。

“為什么做自研,騰訊云有兩個維度的考慮。”李翔表示,第一個維度是硬件成本的角度,商業(yè)交換機賣的是“滿漢全席”,我們可能只需要10%的功能;第一個維度從質(zhì)量考慮,希望對軟件做減法,實現(xiàn)功能的快速迭代,并實現(xiàn)簡單維護、快修復。“未來,騰訊云還將持續(xù)投入基礎技術的研發(fā)。”

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2023-07-05
全棧自研能力再度升級,騰訊云星脈網(wǎng)絡提質(zhì)增效AI大模型
全棧自研能力再度升級,騰訊云星脈網(wǎng)絡提質(zhì)增效AI大模型,C114訊 7月5日消息(水易)人工智能技術在近年來不斷取得突破,各類智慧化應用不斷涌現(xiàn)。而隨著以C

長按掃碼 閱讀全文