AI大模型訓(xùn)練需要怎樣的網(wǎng)絡(luò)?科大訊飛攜手華為樹立“以網(wǎng)強算”標(biāo)桿

極客網(wǎng)·極客觀察(朱飛)10月9日 ChatGPT爆火激發(fā)生成式AI熱潮,掀起 AI 大模型領(lǐng)域的“千模大戰(zhàn)”。隨著大模型訓(xùn)練愈發(fā)深入,所涉及的參數(shù)規(guī)模愈發(fā)龐大,業(yè)界發(fā)現(xiàn)在提升數(shù)據(jù)中心算力的同時,強化數(shù)據(jù)中心運力也至關(guān)重要——高運力甚至已成為釋放大算力的關(guān)鍵因素!

這不難理解,因為對于單卡GPU等AI計算設(shè)備來說,網(wǎng)絡(luò)I/O能力已經(jīng)是制約算力充分發(fā)揮的短板;當(dāng)大模型進(jìn)入千卡萬卡集群時代后,大規(guī)模系統(tǒng)的算力性能和穩(wěn)定性自然更加受到網(wǎng)絡(luò)能力的制約。也就是說,網(wǎng)絡(luò)吞吐率往往決定AI的算力性能,網(wǎng)絡(luò)可靠性則決定AI訓(xùn)練的穩(wěn)定性。

如何破局?在9月20日開幕的華為全聯(lián)接大會2023期間,科大訊飛攜手華為數(shù)據(jù)中心網(wǎng)絡(luò)宣布啟動AI運力底座聯(lián)合創(chuàng)新項目,同時分享了雙方在數(shù)據(jù)中心網(wǎng)絡(luò)領(lǐng)域的合作成果,為業(yè)界呈現(xiàn)了一個面向AI大模型場景的高運力底座解決方案及應(yīng)用實踐。

AI大模型訓(xùn)練需要怎樣的網(wǎng)絡(luò)?科大訊飛攜手華為樹立“以網(wǎng)強算”標(biāo)桿.jpg

訊飛識別大模型訓(xùn)練三大網(wǎng)絡(luò)挑戰(zhàn):大規(guī)模,高吞吐,高可靠

在千帆競技的大模型賽道,作為AI龍頭企業(yè)科大訊飛推出的新一代認(rèn)知智能大模型,訊飛星火認(rèn)知大模型已經(jīng)名聲在外。在近期新華社研究院中國企業(yè)發(fā)展研究中心發(fā)布的《人工智能大模型體驗報告2.0》,訊飛星火位列國產(chǎn)主流大模型測評榜首位。而在《麻省理工科技評論》中國發(fā)布的大模型評測報告中,訊飛星火更是被評為“最聰明”的國產(chǎn)大模型。

據(jù)科大訊飛基礎(chǔ)設(shè)施總監(jiān)張驍介紹,在訊飛星火認(rèn)知大模型的訓(xùn)練過程中,團隊識別到AI訓(xùn)練對于網(wǎng)絡(luò)的訴求可以歸納為三個詞:大規(guī)模,高吞吐,高可靠。

首先是大規(guī)模。AI大模型訓(xùn)練涉及的參數(shù)規(guī)模動則百億千億甚至萬億,這需要AI集群調(diào)動各計算節(jié)點資源,通過高速網(wǎng)絡(luò)實現(xiàn)互聯(lián)互通、相互協(xié)作才能完成訓(xùn)練任務(wù)。這意味著,無論是節(jié)點內(nèi)部還是節(jié)點之間,都需要強大的網(wǎng)絡(luò)去實現(xiàn)規(guī)模組網(wǎng)及高效部署。

其次高吞吐。集群架構(gòu)下的AI大模型訓(xùn)練場景中會存在負(fù)載不均衡的情況,且設(shè)備網(wǎng)絡(luò)規(guī)模越大,傳統(tǒng)負(fù)載方式?jīng)_突會越嚴(yán)重。要想充分發(fā)揮各節(jié)點的強大算力提升AI訓(xùn)練效率,就必須確保網(wǎng)絡(luò)的高吞吐率。這類似于,要想提高車輛的運行速度,在拓寬道路的基礎(chǔ)上,還需要解決堵車的難題。

再次是高可靠。大模型訓(xùn)練是一個復(fù)雜的系統(tǒng)工程,從數(shù)據(jù)準(zhǔn)備、模型預(yù)訓(xùn)練到模型訓(xùn)練,系統(tǒng)穩(wěn)定運行十分重要,一旦出現(xiàn)網(wǎng)絡(luò)故障導(dǎo)致訓(xùn)練中斷將代價不菲,因而高可靠的網(wǎng)絡(luò)基礎(chǔ)設(shè)施是長穩(wěn)訓(xùn)練的關(guān)鍵。

“星河”聯(lián)“星火”,華為星河AI網(wǎng)絡(luò)加速訊飛星火大模型訓(xùn)練

為了提升AI大模型的組網(wǎng)規(guī)模及其部署效率、AI訓(xùn)練效率、AI訓(xùn)練網(wǎng)絡(luò)可靠性,科大訊飛與華為數(shù)據(jù)中心網(wǎng)絡(luò)聯(lián)合創(chuàng)新,利用后者創(chuàng)新的星河AI網(wǎng)絡(luò)解決方案構(gòu)筑一個大規(guī)模、高吞吐、高可靠的AI高性能數(shù)據(jù)中心網(wǎng)絡(luò),保障了AI大模型高效、穩(wěn)定、可靠的訓(xùn)練。

首先,訊飛星火認(rèn)知大模型采用華為數(shù)據(jù)中心交換機構(gòu)建超大規(guī)模組網(wǎng),支持了萬億參數(shù)的大規(guī)模訓(xùn)練。星河AI網(wǎng)絡(luò)解決方案采用業(yè)界最高密的400GE和800GE接口,可以支持高達(dá)18000卡的大規(guī)模集群組網(wǎng)。

其次,訊飛星火認(rèn)知大模型采用華為獨創(chuàng)的AI加速器,基于華為獨創(chuàng)的全局負(fù)載均衡NSLB算法、自動化開局和全??梢曔\維技術(shù)實現(xiàn)算網(wǎng)實時協(xié)同調(diào)度,在提高網(wǎng)絡(luò)吞吐的同時,能將網(wǎng)絡(luò)有效吞吐從業(yè)界的50%提升到98%,將大模型訓(xùn)練效率提升20%(內(nèi)部測試數(shù)據(jù)效果)。

再次,訊飛星火認(rèn)知大模型依托華為獨家網(wǎng)絡(luò)數(shù)字地圖,使能計算網(wǎng)絡(luò)一體化運維,通信異常一鍵診斷,將訓(xùn)中排障效率提升了90%,大幅提高了訓(xùn)練的可靠性。

在高運力底座的加持下,依托在通用人工智能領(lǐng)域的持續(xù)深耕和系統(tǒng)性創(chuàng)新,科大訊飛于今年5月6日正式發(fā)布星火認(rèn)知大模型,并在6月9日迅速完成迭代升級,又于8月15日重磅發(fā)布訊飛星火V2.0,以驚人的速度實現(xiàn)了AI大模型的快速訓(xùn)練與能力躍遷。

9月5日,訊飛星火認(rèn)知大模型正式開放全民使用,14小時用戶數(shù)便突破100萬,迅速登上AppStore免費總排行榜第一。如今的訊飛星火認(rèn)知大模型,已經(jīng)具有文本生成、語言理解、知識問答、邏輯推理、數(shù)學(xué)能力、代碼能力、多模態(tài)能力等7大核心能力,擁有跨領(lǐng)域的知識和語言理解能力,能夠基于自然對話方式理解與執(zhí)行任務(wù)。

強強聯(lián)合繼往開來,引領(lǐng)AI模型高性能、高安全網(wǎng)絡(luò)創(chuàng)新突破

面向未來,為了抓住AI發(fā)展浪潮契機,搶占產(chǎn)業(yè)制高點,科大訊飛和華為數(shù)據(jù)中心網(wǎng)絡(luò)繼續(xù)深化合作,共同探索產(chǎn)業(yè)發(fā)展的新道路。為此,雙方在本屆華為全聯(lián)接大會期間正式宣布“雙子星計劃”,啟動AI運力底座聯(lián)合創(chuàng)新項目,共同打造面對AI大模型場景的最佳數(shù)據(jù)中心網(wǎng)絡(luò)解決方案。

根據(jù)計劃,科大訊飛和華為數(shù)據(jù)中心網(wǎng)絡(luò)、華為網(wǎng)絡(luò)安全將繼續(xù)攜手在AI高性能網(wǎng)絡(luò)的快速部署、極致吞吐、高效運維、安全可靠等四個方向上尋求突破。三方將凝心聚力,共同推動AI大模型創(chuàng)新變革,為AI大模型接入訪問保駕護航,通過行業(yè)實踐和驗證加快AI產(chǎn)業(yè)化落地,引領(lǐng)社會發(fā)展的新進(jìn)程。

例如,隨著越來越多用戶通過各種智能應(yīng)用接入訪問AI大模型,面向智算中心與海量用戶之間的高效互聯(lián),雙方將致力于構(gòu)建彈性高并發(fā)的網(wǎng)絡(luò)能力,支持彈性多路徑調(diào)度算法,從而使得網(wǎng)絡(luò)通信的性能最大化,有效地解決網(wǎng)絡(luò)擁塞問題,減少網(wǎng)絡(luò)延遲,提高網(wǎng)絡(luò)通信的可靠性,使得即使是在遙遠(yuǎn)的鄉(xiāng)鎮(zhèn)山村也能順暢享受AI的魅力。

會上,華為還聯(lián)合中國信息通信研究院、科大訊飛正式發(fā)布了《星河AI網(wǎng)絡(luò)白皮書》(以下簡稱白皮書),闡述了星河AI網(wǎng)絡(luò)在AI大規(guī)模參數(shù)計算場景下的廣泛應(yīng)用前景,并從AI業(yè)務(wù)的發(fā)展趨勢、網(wǎng)絡(luò)架構(gòu)和關(guān)鍵技術(shù)創(chuàng)新三個方面展示星河AI網(wǎng)絡(luò)在人工智能產(chǎn)業(yè)的技術(shù)領(lǐng)導(dǎo)力,為構(gòu)建面向AI大模型的高性能訓(xùn)練網(wǎng)絡(luò)提供參考。

小結(jié):

智能經(jīng)濟是數(shù)字經(jīng)濟發(fā)展的新階段。有報告預(yù)測,到2030年,全球智能經(jīng)濟的價值將達(dá)到18.8萬億美元。對于驅(qū)動智能未來的關(guān)鍵要素,業(yè)界已基本達(dá)成共識:AI大模型將決定智能經(jīng)濟的高度,數(shù)據(jù)價值挖掘決定智能經(jīng)濟的深度,而運力、算力和存力協(xié)同發(fā)展則將決定智能經(jīng)濟的厚度。

從中可見,科大訊飛攜手華為構(gòu)筑AI大模型高運力底座,是在面向AI大模型掀起的智能經(jīng)濟大浪潮,“以網(wǎng)強算”加速行業(yè)智能化,即以高運力釋放AI時代的高算力,賦能千行百業(yè)智能化躍遷。相信隨著“雙子星計劃”的深入推進(jìn),雙方必將能為業(yè)界構(gòu)筑更好的AI大模型高運力底座,加速釋放智能經(jīng)濟的巨大價值!

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2023-10-09
AI大模型訓(xùn)練需要怎樣的網(wǎng)絡(luò)?科大訊飛攜手華為樹立“以網(wǎng)強算”標(biāo)桿
隨著大模型訓(xùn)練愈發(fā)深入,所涉及的參數(shù)規(guī)模愈發(fā)龐大,業(yè)界發(fā)現(xiàn)在提升數(shù)據(jù)中心算力的同時,強化數(shù)據(jù)中心運力也至關(guān)重要——高運力甚至已成為釋放大算力的關(guān)鍵因素!

長按掃碼 閱讀全文