鄭緯民院士:繁榮國(guó)產(chǎn)AI芯片生態(tài),助力國(guó)產(chǎn)算力支撐大模型訓(xùn)練

4月28日消息(九九)今天上午,以“算力網(wǎng)絡(luò)點(diǎn)亮AI新時(shí)代”為主題的中國(guó)移動(dòng)算力網(wǎng)絡(luò)大會(huì)在蘇州開幕。在大會(huì)主論壇上,中國(guó)工程院院士鄭緯民介紹,支持大模型訓(xùn)練的三類系統(tǒng)分別是基于英偉達(dá)公司GPU的系統(tǒng)、基于國(guó)產(chǎn)AI芯片的系統(tǒng)和基于超級(jí)計(jì)算機(jī)的系統(tǒng)。

鄭緯民指出,基于英偉達(dá)公司GPU的系統(tǒng)硬件性能好,編程生態(tài)好,但是價(jià)格暴漲,一卡難求;基于國(guó)產(chǎn)AI芯片的系統(tǒng)面臨國(guó)產(chǎn)卡應(yīng)用不足、生態(tài)系統(tǒng)有待改善的問題;至于基于超級(jí)計(jì)算機(jī)的系統(tǒng),“當(dāng)前有14個(gè)國(guó)家級(jí)超算中心,機(jī)器不是用得非常滿,采用軟硬件協(xié)同的設(shè)計(jì)在超算機(jī)器做大模型訓(xùn)練成為可能。”

鄭緯民進(jìn)一步指出,國(guó)產(chǎn)算力支撐大模型訓(xùn)練,國(guó)產(chǎn)軟件生態(tài)需要做好幾件事:

首先是編程框架,降低編寫人工智能模型的復(fù)雜度,利用基本算子快速構(gòu)建人工智能模型,例如PyTorch , TensorFlow。

其次是并行加速,為多機(jī)多卡環(huán)境提供人工智能模型并行訓(xùn)練的能力,支持?jǐn)?shù)據(jù)并行、模型并行、流水線并行、張量并行等。例如微軟DeepSpeed、英偉達(dá)Megatron-LM。

三是通信庫(kù),提供跨機(jī)跨卡的通信能力,能夠支持人工智能模型訓(xùn)練所需各種通信模式,能根據(jù)底層網(wǎng)絡(luò)特點(diǎn)充分利用網(wǎng)絡(luò)通信帶寬,例如英偉達(dá)NCCL庫(kù)、超算普遍支持的MPI通信庫(kù)。

四是算子庫(kù),提供人工智能模型所需基本操作的高性能實(shí)現(xiàn),要求能夠盡可能覆蓋典型人工智能模型所需的操作,要求算子庫(kù)能充分發(fā)揮底層硬件的性能例,如英偉達(dá)cuDNN,cnBLAS。

五是AI編譯器,在異構(gòu)處理器上對(duì)人工智能程序生成高效的目標(biāo)代碼,對(duì)算子庫(kù)不能提供的操作通過AI編譯器自動(dòng)生成高效目標(biāo)代碼,例如XLA、TVM。

六是編程語(yǔ)言,提供異構(gòu)處理器上編寫并行程序的支持,要求覆蓋底層硬件功能,發(fā)揮硬件性能,能夠編寫人工智能模型的基本算子(Operator),例如英偉達(dá)的CUDA,Intel的oneAPI。

七是調(diào)度器,提供在大規(guī)模系統(tǒng)上高效調(diào)度人工智能任務(wù)的能力,設(shè)計(jì)高效調(diào)度算法,提高集群資源利用率,例如Kubernetes(K8S)、華為ModelArts。其中,內(nèi)存分配系統(tǒng)針對(duì)人工智能應(yīng)用特點(diǎn)提供高效的內(nèi)存分配策略,容錯(cuò)系統(tǒng)提供在硬件發(fā)生故障后快速恢復(fù)模型訓(xùn)練的能力,存儲(chǔ)系統(tǒng)支持訓(xùn)練過程中高效的數(shù)據(jù)讀寫(檢查點(diǎn)訓(xùn)練數(shù)據(jù)等)。

鄭緯民強(qiáng)調(diào):“國(guó)產(chǎn)AI芯片與業(yè)界領(lǐng)先水平存在一定差距,但如果生態(tài)做好了,客戶也會(huì)滿意,并且大多數(shù)任務(wù)不會(huì)因?yàn)樾酒阅艿奈⑿〔町惗忻黠@感知。”

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2024-04-28
鄭緯民院士:繁榮國(guó)產(chǎn)AI芯片生態(tài),助力國(guó)產(chǎn)算力支撐大模型訓(xùn)練
鄭緯民院士:繁榮國(guó)產(chǎn)AI芯片生態(tài),助力國(guó)產(chǎn)算力支撐大模型訓(xùn)練,4月28日消息(九九)今天上午,以算力網(wǎng)絡(luò)點(diǎn)亮AI新時(shí)代為主題的中國(guó)移動(dòng)算力網(wǎng)絡(luò)大會(huì)在蘇州開幕。在大

長(zhǎng)按掃碼 閱讀全文