禁售陰影之下,國產(chǎn)GPGPU是否有望補齊缺口?

今年年初,ChatGPT猶如一顆火種,激發(fā)了AI應(yīng)用的發(fā)展動力,AI產(chǎn)業(yè)進入發(fā)展的快車道。國內(nèi)的AI產(chǎn)業(yè)自然也乘勢而起,僅半年光景國內(nèi)就涌現(xiàn)出近百款A(yù)I大模型產(chǎn)品,由此進入“百模大戰(zhàn)”的競爭格局。

訓(xùn)練大模型需要以算力為基礎(chǔ),全球AI公司對NVIDIA 芯片追捧至極,GPU有價無市。近期新聞,NVIDIA H100已無存貨,就算現(xiàn)在訂購,也要等2024年Q1甚至Q2才能用上。據(jù)傳聞,百度、字節(jié)、阿里、騰訊等大型科技公司也向NVIDIA下了總計50億美元的A800等芯片訂單。

只不過有人企圖對國內(nèi)AI大模型發(fā)展加以干涉。美國《華爾街日報》透露,由于擔(dān)心中國可能使用NVIDIA 和其他公司的人工智能芯片“進行武器開發(fā)和黑客攻擊”,美國政府考慮加碼計算芯片領(lǐng)域的制裁,限制NVIDIA公司向中國出口A800、H800芯片,一時間讓處于快速發(fā)展中國AI產(chǎn)業(yè),又一次籠罩于禁售陰影之下。

難以替代的GPGPU架構(gòu)芯片

從美國對國內(nèi)算力芯片的一而再,再而三地限制中,可以看到美國對中國AI產(chǎn)業(yè)發(fā)展的忌憚。近年來隨著數(shù)字經(jīng)濟的蓬勃發(fā)展,國內(nèi)在推進算力基礎(chǔ)設(shè)施建設(shè)取得積極成效。據(jù)工信部統(tǒng)計,目前我國算力總規(guī)模居全球第二,保持30%左右的年增長率,而且新增算力設(shè)施中智能算力占比過半。這其中作為算力載體的AI計算芯片,其地位自然無比重要。

目前全球AI計算芯片主要分為GPGPU、ASIC、FPGA三種架構(gòu)。而被限制的A800和H800芯片就屬于GPGPU架構(gòu)芯片。GPGPU架構(gòu)也是AI加速芯片市場的主流,占據(jù)了90%的市場份額。

GPGPU從GPU發(fā)展而來,是GPU去掉圖形處理能力,提升并行計算能力之后的產(chǎn)物。GPGPU是如何成為最適合AI計算的芯片呢?

對比CPU和GPU,結(jié)構(gòu)上的差異決定了CPU和GPU功能上的區(qū)別。由于CPU在控制和存儲的能力上比較強,因此能進行比較復(fù)雜的計算,不過可以同時執(zhí)行的線程很少。而GPU則相反,大量的計算單元讓它可以同時執(zhí)行多線程的任務(wù),但每一個任務(wù)都比較簡單。

打個比方,如果CPU是一個懂高等數(shù)學(xué)的大學(xué)生,概率、微積分全都會做,但讓他做一萬道四則運算數(shù)學(xué)題,還是要花費大量的時間;而GPU好像是一萬名只懂得四則運算的小學(xué)生,雖然不會函數(shù)、代數(shù)等高級知識,但是遇到一萬道四則運算兩秒就能做完。

在AI神經(jīng)算法成熟后,業(yè)內(nèi)發(fā)現(xiàn)GPU的功能特性很適合進行AI訓(xùn)練,因為在深度學(xué)習(xí)模型中,最主要的運算就是矩陣運算和卷積,而這些運算從根本上都可以分解為簡單的加法和乘法。如此挖掘出了GPU在AI領(lǐng)域的應(yīng)用空間。2007年,英偉達提出了GPGPU,即通用GPU架構(gòu),將原本專用于圖形處理的GPU改造成了更適合AI運算的GPGPU。

其實AI計算芯片除了GPGPU架構(gòu),還有ASIC、FPGA等架構(gòu)。只不過ASIC、FPGA芯片是結(jié)合某些計算場景需求的定制化產(chǎn)品,通用性不強。

GPGPU研發(fā)難度高,國產(chǎn)短板待補齊

在美國限制出口、國內(nèi)大模型急需GPU或GPGPU的時候,國內(nèi)真正能做GPGPU的廠家卻很少。因為GPGPU芯片研發(fā)難度,比其他類型的AI芯片要高出很多。

有業(yè)內(nèi)人士分析過,GPGPU 芯片的團隊大概需要1000 人左右,至少也要做兩年才能做出一顆芯片,這還只是推理芯片而已。如果要做大模型訓(xùn)推一體的大芯片,那么至少 3 年才能把一顆芯片做出來。這意味著,如果有國內(nèi)廠商能趕上今年大模型風(fēng)潮,至少需要從2020年就開始布局研發(fā)設(shè)計。

并且GPGPU研發(fā)出來之后,決定其性能發(fā)揮上下限的,不止是架構(gòu)設(shè)計優(yōu)劣、制造工藝先進與否等條件,還需要有軟件生態(tài)支持,還需要售后團隊結(jié)合大模型情況調(diào)優(yōu)產(chǎn)品等等。

NVIDIA之所以能稱霸AI芯片領(lǐng)域,在于其結(jié)合GPGPU架構(gòu)開發(fā)了CUDA軟件平臺,允許開發(fā)者使用類C語言編寫GPU的并行計算代碼,并且提供了大量的庫函數(shù)和工具來幫助優(yōu)化GPU計算。NVIDIA運營CUDA已經(jīng)十余年時間,軟件生態(tài)才是NVIDIA真正的護城河。

國內(nèi)AI芯片面對NVIDIA先發(fā)優(yōu)勢,如何把握住AI大模型帶來的GPGPU黃金機遇?

國產(chǎn)GPGPU殺出幾匹黑馬

當前國內(nèi)AI芯片主要廠商包括華為、寒武紀、海光信息、遂原、壁仞、天數(shù)智芯等,此外龍芯也在布局。其中,發(fā)力GPGPU芯片的包括海光、壁仞科技、龍芯等等。

海光GPGPU架構(gòu)芯片深算一號在2018年啟動研發(fā),于去年發(fā)布。據(jù)了解,海光深算一號性能優(yōu)異,對比NVIDIA A100及 AMD MI100發(fā)現(xiàn),在典型應(yīng)用場景下,深算一號指標已經(jīng)達到國際上同類型高端產(chǎn)品的水平。并且深算一號最大亮點在于,支持全部計算精度,在國產(chǎn)GPGPU中具備唯一性。在生態(tài)方面,海光深算一號可兼容類CUDA環(huán)境,對于AI開發(fā)者無需復(fù)雜適配,即可遷移到海光平臺。

如此以來,在禁售陰影下,海光GPGPU產(chǎn)品可作為國外芯片最好平替。據(jù)海光披露,截止今年GPGPU產(chǎn)品已量產(chǎn)商業(yè)化應(yīng)用,規(guī)模達幾十萬片,應(yīng)用領(lǐng)域涵蓋互聯(lián)網(wǎng)、能源等行業(yè)。

壁仞科技成立于2019年,在2022年發(fā)布了首款GPGPU芯片BR100系列,性能方面超越NVIDIA A100,今年發(fā)力目標為量產(chǎn)上市。但業(yè)內(nèi)人士認為,對于國內(nèi)初創(chuàng)GPGPU公司而言,軟件生態(tài)更為重要。目前國內(nèi)的初創(chuàng)公司雖然在細分領(lǐng)域上有一定的落地,而真正在大模型訓(xùn)練上能有實際應(yīng)用的幾乎沒有。

而龍芯暫無產(chǎn)品發(fā)布,目前進展為已經(jīng)完成相關(guān)IP的設(shè)計,正在驗證優(yōu)化過程中,第一個集成自研GPGPU核的SOC芯片計劃于2024年Q1流片。從流片到量產(chǎn),如果按最快6-12個月來算,龍芯的GPGPU產(chǎn)品至少也要在2024年Q3以后才能發(fā)布,量產(chǎn)估計需要在2025年了。

總體而言,國產(chǎn)GPGPU邁出從0到1的第一步是最主要的。禁售危機中蘊藏著機遇,哪怕作為后來者,在國內(nèi)如此大的消費市場支撐下,也將有追趕上NVIDIA的可能。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2023-08-16
禁售陰影之下,國產(chǎn)GPGPU是否有望補齊缺口?
禁售陰影之下,國產(chǎn)GPGPU是否有望補齊缺口?,今年年初,ChatGPT猶如一顆火種,激發(fā)了AI應(yīng)用的發(fā)展動力,AI產(chǎn)業(yè)進入發(fā)展的快車道。國內(nèi)的AI

長按掃碼 閱讀全文