Graphcore IPU進入中國 能否攪動AI芯片市場?

6月23日消息,不是老套的CPU、GPU,AI應(yīng)該需要一塊專屬芯片。這個想法讓全球更多創(chuàng)企看到挑戰(zhàn)巨頭的機會。

今年2月EE Times評選出“十大AI芯片創(chuàng)企”,其中來自英國的Graphcore憑借其為AI計算而生研發(fā)的IPU獲選。

英國半導(dǎo)體之父、Arm的聯(lián)合創(chuàng)始人Hermann更是對Graphcore給予高度評價,他曾表示:“在計算機歷史上只發(fā)生過三次革命,一次是70年代的CPU,第二次是90年代的GPU,而Graphcore就是第三次革命。”

資料顯示,Graphcore是一家英國AI芯片硬件設(shè)計初創(chuàng)公司,成立于2016年,總部位于英國布里斯托,Graphcore的主要業(yè)務(wù)是設(shè)計用于AI應(yīng)用程序的處理器,為云服務(wù)等應(yīng)用提供產(chǎn)品支持。

Graphcore的核心技術(shù)和產(chǎn)品是智能處理器(IPU)硬件和相應(yīng)的 “Poplar” 軟件,該軟件專門針對AI應(yīng)用程序所需要的密集型計算而設(shè)計,以及IPU系統(tǒng)解決方案。目前其IPU GC2處理器已經(jīng)量產(chǎn)。

截至目前,Graphcore已經(jīng)獲得超過4.5億美元的融資,戰(zhàn)略投資者不乏寶馬、博世、戴爾、微軟、三星等各行業(yè)巨頭。Graphcore最近的一輪融資在今年2月完成,公司估值已達(dá)19.5億美元。

去年,這家AI芯片創(chuàng)企Graphcore將業(yè)務(wù)拓展至中國,我們也得以近距離了解這家企業(yè)的產(chǎn)品和中國市場愿景。

IPU為AI而生 16納米GC2處理器已量產(chǎn)

今年5月27日,在英國Intelligent Health峰會上,微軟機器學(xué)習(xí)科學(xué)家分享了使用IPU訓(xùn)練CXR模型的卓越性能:IPU在運行微軟COVID-19影像分析算法模型時能夠在30分鐘內(nèi)完成訓(xùn)練,而在NVIDIA GPU上這項工作需花費5個小時。

Graphcore高級副總裁兼中國區(qū)總經(jīng)理盧濤

Graphcore IPU一戰(zhàn)成名。

Graphcore高級副總裁兼中國區(qū)總經(jīng)理盧濤介紹,之所以IPU能有如此優(yōu)異的表現(xiàn),是因為 “Graphcore的IPU是為機器智能專門設(shè)計的、完全不同的處理器架構(gòu),跟CPU、GPU等處理器架構(gòu)非常不一樣”。

盧濤表示,CPU是針對應(yīng)用和網(wǎng)絡(luò)進行設(shè)計的處理器,是標(biāo)量處理器。GPU是針對圖形和高性能計算、以向量處理為核心的處理器,而Graphcore IPU是針對計算圖的處理來設(shè)計的處理器。

具體而言,“IPU應(yīng)用了大規(guī)模并行MIMD的處理器核。另外進行了非常大的分布式片上SRAM,在片內(nèi)IPU能做到300 MB的SRAM。相對CPU的DDR2子系統(tǒng)或GPU的GDDR、HBM來說,IPU能做到10到320倍的性能提升。從時延的角度看,與訪問外存相比,IPU時延基本為1%,可以忽略不計。” 盧濤透露。

以Graphcore已經(jīng)量產(chǎn)的IPU GC2處理器為例,盧濤介紹道:“這款產(chǎn)品采用TSMC 16納米工藝,是擁有236億個晶體管的芯片處理器。它在120瓦的功耗下能夠達(dá)到125TFlops的混合精度,內(nèi)存帶寬為45TB/s、片上交換可達(dá)45TB/s、片間IPU-Links為2.5TB/s。GC2上有1216個獨立處理器核心(Tile),其300MSRAM能夠把完整的模型放在片內(nèi)。”

據(jù)悉,Graphcore采用構(gòu)建大規(guī)模數(shù)據(jù)中心集群的BSP(Bulk Synchronous Parallel)技術(shù),該技術(shù)目前在谷歌、Facebook、百度這樣的大規(guī)模數(shù)據(jù)中心都已獲得應(yīng)用。

盧濤強調(diào):“IPU是目前全球第一款BSP處理器,通過硬件能支持BSP協(xié)議,并通過BSP協(xié)議把整個計算邏輯分為計算、同步、交換。對軟件工程師或開發(fā)者來說,這將非常易于編程;而用戶也無需糾結(jié)于這里面是1216個核心(Tile)還是7000多個線程、任務(wù)具體在哪個核上執(zhí)行,因此這是一項非常用戶友好型的創(chuàng)新。”

與IPU相輔助的是Poplar軟件,該軟件專門針對AI應(yīng)用程序所需的密集型計算而設(shè)計。盧濤透露:“目前Poplar已提供750個高性能計算元素的50多種優(yōu)化功能,支持標(biāo)準(zhǔn)機器學(xué)習(xí)框架,如TensorFlow、ONNX和PyTorch,很快也會支持百度飛槳。在部署方面,目前Poplar可以支持容器化部署,能夠快速啟動并運行。在標(biāo)準(zhǔn)生態(tài)方面,Poplar能夠支持Docker、Kubernetes,以及Hyper-v等虛擬化技術(shù)和安全技術(shù)。在操作系統(tǒng)方面,目前Poplar SDK支持最主要的三個Linux發(fā)行版:ubuntu、RedHat Enterprise Linux、CentOS。”

IPU服務(wù)AI優(yōu)勢凸顯 比GPU效率大幅提升

目前基于IPU的應(yīng)用已覆蓋到包括自然語言處理、圖像/視頻處理、時序分析、推薦/排名及概率模型在內(nèi)的多個機器學(xué)習(xí)應(yīng)用領(lǐng)域。

Graphcore中國銷售總監(jiān)朱江

“在自然語言處理、計算機視覺類應(yīng)用和概率類算法中,IPU的表現(xiàn)在現(xiàn)有以及下一代模型上,性能均領(lǐng)先于GPU。”Graphcore中國銷售總監(jiān)朱江介紹, “在自然語言處理方面,IPU速度能夠提升20%至50%;在圖像分類方面,IPU能夠達(dá)到6倍的吞吐量和更低時延;在MCMC算法方面,IPU具有26倍的性能提升;在ResNeXt這類比較新的計算機視覺類應(yīng)用方面,IPU能做到6倍的吞吐量、22分之1的時延。”

朱江以BERT模型為例進行了對比。BERT訓(xùn)練在NVLink-enabled的平臺上,大概50多個小時才能做到一定精度,而在基于IPU的戴爾DSS-8440服務(wù)器上,只需要36.3小時,相當(dāng)于訓(xùn)練時間縮短了25%。

如果做一個分組卷積內(nèi)核的micro-benchmark,將組維度(group dimension)分成從1到512來比較。這里組維度512就是應(yīng)用得較多的 “Dense卷積網(wǎng)絡(luò)” ,典型的應(yīng)用如ResNet。此時IPU GC2性能比V100要好近一倍。

隨著稠密程度降低、稀疏化程度增加,在組維度為1或32時,針對EfficientNet或MobileNet,IPU對比GPU展現(xiàn)出巨大的優(yōu)勢,可以達(dá)到成倍的性能提升,同時時延大大降低。

據(jù)朱江介紹,Graphcore IPU現(xiàn)已廣泛應(yīng)用于金融、醫(yī)療、電信、搜索引擎等諸多垂直領(lǐng)域,并在這些領(lǐng)域表現(xiàn)出顯著優(yōu)勢。

除了前面提到的IPU在運行微軟COVID-19影像分析算法模型時的優(yōu)異表現(xiàn)外,在金融領(lǐng)域,包括算法交易、投資管理、風(fēng)險管理及詐騙識別等方面,IPU可以使MCMC采樣速度提高26倍,強化學(xué)習(xí)的訓(xùn)練時間縮短至1/13。

電信領(lǐng)域,LSTM模型預(yù)測性能促進網(wǎng)絡(luò)規(guī)劃,基于時間序列分析,采用IPU比GPU有260倍以上的提升。

朱江總結(jié)道:“IPU是一個全新的架構(gòu)設(shè)計、是一個圖形處理器,具備多指令、多數(shù)據(jù)的特點。除了稠密的數(shù)據(jù)之外,現(xiàn)在代表整個AI發(fā)展方向的大規(guī)模稀疏化數(shù)據(jù),在IPU上處理就會有非常明顯的優(yōu)勢。”

進入中國已與百度阿里合作 7納米IPU新品今年發(fā)布

現(xiàn)在Graphcore攜其IPU登陸中國市場,以期在中國市場大展拳腳。

目前,如果用戶想訪問IPU系統(tǒng),可以通過購買戴爾服務(wù)器或微軟云來訪問IPU資源。在中國,Graphcore和金山云合作,即將上線針對中國開發(fā)者和創(chuàng)新者的云業(yè)務(wù)。

盧濤透露,今年5月12日,在OCP Global Summit上,阿里巴巴宣布Graphcore支持ODLA的接口標(biāo)準(zhǔn)。隨后5月20日,在百度Wave Summit 2020上,百度宣布Graphcore成為飛槳硬件生態(tài)圈的創(chuàng)始成員之一。Graphcore希望通過這樣的方式來積極融入中國的AI生態(tài)圈。

在談到中美AI市場的差異時,盧濤向TechWeb表示:“目前,美國在IPU的落地與推進速度方面比中國要更快一些,不過現(xiàn)在中國的推進速度也愈發(fā)快速。這是因為美國用戶更多來自于較為活躍的研究者社區(qū),而中國用戶非常注重產(chǎn)品落地。國外的AI應(yīng)用更加側(cè)重研究,而中國更加看重產(chǎn)品化的訓(xùn)練和產(chǎn)品化的推理,更加側(cè)重AI如何解決應(yīng)用問題。”

為了適應(yīng)這一市場差異,盧濤介紹:“長期來講,Graphcore會針對中國市場的需求,進行產(chǎn)品的定制化。從服務(wù)角度而言,Graphcore中國目前有兩支技術(shù)團隊——一支是以定制開發(fā)為主要任務(wù)的工程技術(shù)團隊,另一支是以對用戶技術(shù)服務(wù)為主的現(xiàn)場應(yīng)用團隊。工程技術(shù)團隊承擔(dān)兩方面工作,一是根據(jù)中國本地的AI應(yīng)用特點和需求,將AI的算法模型在IPU上實現(xiàn)落地;二是根據(jù)中國本地用戶對AI穩(wěn)定性學(xué)習(xí)框架平臺軟件的需求,進行功能性的開發(fā)加強工作?,F(xiàn)場應(yīng)用團隊則是幫助客戶完成現(xiàn)場的技術(shù)支持工作。”

盧濤說:“我們對中國市場的期望非常高,期望中國市場能夠占到Graphcore全球市場的40%甚至50%。雖然Graphcore在中國市場的整體啟動比北美要晚一年左右,但從目前進展來看,我們發(fā)展得非常不錯。”

另據(jù)盧濤透露,Graphcore下一代7納米處理器將于今年下半年正式發(fā)布,相信新產(chǎn)品會有卓越表現(xiàn)。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2020-06-24
Graphcore IPU進入中國 能否攪動AI芯片市場?
6月23日消息,不是老套的CPU、GPU,AI應(yīng)該需要一塊專屬芯片。這個想法讓全球更多創(chuàng)企看到挑戰(zhàn)巨頭的機會。

長按掃碼 閱讀全文