AI驅(qū)動計(jì)算架構(gòu)向ASIC演進(jìn) 嘉楠科技發(fā)布二代AI芯片勘智K510

自2016年起,AI算法的突破深刻影響了計(jì)算架構(gòu)的演進(jìn)。面對計(jì)算密集型場景,通用處理器的計(jì)算效率已無法跟上算法迭代速度,取而代之的則是異構(gòu)計(jì)算體系。尤其在推理場景中,ASIC憑借最高的計(jì)算效率拔得頭籌,正成為邊緣AI場景中計(jì)算架構(gòu)的領(lǐng)頭羊。

作為一家ASIC芯片設(shè)計(jì)公司,嘉楠科技已從事5年邊緣AI芯片研發(fā)。本屆世界人工智能大會,嘉楠科技首次發(fā)布勘智AI系列的新款芯片勘智K510,其中加入了自主研發(fā)的神經(jīng)網(wǎng)絡(luò)引擎GNNE,提升3倍算力,目標(biāo)場景為智能家居、車載后裝、智慧零售和智能社區(qū)等。

AI驅(qū)動計(jì)算架構(gòu)向ASIC演進(jìn) 嘉楠科技發(fā)布二代AI芯片勘智K510

AI驅(qū)動的算力演進(jìn):從通用到專用

過去5年中,算力演進(jìn)的主要方向集中于服務(wù)器端,結(jié)合傳統(tǒng)處理器與圖形計(jì)算引擎,英偉達(dá)率先發(fā)現(xiàn)了大規(guī)模并行計(jì)算的方法,使算法訓(xùn)練的效率獲得數(shù)量級提升。

AI算法訓(xùn)練需要進(jìn)行大量矩陣乘加運(yùn)算。面對這一應(yīng)用場景,傳統(tǒng)的處理器CPU處理能力顯得捉襟見肘,其原因在于CPU的設(shè)計(jì)針對串行程序進(jìn)行了大量優(yōu)化,用來處理預(yù)測分支、亂序執(zhí)行和多級流水等復(fù)雜的控制邏輯。因此CPU中很大一部分硅面積為存儲和控制單元,負(fù)責(zé)邏輯運(yùn)算的ALU只占據(jù)很少一部分。

與之相反,GPU核心中大部分是邏輯運(yùn)算單元,擁有大量并行處理數(shù)據(jù)的能力。如果在TensorFlow中分別用CPU和GPU進(jìn)行矩陣乘運(yùn)算,GPU的效率可以達(dá)到CPU的千倍以上,這也由此拉開了AI領(lǐng)域異構(gòu)計(jì)算的序幕。

異構(gòu)計(jì)算的另一個(gè)分支是FPGA。對終端和軟件應(yīng)用公司而言,GPU的架構(gòu)是固定的,其支持的硬件原生指令也是固定的,無法根據(jù)實(shí)際的場景進(jìn)行調(diào)整。FPGA的可編程性能對此做了很好的彌補(bǔ),多數(shù)公司都用它來做前期算法的驗(yàn)證。

從GPU和FPGA這兩個(gè)例子可以看出,AI算法模型一直在驅(qū)動計(jì)算架構(gòu)的演進(jìn)。GPU彌補(bǔ)了傳統(tǒng)處理器的算力短板,而根據(jù)不同算法調(diào)整硬件資源又催生了FPGA。從長期而言,隨著AI算法趨于成熟,計(jì)算架構(gòu)將從FPGA過渡到ASIC,即專用計(jì)算。谷歌的TPU已經(jīng)證明了ASIC架構(gòu)的巨大潛力。在使用TPU之前,AlphaGo曾內(nèi)置1202個(gè)CPU和176個(gè)GPU,而2015年AlphaGo部署的TPU僅有48個(gè)。

算力的部署:從云端走向邊緣

ASIC芯片計(jì)算效率最高,適合于推理計(jì)算場景。區(qū)別于算法訓(xùn)練,推理計(jì)算是根據(jù)成熟的模型對輸入數(shù)據(jù)給出精準(zhǔn)的預(yù)測結(jié)果。而隨著算法模型逐漸趨同,彼此的差異局限于參數(shù)優(yōu)化,推理計(jì)算在AI場景中的地位正越來越高。與此同時(shí),算力的部署逐漸從云端向邊緣遷移,邊緣智能迎來新的發(fā)展機(jī)遇。

AI的典型應(yīng)用場景主要為訓(xùn)練和推理。由于對數(shù)據(jù)的高吞吐,算法訓(xùn)練通常部署在云端服務(wù)器進(jìn)行,需要調(diào)用大量計(jì)算資源來實(shí)現(xiàn)參數(shù)的優(yōu)化。邊緣計(jì)算場景由于更加靠近應(yīng)用現(xiàn)場,沒有數(shù)據(jù)中心的算力條件,對時(shí)延和設(shè)備的功耗都要求嚴(yán)苛。

在云邊協(xié)同的框架下,設(shè)備對原始數(shù)據(jù)的預(yù)處理,不僅能有效降低數(shù)據(jù)中心的載荷,以及數(shù)據(jù)傳輸?shù)膸挸杀?,也有利于客戶業(yè)務(wù)數(shù)據(jù)的脫敏??梢哉f,邊緣計(jì)算是一種更加敏捷和經(jīng)濟(jì)的計(jì)算方式。

隨著物聯(lián)網(wǎng)在終端市場展開,第二輪數(shù)據(jù)爆發(fā)周期已經(jīng)開始。據(jù)IoT Analytic調(diào)研,2020年全球AIoT設(shè)備連接數(shù)已經(jīng)超過非AIoT設(shè)備連接數(shù),云邊協(xié)同處理數(shù)據(jù)成為必然。另一方面,剪枝、知識蒸餾等算法的出現(xiàn),也在技術(shù)上為算法模型在設(shè)備端的部署提供可能。

物聯(lián)網(wǎng)市場尚處發(fā)展早期,雖然谷歌、英偉達(dá)等AI巨頭將其版圖延伸至邊緣計(jì)算領(lǐng)域,打造覆蓋云邊端的全棧布局,但尚未形成諸如云端訓(xùn)練市場的壟斷態(tài)勢。在多元化的物聯(lián)網(wǎng)市場,國內(nèi)已涌現(xiàn)出一批以嘉楠科技為代表的邊緣AI芯片廠商。

嘉楠科技:專注邊緣AI芯片自主研發(fā)

嘉楠科技在過去8年中積累了大量ASIC芯片設(shè)計(jì)經(jīng)驗(yàn)和知識產(chǎn)權(quán),涵蓋算法開發(fā)和優(yōu)化,標(biāo)準(zhǔn)單元設(shè)計(jì)和優(yōu)化,低電壓和高能效操作,高性能設(shè)計(jì)系統(tǒng)和散熱等芯片設(shè)計(jì)底層共性技術(shù)領(lǐng)域。

AI驅(qū)動計(jì)算架構(gòu)向ASIC演進(jìn) 嘉楠科技發(fā)布二代AI芯片勘智K510

2016年,嘉楠科技正式成立AI芯片部門,啟動邊緣芯片研發(fā)項(xiàng)目——勘智AI。研發(fā)團(tuán)隊(duì)在ISA選型、功耗和功能設(shè)計(jì)上都全面瞄準(zhǔn)邊緣AI,并在一開始就確立了依托開源架構(gòu)研發(fā)自主IP核的技術(shù)路線。歷經(jīng)兩年打磨,嘉楠科技研發(fā)業(yè)內(nèi)首款RISC-V架構(gòu)商用邊緣AI芯片勘智K210,廣泛應(yīng)用于智能抄表、智能門禁、AI STEAM等場景。

本次發(fā)布的K510則是勘智AI系列的新款A(yù)I芯片,其最大特點(diǎn)就在于團(tuán)隊(duì)自主設(shè)計(jì)研發(fā)的IP核KPU2.0。結(jié)合動態(tài)3D PE陣列和GLB設(shè)計(jì),KPU2.0獨(dú)創(chuàng)的計(jì)算數(shù)據(jù)流技術(shù)提升3倍算力。同時(shí),芯片在硬件配置上大幅優(yōu)化視覺子系統(tǒng)能力,經(jīng)典算法mobilenetv1運(yùn)行幀率提升12倍,多款視覺算法幀率業(yè)內(nèi)領(lǐng)先。

針對芯片的算力和功耗設(shè)計(jì),K510的目標(biāo)場景主要包括智能家居和高清航拍、視頻會議、機(jī)器人等領(lǐng)域。

嘉楠科技擁有完整的封裝、散熱和量產(chǎn)工藝團(tuán)隊(duì)和豐富的大規(guī)模量產(chǎn)經(jīng)驗(yàn)。截至2020年12月31日,嘉楠科技共完成了14次ASIC的流片,成功率均為 100%。同時(shí),嘉楠科技與業(yè)內(nèi)多家巨頭晶圓廠均有合作關(guān)系,確保了穩(wěn)定的產(chǎn)能保障。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )