久久特A级天天拍黄片,最新无码专区91在线

科技云報(bào)道原創(chuàng)。

在AI發(fā)展歷史上，曾有兩次“圣杯時(shí)刻”。

第一次發(fā)生在2012年10月，卷積神經(jīng)網(wǎng)絡(luò)（CNN）算法憑借比人眼識(shí)別更低的錯(cuò)誤率，打開(kāi)了計(jì)算機(jī)視覺(jué)的應(yīng)用盛世。

第二次是2016年3月，DeepMind研發(fā)的AI程序AlphaGo，戰(zhàn)勝世界圍棋冠軍李世石，讓全世界驚嘆于“人工智能”的實(shí)力。

這兩次“圣杯時(shí)刻”的幕后，都有芯片創(chuàng)新的身影。適配通用算法的英偉達(dá)GPGPU（通用圖形處理單元）芯片，以及走專(zhuān)業(yè)化路線谷歌TPU（張量處理單元）芯片都在這兩次大發(fā)展中大放異彩。

如今大模型的興起，正在逼近第三次“圣杯時(shí)刻”。但隨著模型參數(shù)越來(lái)越大，芯片在提供算力支持上逐漸陷入瓶頸。

數(shù)據(jù)顯示，在GPT-2之前的模型時(shí)代，GPU內(nèi)存還能滿足AI大模型的需求。

近年來(lái)，隨著Transformer模型的大規(guī)模發(fā)展和應(yīng)用，模型大小每?jī)赡昶骄鲩L(zhǎng)240倍，GPT-3等大模型的參數(shù)增長(zhǎng)已經(jīng)超過(guò)了GPU內(nèi)存的增長(zhǎng)。

在大算力激增的需求下，越來(lái)越多行業(yè)人士認(rèn)識(shí)到，新的計(jì)算架構(gòu)或許才是算力破局的關(guān)鍵。

芯片發(fā)展面臨“三座大山”

當(dāng)前AI技術(shù)的快速更新迭代對(duì)芯片提出了多個(gè)挑戰(zhàn)，尤其繞不過(guò)“存儲(chǔ)墻”、“能耗墻”和“編譯墻”三座大山。

首先，在傳統(tǒng)馮·諾依曼架構(gòu)下，芯片在執(zhí)行計(jì)算密集型任務(wù)時(shí)面臨“存儲(chǔ)墻”問(wèn)題，這導(dǎo)致計(jì)算芯片的功耗和性能都受限于處理器和存儲(chǔ)器之間的數(shù)據(jù)搬運(yùn)，嚴(yán)重限制了AI芯片在計(jì)算規(guī)模、密度、效率等方面的提升。

其次，由于“存儲(chǔ)墻”的存在，數(shù)據(jù)需要頻繁搬運(yùn)，在存儲(chǔ)、計(jì)算單元間來(lái)回轉(zhuǎn)移，導(dǎo)致嚴(yán)重的功耗損失，撞到“能耗墻”上。

英特爾的研究表明，當(dāng)半導(dǎo)體工藝達(dá)到 7nm 時(shí)，數(shù)據(jù)搬運(yùn)功耗高達(dá) 35pJ/bit，占總功耗的63.7%。另有統(tǒng)計(jì)表明，在大算力的AI應(yīng)用中，數(shù)據(jù)搬運(yùn)操作消耗90%的時(shí)間和功耗，數(shù)據(jù)搬運(yùn)的功耗是運(yùn)算的650倍。

最后，“編譯墻”隱于二者之中，極短時(shí)間下的大量數(shù)據(jù)搬運(yùn)使得編譯器無(wú)法在靜態(tài)可預(yù)測(cè)的情況下對(duì)算子、函數(shù)、程序或者網(wǎng)絡(luò)做整體的優(yōu)化，手動(dòng)優(yōu)化又消耗了大量時(shí)間。

過(guò)去，憑借先進(jìn)制程不斷突破，這三座“大山”的弊病還能通過(guò)快速提升的算力來(lái)彌補(bǔ)。

但一個(gè)殘酷的現(xiàn)實(shí)是，過(guò)去數(shù)十年間，通過(guò)工藝制程的提升改善芯片算力問(wèn)題的“老辦法”正在逐步失效——

摩爾定律正在走向物理極限，HBM、3D DRAM、更好的互聯(lián)等傳統(tǒng)“解法”也“治標(biāo)不治本”，晶體管微縮越來(lái)越難，提升算力性能兼具降低功耗這條路越走越艱辛。

隨著大模型時(shí)代來(lái)臨，激增的數(shù)據(jù)計(jì)算，無(wú)疑進(jìn)一步放大了“三道墻”的影響。

大模型呼喚“存算一體”

大模型的出現(xiàn)，促使AI對(duì)大規(guī)模芯片算力的需求更加強(qiáng)烈，按照傳統(tǒng)技術(shù)路線簡(jiǎn)單堆砌芯片無(wú)法實(shí)現(xiàn)期待的算力規(guī)模增長(zhǎng)。

同時(shí)，芯片能效問(wèn)題變得更加突出。當(dāng)前AI芯片能效依然低下，大模型每次訓(xùn)練和推斷的電費(fèi)成本昂貴，導(dǎo)致當(dāng)前大模型的應(yīng)用經(jīng)濟(jì)性較低。

雖然說(shuō)現(xiàn)在很多大模型訓(xùn)練使用GPU，但GPU的架構(gòu)演進(jìn)并未解決大算力和大模型的挑戰(zhàn)。

一方面，存儲(chǔ)在GPU中所占比例越來(lái)越大。從GPU架構(gòu)的演進(jìn)趨勢(shì)，可以看到存儲(chǔ)在計(jì)算芯片中所占的比例越來(lái)越大。計(jì)算芯片從以計(jì)算單元為核心演變到以存儲(chǔ)/數(shù)據(jù)流為核心的架構(gòu)設(shè)計(jì)理念。

另一方面，數(shù)據(jù)傳輸功耗仍是提升算力和算力密度的瓶頸，本質(zhì)上就是馮·諾依曼計(jì)算機(jī)體系結(jié)構(gòu)計(jì)算與存儲(chǔ)的分離設(shè)計(jì)所致。

總體而言，大模型對(duì)于算力的需求呈現(xiàn)指數(shù)型增長(zhǎng)，但GPU又貴功耗又高，GPU集群的線性度也隨規(guī)模增大而下降，探索非馮諾依曼架構(gòu)已經(jīng)非?；馃?。

AMD、特斯拉、三星、阿里巴巴等公司都曾在公開(kāi)場(chǎng)合表示，下一代技術(shù)的儲(chǔ)備和演進(jìn)的方向是在“存算一體”技術(shù)架構(gòu)中尋找新的發(fā)展動(dòng)能。

例如，阿里達(dá)摩院就曾表示，相比傳統(tǒng)CPU計(jì)算系統(tǒng)，存算一體芯片的性能可以提升10倍以上，能效提升超過(guò)300倍。

那么，“存算一體”技術(shù)到底有何優(yōu)勢(shì)？

存算一體與經(jīng)典的馮諾依曼架構(gòu)不同，它是在存儲(chǔ)器中嵌入計(jì)算能力，將存儲(chǔ)單元和計(jì)算單元合為一體，省去了計(jì)算過(guò)程中數(shù)據(jù)搬運(yùn)環(huán)節(jié)，消除了由于數(shù)據(jù)搬運(yùn)帶來(lái)的功耗和延遲，從而進(jìn)一步提升計(jì)算能效。

同時(shí)，由于計(jì)算編程模型被降低，編譯器也可以感知每一層的數(shù)據(jù)狀態(tài)，編譯效率也將大幅度提升，“編譯墻”的問(wèn)題也得到了解決，具體而言：

首先，運(yùn)算的性能更高

存算一體芯片的計(jì)算能力取決于存儲(chǔ)器的容量規(guī)模。所有電子設(shè)備當(dāng)中都會(huì)集成存儲(chǔ)器，存儲(chǔ)與計(jì)算相伴而行，有運(yùn)算的地方就需要對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)。

如果采用存算一體芯片，隨著存儲(chǔ)容量規(guī)模的提高，其運(yùn)算能力也會(huì)隨之提高。

其次，功耗更低

由于數(shù)據(jù)傳輸路徑的優(yōu)化，存算一體技術(shù)在提高傳輸效率的同時(shí)，節(jié)省了數(shù)據(jù)傳輸?shù)膿p耗，帶來(lái)更好的能效比、低功耗。在相同算力下，AI部分能效比將有2-3個(gè)數(shù)量級(jí)的提升，更低散熱成本，更高可靠性。

最后，成本更低

單位算力成本遠(yuǎn)低于傳統(tǒng)計(jì)算芯片。同時(shí)，存算一體可以采用更成熟的制造工藝，大算力芯片往往需要采用先進(jìn)工藝，這使存算一體芯片的晶圓成本低得多。

再考慮到配套的外圍芯片、元器件等因素，整個(gè)系統(tǒng)成本將有5倍左右降低。

正是因?yàn)檫@些基于基礎(chǔ)架構(gòu)革新所帶來(lái)的性能提升，存算一體技術(shù)有望在很大程度上解決AI大模型面臨的算力挑戰(zhàn)。

特別是針對(duì)大模型的推理，存算一體保持權(quán)重的特點(diǎn)與大模型中大規(guī)模的參數(shù)部署需求相匹配，可能是存算一體技術(shù)最先服務(wù)大模型應(yīng)用的場(chǎng)景之一。

“存算一體”存在多條路徑

目前，全球的存算一體玩家，主要可以劃分為兩大陣營(yíng)：

一類(lèi)是國(guó)際巨頭，比如英特爾、IBM、特斯拉、三星、阿里等，巨頭對(duì)存算技術(shù)布局較早，代表存儲(chǔ)器未來(lái)趨勢(shì)的磁性存儲(chǔ)器（MRAM）、憶阻器（RRAM）等產(chǎn)品也相繼在頭部代工廠傳出量產(chǎn)消息。

另一類(lèi)是國(guó)內(nèi)外的初創(chuàng)企業(yè)，比如Mythic、Tenstorrent、知存科技、后摩智能、千芯科技、億鑄科技、九天睿芯、蘋(píng)芯科技等。

由于積淀不同、優(yōu)勢(shì)不同、目標(biāo)場(chǎng)景不同，各家的存算一體方案也不盡相同，主要體現(xiàn)在三大差異上：技術(shù)路徑、存儲(chǔ)介質(zhì)、以及采用的是模擬還是數(shù)字技術(shù)。

差異一：技術(shù)路徑

根據(jù)存儲(chǔ)單元與計(jì)算單元融合的程度，可以分為近存計(jì)算和存內(nèi)計(jì)算兩類(lèi)：

近存計(jì)算，本質(zhì)上仍是存算分離架構(gòu)，只不過(guò)計(jì)算模塊通常安放在存儲(chǔ)陣列（memory cell array）附近，數(shù)據(jù)更靠近計(jì)算單元，從而縮小了數(shù)據(jù)移動(dòng)的延遲和功耗。

近存計(jì)算的典型代表有AMD Zen系列CPU、特斯拉 Dojo、阿里達(dá)摩院使用混合鍵合3D堆疊技術(shù)實(shí)現(xiàn)的存算一體芯片等，還有國(guó)外創(chuàng)業(yè)公司Graphcore、芯片大神Jim Keller加入的創(chuàng)業(yè)公司Tenstorrent等，他們目前推出的存算一體芯片都屬于近存計(jì)算的范疇。

存內(nèi)計(jì)算，存儲(chǔ)單元和計(jì)算單元完全融合，沒(méi)有獨(dú)立的計(jì)算單元：直接在存儲(chǔ)器顆粒上嵌入算法，由存儲(chǔ)器芯片內(nèi)部的存儲(chǔ)單元完成計(jì)算操作。

狹義上講，這才是真正的存算一體，或者說(shuō)，基于器件層面實(shí)現(xiàn)的存算一體才真正打破了存算分離架構(gòu)的壁壘。

一般來(lái)看，近存計(jì)算是巨頭的首選，因?yàn)榉稀皩?shí)用、落地快”的預(yù)期，而初創(chuàng)企業(yè)不存在路徑依賴(lài)和歷史包袱，反而可以另辟蹊徑，直接選擇存內(nèi)計(jì)算，以期向更高性能、更通用的算力場(chǎng)景進(jìn)行突圍。

差異二：存儲(chǔ)介質(zhì)

存算一體依托的存儲(chǔ)介質(zhì)呈現(xiàn)多樣化，比如以SRAM、DRAM為代表的易失性存儲(chǔ)器、以Flash為代表的非易失性存儲(chǔ)器等。綜合來(lái)看，不同存儲(chǔ)介質(zhì)各有各的優(yōu)點(diǎn)和短板。

發(fā)展較為成熟的有NOR Flash、DRAM、 SRAM等。

NOR FLASH屬于非易失性存儲(chǔ)介質(zhì)，具有低成本、高可靠性優(yōu)勢(shì)，但工藝制程有瓶頸；DRAM成本低、容量大，但是速度慢，且需要電力不斷刷新；SRAM在速度方面有優(yōu)勢(shì)，但容量密度小，價(jià)格高，在大陣列運(yùn)算的同時(shí)保證運(yùn)算精度具有挑戰(zhàn)。

目前多數(shù)廠商當(dāng)前傾向于技術(shù)成熟的SRAM設(shè)計(jì)存算一體芯片，但部分廠商也會(huì)采用“多駕馬車(chē)”并驅(qū)的發(fā)展路線布局未來(lái)。

差異三：數(shù)字or模擬？

按照電路技術(shù)路徑分類(lèi)，存算一體計(jì)算有數(shù)字存算和模擬存算的區(qū)分，兩者也有各自的優(yōu)缺點(diǎn)：

數(shù)字存算，更適合大規(guī)模高計(jì)算精度芯片的實(shí)現(xiàn)，運(yùn)算靈活性較好，更適合通用性場(chǎng)景，但要求存儲(chǔ)單元內(nèi)容必須以數(shù)字信號(hào)形式呈現(xiàn)。

模擬存算，在計(jì)算精度比較固定且較低的條件下，可以獲得更高的能量效率，同時(shí)可以搭載任意存儲(chǔ)單元實(shí)現(xiàn)。

但其關(guān)鍵模擬模塊（如A/D轉(zhuǎn)換器）的轉(zhuǎn)換精度要求相對(duì)固定，且由于不同模擬計(jì)算方式可能具有不同的計(jì)算誤差，因而這種技術(shù)路徑的擴(kuò)展性略顯不足。

近些年來(lái)，學(xué)術(shù)界在存算一體的各個(gè)方面都進(jìn)行了大量探索，提出了眾多存算一體加速器架構(gòu)，中科院微電子所、清華大學(xué)、斯坦福大學(xué)等單位制備出了存算一體芯片原型。

國(guó)內(nèi)也涌現(xiàn)出了一批存算一體初創(chuàng)企業(yè)，包括知存科技、后摩智能、億鑄科技、蘋(píng)芯科技等等，它們研發(fā)了基于SRAM、閃存、RRAM等存儲(chǔ)器的存算一體芯片，且已有產(chǎn)品問(wèn)世。

存算一體芯片面臨多重挑戰(zhàn)

雖然存算一體芯片被認(rèn)為是下一代芯片，但目前還處于起步階段，受限于成熟度，應(yīng)用范圍不夠廣泛，面臨著諸多挑戰(zhàn)，例如：

在芯片設(shè)計(jì)方面，架構(gòu)設(shè)計(jì)的難度和復(fù)雜度要求很高，同時(shí)市面上也缺乏成熟的存算一體軟件編譯器的快速部署、專(zhuān)用EDA工具輔助設(shè)計(jì)和仿真驗(yàn)證。

在芯片測(cè)試方面，流片之后，同樣缺乏成熟的工具協(xié)助測(cè)試。

在生態(tài)方面，缺乏相應(yīng)的與之匹配的軟件生態(tài)。

現(xiàn)階段各廠商開(kāi)發(fā)的存算一體芯片均基于自行定義的編程接口，缺乏統(tǒng)一的編程接口，造成了存算一體軟件生態(tài)的分散，不同廠商開(kāi)發(fā)的上層軟件無(wú)法互相通用，極大的影響了存算一體芯片的大規(guī)模使用。

總體而言，現(xiàn)階段的存算一體研發(fā)多數(shù)以零散的技術(shù)攻關(guān)為主，缺乏面向大算力方向的整體布局，也缺乏主導(dǎo)的應(yīng)用需求牽引，因此距離大規(guī)模進(jìn)入市場(chǎng)還有一定距離。

不過(guò)，大模型的到來(lái)，必將極大推動(dòng)存算一體的技術(shù)落地，其未來(lái)應(yīng)用潛力和部署規(guī)模都讓人期待。

面向大模型部署，從業(yè)者需要對(duì)存算一體進(jìn)行體系化布局，從算法、框架、編譯器、工具鏈、指令集、架構(gòu)、電路等跨層次協(xié)同設(shè)計(jì)，形成全棧式體系、工具鏈及生態(tài)鏈。

長(zhǎng)期來(lái)看，設(shè)計(jì)方法論、測(cè)試、量產(chǎn)、軟件、場(chǎng)景的選擇等全方位競(jìng)爭(zhēng)，將是各大廠商存算一體芯片發(fā)展和落地的關(guān)鍵。

【關(guān)于科技云報(bào)道】

專(zhuān)注于原創(chuàng)的企業(yè)級(jí)內(nèi)容行家——科技云報(bào)道。成立于2015年，是前沿企業(yè)級(jí)IT領(lǐng)域Top10媒體。獲工信部權(quán)威認(rèn)可，可信云、全球云計(jì)算大會(huì)官方指定傳播媒體之一。深入原創(chuàng)報(bào)道云計(jì)算、大數(shù)據(jù)、人工智能、區(qū)塊鏈等領(lǐng)域。

免責(zé)聲明：此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章，所有文字和圖片版權(quán)歸作者所有，且僅代表作者個(gè)人觀點(diǎn)，與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱：editor@fromgeek.com。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

科技云報(bào)道：“存算一體”是大模型AI芯片的破局關(guān)鍵？

下一篇