前段時間,我們?nèi)咨钜呀?jīng)給大家分析過Arm最新一代的CPU和GPU架構(gòu)設(shè)計,不過當(dāng)時的資料主要還是來源于官方博客文章,以及面向大眾公布的相關(guān)信息。
考慮到這些資料的宣傳目的,它們通常并不會講得特別詳細(xì),特別是在一些技術(shù)細(xì)節(jié)、研發(fā)背景等方面往往會比較為缺乏。這也就是為什么我們會在當(dāng)時的內(nèi)容中指出其中的一些性能對比的數(shù)據(jù)缺乏參數(shù)說明,甚至可能會影響到可信度的原因。
日前在參與了Arm方面召開的技術(shù)溝通活動,并與相關(guān)專家們近距離接觸后,我們也終于得以為大家揭示更多關(guān)于Arm最新一代消費(fèi)級計算終端平臺的更多細(xì)節(jié)。
從X4到X925,命名規(guī)則大改背后的邏輯
這次首先要說的,就是Arm本世代產(chǎn)品線的命名改變。
眾所周知,過去Arm的“超大核”在命名上采用了很特別的單位數(shù)規(guī)則,即從Cortex-X1到X4。這些名稱有兩個好處,其一是它可以清晰地表明架構(gòu)的代次,第二點就是這種單位數(shù)命名完全不同于大核(Cortex-A700系列)和小核(Cortex-A500系列)的形式,會讓人“一眼就感受到”超大核的特殊地位。
但這種情況,在這一代上明顯發(fā)生了改變。按照Arm方面最開始的說法,他們之所以要將新的超大核命名為Cortex-X925,主要是想要體現(xiàn)其(相對于以前的Cortex-X系列)取得了有史以來最大的代際性能進(jìn)步。
有意思的是,當(dāng)我們?nèi)咨钐岢?,新的命名反而可能會讓這一代的“超大核”看起來顯得不那么“特別”后,Arm方面顯得相當(dāng)驚訝,但他們也因此進(jìn)行了一些很有價值的補(bǔ)充說明。
其一,是Cortex-X925這次雖然換用了與大核、小核相同“規(guī)則”的命名方式,但它的定位并沒有降低,依然是旗艦專屬。Arm方面的相關(guān)人士甚至還專門強(qiáng)調(diào),Cortex-X925并不會成為通用產(chǎn)品,Cortex-X 系列持續(xù)定位為Arm和合作伙伴定制合作的專用旗艦平臺。
其次在Arm方面看來,Cortex-X925這個新的名稱,也有為了顯示其與新的Immortalis-G925旗艦GPU“相配”的意思。當(dāng)然,這對于Arm在推廣旗艦組合方面,也可以讓客戶和生態(tài)伙伴更易于連結(jié)。
智能手機(jī)何必只有8核,Arm已經(jīng)鋪平了道路
其次,在提到如今智能手機(jī)SoC中CPU的核心布局時,許多朋友想必首先都會想到“8核CPU”這個概念。即便是在最近這兩年,一些頂級旗艦SoC里的“大中小”CPU核心組合比例發(fā)生了各種各樣的變化,但它們絕大多數(shù)還是維持在“總共8核”的水平上。
但是在我們?nèi)咨羁磥?,如今這種對于“8核CPU”的堅持,其實未必是源自軟件優(yōu)化方面的需求,因為具體到應(yīng)用上,實際上并沒有幾個軟件真的能夠“完全吃滿”8個CPU線程。在實際使用中,反而更多的場景都是許多軟件在“共享”CPU的資源,它們有的可能只能用到1顆核心、有的可以用到2核心,還有的可能可以同時使用4個核心,靠的都是手機(jī)自身在進(jìn)行智能調(diào)度。
換句話說,實際上對于如今的智能手機(jī)而言,超過8顆的CPU核心設(shè)計未必會有什么優(yōu)化問題。因為根據(jù)Arm新發(fā)布的終端CSS,連接CPU核心的DSU-120可支持高達(dá)14顆核心,而且,Arm實際上在最新一代的產(chǎn)品組合里,就提供了相當(dāng)有“想象力”的CPU組合方案,比如它甚至可以支持12顆Cortex-X925搭配2顆Cortex-A725、從而組成驚人的14核CPU配置。
在此基礎(chǔ)上,綜合各方面的已知信息來看,真正制約了如今智能手機(jī)SoC核心數(shù)量的因素,其實是芯片設(shè)計時的面積控制需求。比如Arm的發(fā)言人就提到,最近幾年手機(jī)SoC里的CPU部分所占用的面積幾乎是“原地踏步”。而在我們?nèi)咨羁磥?,為了給其他更“熱門”的計算單元(比如ISP或NPU)騰出面積,或許才是導(dǎo)致芯片廠商大多不敢突破8核心CPU的原因所在。
針對這一點,Arm終端CSS可以彈性面向多樣市場。比如,他們?yōu)橹髁飨M(fèi)技術(shù)市場提供Cortex-A725的面積優(yōu)化實現(xiàn)。這種設(shè)計下的Cortex-A725雖然跑不到很高的頻率,卻可以顯著縮小面積、同時保障IPC和能效不降低。筆者認(rèn)為,這其實就是在鼓勵有“追求”的SoC廠商可以“大核當(dāng)小核用”,從而塞進(jìn)更多的大核、甚至是超大核在他們的SoC里。
重視光柵性能提升,Arm新款GPU的方向?qū)α?/strong>
除了更大膽的CPU設(shè)計,Arm這一代的GPU方案也有一些潛在的亮點。
首先從基本的產(chǎn)品規(guī)劃上來看,大家已經(jīng)知道Arm這代的GPU包含三條產(chǎn)品線,即Immortalis-G925、Mali-G725和Mali-G625。
在此前的產(chǎn)品解析內(nèi)容里我們?nèi)咨钜呀?jīng)提到,這一代的三款GPU本質(zhì)上采用的都是相同架構(gòu),它們的區(qū)別主要體現(xiàn)在明顯的核心數(shù)量差異,以及對光線追蹤的支持與否上。
但實際上在我們這次與Arm方面的溝通中得知,這一代的Mali-G725 GPU盡管在官方資料中并沒有光追的相關(guān)標(biāo)注,但實際上也可以被配置為支持光追。
看到這里,可能有些PC玩家會產(chǎn)生不好的聯(lián)想。因為這是否意味著未來我們會看到一些“不夠高端”的SoC,用著中端配置的Mali GPU,卻公然宣傳支持“旗艦級光追特性”呢?
雖然不能完全否定這種可能性,但值得關(guān)注的是,至少在這一代的GPU基礎(chǔ)架構(gòu)上,Arm的設(shè)計思路是極為“務(wù)實”的。比如Immortalis-G925現(xiàn)在支持更多的著色器數(shù)量,同時它的底層圖塊吞吐量和著色器作業(yè)分配的速度都得到了顯著提升。
除此之外,通過與Epic Games以及Google和聯(lián)發(fā)科的合作,Arm GPU現(xiàn)在可以支持桌面級的虛幻5渲染器、用于光線追蹤的Lumen光照解決方案,以及安卓動態(tài)性能框架(Android Dynamic Performance Framework),從而實現(xiàn)更復(fù)雜的主機(jī)級游戲光線追蹤品質(zhì),以及更高分辨率、更清晰的游戲視覺效果。
如果將這種做法與當(dāng)前PC上的顯卡功能方向去進(jìn)行對比就會發(fā)現(xiàn),事情變得有那么一點點諷刺了。因為PC上的GPU現(xiàn)在普遍在追求用AI去“縮放”游戲畫面,這是因為它們本身的光柵性能進(jìn)步幅度追不上顯示器分辨率、刷新率的升級速度。
但是Arm則沒有這樣去“取巧”,雖然如今智能手機(jī)的游戲真實渲染分辨率也普遍低于屏幕的物理分辨率,可他們還是選擇了實打?qū)嵉貜?qiáng)化GPU的硬件光柵能力。所以至少在解決問題的態(tài)度上,Arm這樣的做法目前顯然也更值得去點贊。
專注CPU AI加速,Arm的優(yōu)化方案很務(wù)實
最后必須要提及Arm的Kleidi軟件庫,這是一種旨在提升Arm處理器AI性能的官方軟件優(yōu)化方案。但是與大家熟知的其他一些智能手機(jī)AI加速技術(shù)相比,它又有著一些格外的特別之處。
首先,Kleidi專注于加速CPU上的AI性能,而并不依賴于GPU或NPU。這就會帶來一些顯著的好處,比如它完全可以在那些使用非Arm架構(gòu)NPU、GPU的SoC上起作用,而且相比于架構(gòu)五花八門的NPU和GPU,Arm的CPU在如今的移動平臺(特別是智能手機(jī))上顯然要“普及”得多的。所以這就意味著Kleidi可以很容易地觸及更多設(shè)備,而且適配、優(yōu)化起來也更容易,成本更低。
其次,雖然Kleidi是與Arm 2024年的產(chǎn)品線同期發(fā)布,但這并不意味著它只能支持最新的Arm CPU。事實上,Arm方面在設(shè)計Kleidi時,就已經(jīng)考慮到了對于老平臺的兼容性,它甚至可以用在“古老”的Arm V8指令集CPU上,去使用NEON這樣的老指令集去實現(xiàn)AI加速效果。
Arm方面通過實驗證明,僅僅通過代碼優(yōu)化就可以讓現(xiàn)有機(jī)型提升數(shù)十倍的AI生成速度
而且Kleidi也不需要開發(fā)者去學(xué)習(xí)某種全新的AI框架,Arm方面直接與MediaPipe、LLAMA.cpp、PyTorch和TensorFlow Lite進(jìn)行了合作集成。開發(fā)者可以很容易地讓主流AI功能在各種Arm設(shè)備,比如手機(jī)、Windows PC上“跑起來”,切實地加快相關(guān)應(yīng)用和功能的落地速度。
最后,Arm方面還正在與Unity合作開發(fā)端側(cè)推理引擎Sentis。它可以在所有支持Unity游戲引擎的設(shè)備上實現(xiàn)AI游戲體驗,將游戲中的AI模型內(nèi)存占用率降低72.5%,同時提升特定AI框架在游戲中的性能多達(dá)660%??雌饋碛螒蛐袠I(yè)已經(jīng)在開始熱議的“分布式文案和生成式對話”,說不定首先會在手游領(lǐng)域落地了。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )