在整個云計算領(lǐng)域,能讓芯片規(guī)模化的用起來,是決定造芯是否成功的天花板。在拉斯維加斯的亞馬遜云科技2023 re:Invent則是完美詮釋了這一論調(diào)。
亞馬遜云科技2023 re:Invent開幕前兩個小時,有一場小型的歡迎晚宴,《星期日泰晤士報》南非站記者Arthur Goldstuck談到:“我們可能會目睹最重要的一場re:Invent,這次亞馬遜云科技的技術(shù)發(fā)布,在未來五年都會是極具意義的。”
參與者們好奇,在生成式AI幾乎席卷一切的背景下,一個處于領(lǐng)導者地位的云廠商,將會向外界講出怎樣的人工智能故事?
如果站在未來看當下,生成式AI可能是一場大型馬拉松,但亞馬遜云科技現(xiàn)在就已經(jīng)在勾勒出它的地圖。在亞馬遜云科技CEO Adam Selipsky長達兩個半小時的演講中,一張“生成式AI技術(shù)堆棧圖”圖貫穿了整場。
亞馬遜云科技“生成式AI技術(shù)堆棧圖”(Generative AI Stack)
從上圖可見,亞馬遜云科技搭建了三層AI堆棧:最底層是用于訓練和推理的「基礎(chǔ)設(shè)施層」,這里包括一些亞馬遜云科技的自研芯片;中間層是微調(diào)大模型或基礎(chǔ)模型需求的「工具層」;最上層是「生成式AI應用層」,這里包括此次新推出的生成式AI助理Amazon Q。
概括而言,亞馬遜云科技正在構(gòu)建一種范式,去盡可能匹配這個時代下的更多客戶的更多需求,正如Adam Selipsky所說——“我們在用一種跟傳統(tǒng)完全不同的方式探討生成式AI概念”。
不過,正所謂見微知著,我們決定將「芯片」,作為觀察今年亞馬遜云科技re:Invent新發(fā)布的切入點。
攝于2023 re:Invent一角
01
十年自研,逆向造芯
很多人了解亞馬遜云科技,知道它是全球領(lǐng)先云廠商,構(gòu)建底層軟件的能力非同一般。但大家可能不那么了解的是,亞馬遜云科技還是一個在芯片及硬件層有深厚技術(shù)底蘊的公司。
早在十年前的2013年起,亞馬遜云科技就開始自研芯片,至今已形成了一個芯片全家桶,包括四個系列:
構(gòu)成云服務技術(shù)底層核心的虛擬化芯片Amazon Nitro
通用處理器芯片Amazon Graviton
用于機器學習的“訓練”芯片Amazon Trainium和用于機器學習的“推理”芯片Amazon Inferentia
而且實際上,近年來亞馬遜云科技一直在年中舉辦“亞馬遜云科技硅芯片創(chuàng)新日”,與產(chǎn)業(yè)交流相關(guān)創(chuàng)新。就在今年6月的2023年芯片創(chuàng)新日,Amazon EC2副總裁Dave Brown回憶起2012年,當時亞馬遜云科技是如何進入芯片設(shè)計的故事。一晃,已是十年。
他描述了一群領(lǐng)導者,包括 Peter DeSantis 和 James Hamilton,如何設(shè)想“增加一個硬件設(shè)備來增強亞馬遜云科技的安全性和性能”——這個簡單的想法,開啟了一個全新的時代,帶來了多種定制的芯片產(chǎn)品。
而在此次re:Invent,就有兩款亞馬遜云科技自研芯片有了重大升級,分別是:
Amazon Graviton4
Amazon Trainium2
Amazon Graviton4 和Amazon Trainium (原型) (Business Wire提供)
Amazon Graviton系列芯片,無疑是芯片發(fā)展史上濃墨重彩的發(fā)明。提起ARM架構(gòu)的云端芯片,大家似乎不陌生。但如果把時鐘撥回到6年前,雖然當時業(yè)界已經(jīng)通過iPhone,認可了ARM架構(gòu)是移動端CPU的好選擇。但是,開發(fā)并規(guī)?;逃肁RM架構(gòu)的服務器CPU,還是前無古人的創(chuàng)舉。
而亞馬遜云科技就是那個開創(chuàng)者,Amazon Graviton第一代誕生于2018年,“現(xiàn)在接近10%的服務器總銷售額是ARM,其中很大一部分來自亞馬遜云科技。在CPU方面,這家公司做得很好。”Bernstein Research高級分析師Stacy Rasgon在一次接受采訪中如是說。
本次大會,Amazon Graviton已經(jīng)更新到第四代,但依然沒有放慢高速增長的步伐。據(jù)悉,與前一代相比,Amazon Graviton4性能提升30%,獨立核心增加50%,對于高并發(fā)等應用所需要的內(nèi)存帶寬,更提升75%,并且,還進一步通過高速物理硬件接口的完全加密提升了安全性。
熟悉造芯的朋友們都知道,設(shè)計和成功流片一顆新架構(gòu)的芯片只是造芯的基本功,而能讓芯片規(guī)?;挠闷饋?,才是決定造芯是否成功的天花板。
在管理理念上,亞馬遜內(nèi)部有一招很特別的法門,叫做“working backwards逆向工作法”。亞馬遜云科技的成功造芯,或許正與此有關(guān)。
關(guān)于“逆向工作法”,曾經(jīng)貝索斯在2008年致亞馬遜公司股東的信中所做解釋大意如下:如果我們能很好了解顧客需求,并深信這種需求是有長期價值。那么,我們的一貫做法是——耐心探索,直至找到解決方案……從顧客需求出發(fā)的“逆向工作法”(Working backwards)與“技能導向法”(skills-forward)形成鮮明對比。
簡單來說,逆向工作法,就是先研究需求,再根據(jù)需求創(chuàng)造相應工具;而技能導向法,則是手里拿著一個錘子,看什么都像釘子。
亞馬遜云科技的造芯過程,某種程度就遵循了逆向工作法。以亞馬遜云科技最早的硬件系統(tǒng)Amazon Nitro為例。它的出現(xiàn),就是為了解決Xen架構(gòu)的虛擬化系統(tǒng)的資源消耗問題——服務器中大概只有七成的資源能夠提供給用戶。而Amazon Nitro針對虛擬化損耗,提出定制化硬件的思路,最終提供了裸機的性能。
而在與用戶應用關(guān)系度更緊密的CPU層面,亞馬遜云科技提供了針對不同負載優(yōu)化的計算實例類型,來推動芯片的落地應用,從計算密集型、內(nèi)存密集型,再到存儲、IO敏感、吞吐敏感、網(wǎng)絡(luò)延遲敏感等,一應俱全。
針對最新的Amazon Graviton4,亞馬遜云科技就提供了Amazon EC2 R8g內(nèi)存優(yōu)化性實例,可以提升客戶運行高性能數(shù)據(jù)庫、內(nèi)存緩存、大數(shù)據(jù)分析等工作負載的效率。R8g實例相比當前一代R7g實例提供更大的實例大小,虛擬處理器(vCPU)以及內(nèi)存均提升了3倍。這讓用戶可以處理更大量的數(shù)據(jù)、更大規(guī)模的工作負載、更快的獲得運行結(jié)果,并降低總擁有成本。基于Amazon Graviton4的R8g實例現(xiàn)已提供預覽版,并將在未來幾個月推出正式可用版。
對于Amazon Graviton的設(shè)計方式,同樣是從逆向工作法開始的,Amazon Graviton自發(fā)布以來,它的設(shè)計出發(fā)點就是用戶的實際工作負載,而不是測試軟件的benchmark。通過一個“六邊形性能分析”可以看到,Amazon Graviton4相比上一代是如何在數(shù)據(jù)應用中提升性能。這些性能的提升不僅僅存在于re:Invent上,更在客戶每次用實際工作負載來測試Amazon Graviton芯片中。
Amazon Graviton4的六邊形性能分析,以及在Amazon Graviton3和Amazon Graviton4上運行的MySQL示例
據(jù)統(tǒng)計,目前由Amazon Graviton支持的Amazon EC2實例種類達150多個,已經(jīng)構(gòu)建的Amazon Graviton處理器數(shù)量超過200萬個,并擁有超過5萬客戶,包括Datadog、DirecTV、Discovery、Formula 1 (F1)、NextRoll、Nielsen、Pinterest、SAP、Snowflake、Sprinklr、Stripe以及Zendesk等。例如SAP,在使用Amazon Graviton服務之后,成本降低了35%,且分析速度更快,同時減少了45%的碳排放量。
不過我猜,Arthur Goldstuck和很多人在內(nèi),在re:Invent期間更關(guān)注的一顆芯,會是Amazon Trainium系列,因為這是面向模型“訓練”的芯片,而這部分,算力的瓶頸問題眾人皆知。
此次大會發(fā)布的Amazon Trainium2,是一款專為基礎(chǔ)模型和大模型而生的產(chǎn)品,為擁有數(shù)千億甚至數(shù)萬億個參數(shù)的基礎(chǔ)模型訓練做了優(yōu)化,相比第一代Amazon Trainium(發(fā)布于2020年12月),性能提升4倍,內(nèi)存提升3倍,能效(每瓦性能)提升2倍,幾乎全線超過摩爾定律所定義的范疇。
同樣,亞馬遜云科技也有相同的實例推動新系列的落地。Amazon EC2 Trn2實例就采用了Amazon Trainium2,一個單獨實例中包含16個Amazon Trainium芯片,Trn2實例可幫助在下一代EC2 UltraCluster中擴展到10萬個Amazon Trainium2,通過搭配Amazon Elastic Fabric Adapter (EFA) 網(wǎng)絡(luò)互連,提供65 ExaFlops超算級性能。基于此,客戶只用幾周就能訓練出有3000億個參數(shù)的大模型,這約是OpenAI的大模型GPT-3大小的1.75倍。
在這場發(fā)布的間隙,在采訪中被問道“造芯對于客戶帶去什么價值”時,亞馬遜云科技全球汽車及制造行業(yè)專業(yè)服務團隊負責人Jon Allen表示:
“客戶想要更快的、更便宜的東西,這是基本原則。”無疑,這也是非?!澳嫦蚬ぷ鞣ā钡囊粋€回答。他以汽車業(yè)務舉例,“真正訓練一輛自動駕駛汽車,起碼得開車跑900萬英里,如果用傳統(tǒng)方式做數(shù)據(jù)訓練,很多OEMs客戶可能根本負擔不起”。
02
生成式AI大時代,有自研,但不影響聯(lián)盟
雖然亞馬遜云科技一直持續(xù)自研芯片,但是封閉并非這家公司的基因。而在生成式AI時代起決定性作用的另外一家巨頭,英偉達創(chuàng)始人兼CEO黃仁勛穿著標志性皮衣,甚至作為此次re:Invent的首位上場的合作伙伴,與Adam Selipsky進行了一場對話,在對話中黃仁勛提到:
“生成式AI正改變各種云端負載,為多元內(nèi)容創(chuàng)作在底層注入加速計算動能。我們的共同目標是,為每個客戶提供具有成本效益的先進生成式AI,為此英偉達與亞馬遜云科技在整個計算堆棧展開合作,橫跨AI基礎(chǔ)設(shè)施、加速庫(acceleration libraries)、基礎(chǔ)模型、以及生成式AI服務。”
在真正的創(chuàng)新者面前,重要的不是是否有競爭,而是雙方是否有能滿足客戶需求的能力,顯然,亞馬遜云科技和英偉達都在對方身上看到了這一點。
“GPU和GPU之間用NV link連接方式讓我們的GPU可以直接存取CPU的記憶體,CPU可以直接使用GPU的記憶體,這是非常快地進行的。在更大的網(wǎng)絡(luò)中,通過Grace Harper鏈接在一起。Amazon Nitro可以將GH變成一顆巨大的虛擬化的GPU。這么多的實例,我們可以跟亞馬遜云科技EFA兼容起來用,這也是非??焖俚乃俣葋磉\用的,所有單元都可以變成超級的集群。”黃仁勛說道。
約13年前,亞馬遜云科技是第一家把英偉達GPU芯片帶到云上的云廠商,而接下來,雙方還將擴大合作,主要包括四個方面:
亞馬遜云科技成為第一家在云端配備英偉達GH200 Grace Hopper超級芯片的云廠商。英偉達GH200 NVL32多節(jié)點平臺為運用英偉達NVLink與NVSwitch技術(shù)連接32個Grace Hopper Superchips組成的實例。此平臺將在Amazon Elastic Compute Cloud(Amazon EC2)實例上可用,與亞馬遜云科技的網(wǎng)絡(luò)相連,由虛擬化(Amazon Nitro System)及超大規(guī)模集群(Amazon EC2 UltraClusters)提供支持,讓共同客戶能擴展至數(shù)千個GH200超級芯片。
在亞馬遜云科技平臺上將推出英偉達DGX Cloud NVIDIA AI“訓練即服務(AI-training-as-a-service)”。此服務將是首個配置GH200 NVL32的DGX Cloud,為開發(fā)者提供單一實例中最多的共享內(nèi)存。在亞馬遜云科技上運行的DGX Cloud將加速訓練含有超過1兆參數(shù)的尖端生成式AI與大型語言模型。
英偉達與亞馬遜云科技合作推動Project Ceiba,構(gòu)建全球最快的GPU驅(qū)動的AI超級計算機,這是一個配備GH200 NVL32與Amazon EFA互連技術(shù)的大規(guī)模系統(tǒng),該系統(tǒng)部署在亞馬遜云科技上,為英偉達研發(fā)團隊提供服務。該超級計算機將前所未有地配置16384顆英偉達H200超級芯片,能處理65 exaflops(衡量超級計算機性能的單位,每秒浮點運算可達一百億億次)速度等級的AI運算,英偉達使用該超級計算機推動其全新生成式AI的創(chuàng)新。
亞馬遜云科技將推出三款Amazon EC2實例:P5e實例配置英偉達H200 Tensor Core GPUs,針對大規(guī)模與尖端生成式AI及HPC高性能運算工作負載;分別配置英偉達L4 GPUs與英偉達L40S GPUs的G6與G6e實例,可運行包括AI微調(diào)、推理、繪圖以及影片工作負載等廣泛應用。G6e實例特別適用于開發(fā)3D工作流程、數(shù)字孿生、以及其他使用英偉達Omniverse的應用,用來連接與構(gòu)建各種生成式AI的3D應用。
提到大模型,總有人認為這是巨頭的游戲。但是Jon Allen不這么看,“對中小企業(yè)和創(chuàng)業(yè)公司來說,我們的AI芯片帶給他們與寶馬等汽車巨頭相同的計算能力。十年前的硅谷,只有十幾人的小公司根本無法負擔高昂的算力(與大玩家競爭)。現(xiàn)在不一樣了,AI芯片確實創(chuàng)造了新機會?!?/strong>
免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 100億美元史上最大融資的背后,國內(nèi)外巨頭齊瞄準Data+AI
- 有一種羨慕叫“別人家的年終獎”:京東采銷平均23薪,全網(wǎng)熱議“人的價值”
- 行業(yè)首個“人機大戰(zhàn)”對壘!AI翻譯已媲美人工
- 蘋果開啟年終大促,降價1200元,被國產(chǎn)手機嚇怕了?
- 1999 元起,OPPO A5 Pro 超防水、超抗摔、超耐用
- 長三角,如何把數(shù)據(jù)要素變成新長江?
- 大模型,在內(nèi)卷中尋找出口
- 比亞迪“天神之眼”重磅升級:無圖城市領(lǐng)航功能全國開通
- 不愿成為微信的支付寶,注定失敗
- 大廠年終獎全靠猜?京東帶頭透明化
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。