用“AI核彈”飽和攻擊的英偉達,如何贏下AI計算新賽場?

原標題:用“AI核彈”飽和攻擊的英偉達,如何贏下AI計算新賽場?

在2012年的ImageNet挑戰(zhàn)賽(ILSVRC)上,深度卷積神經網絡AlexNet橫空出世,在圖像分類識別領域實現(xiàn)了質的飛躍,被認為是AI時代的標志性事件,代表著深度學習時代的正式開端。

在此之前,深度學習“如何出圈”的一大挑戰(zhàn),就是深度神經網絡訓練面臨算力不足的難題。而讓AlexNet實現(xiàn)算力突破的關鍵,就在于當時研究者使用了英偉達的GPU。

GPU一戰(zhàn)成名,成為伴隨AI技術一同進化的基礎設施。英偉達也同時抓住了AI計算的新增長機遇。隨著AI算力要求的爆炸式增長,英偉達GPU產品系列也經歷了多輪的升級。

現(xiàn)在,英偉達的GPU家族又迎來一次 “史上最大”的性能升級。而此次升級距離上一次發(fā)布“地表最強AI芯片”Tesla V100已經過去三年。

三年蟄伏,一鳴驚人。

(NVIDIA A100 GPU)

英偉達首次推出第8代安培GPU架構,以及首款基于安培架構的NVIDIA A100 GPU,采用7nm工藝,在和上一代Volta架構V100 GPU幾乎相同面積的晶圓上放置了超過540億個晶體管,晶體管數量增長了2.5倍,但尺寸卻僅大了1.3%,而在AI訓練和推理算力上,均較上一代Volta架構提升20倍,HPC性能提升到上一代的2.5倍。

A100 GPU的獨特之處在于,作為一個端到端機器學習加速器,第一次在一個平臺上面統(tǒng)一了AI訓練和推理,同時也將作為數據分析、科學計算和云圖形設計等通用工作負載的加速器。簡單來說A100 GPU就是為數據中心而生的。

在A100 GPU的基礎上,英偉達同時發(fā)布了全球最強AI和HPC服務器平臺——HGX A100,全球最先進的AI系統(tǒng)——DGX A100系統(tǒng),以及由140個DGX A100系統(tǒng)組成的DGX SuperPOD集群。此外,還有涉及智能網卡、邊緣AI服務器、自動駕駛平臺合作以及一系列軟件層面的平臺型產品的發(fā)布。

可以說,英偉達這次不是放出一顆“核彈”,而是一個“核彈集群”,還是飽和攻擊的那種。英偉達從云端到邊緣再到端側,從硬件到軟件再到開源生態(tài),幾乎建立起一個堅不可摧的AI計算的壁壘,同時也將AI芯片的競爭帶上了一個小玩家難以企及的高度。

英偉達的AI服務器芯片業(yè)務正在發(fā)生哪些新變化?A100 GPU的發(fā)布,對于AI服務器芯片市場有哪些影響,以及對于云計算市場帶來哪些變化?這成為我們在“看熱鬧”之余,要重點探討的幾個問題。

AI服務器芯片:英偉達AI計算增長新極點

眾所周知,游戲、數據中心、專業(yè)視覺化以及自動駕駛等新興業(yè)務是英偉達的四大核心業(yè)務板塊。其中,游戲業(yè)務雖仍然是營收的支柱板塊,但是受到PC游戲市場趨于飽和并向移動端轉移的影響,獨顯業(yè)務的比重正在逐步縮?。粚I(yè)視覺化業(yè)務一直為英偉達貢獻著穩(wěn)定營收,但受其他業(yè)務增長的影響,業(yè)務占比也在持續(xù)下滑;自動駕駛等新興業(yè)務板塊,目前只占整體應收的很小部分,且增速有限,但可以看作是英偉達未來的長線市場。

(Nvidia: Sequential Revenue Change)

最明顯的則是英特爾在數據中心業(yè)務板塊的增長。近幾年中其營收大部分時間處于高速增長狀態(tài),且營收占比逐步靠近游戲業(yè)務。

根據英偉達最新的2020財年Q4財報數據顯示,”游戲“收入高達14.9億美元,約占總營收的47%;而增長強勁的數據中心板塊,AI服務器芯片的營收達到9.68億美元,同比增長了42.6%,,逼近10億美元大關,遠遠超出市場預期的8.29億美元。

整體上,隨著全球數據中心,特別是超大型數據中心,對AI芯片需求的加速擴張,英偉達的AI服務器芯片也迎來了高速增長,正在躍升為英偉達最具有市場拓展?jié)摿Φ臉I(yè)務分支。

從業(yè)務增長的前景上看,英偉達推出A100 GPU服務器芯片以及AI系統(tǒng)集群,所要把守住的正是在當前數據中心中AI服務器市場的霸主地位。

那么,英偉達正在如何構建這一AI服務器芯片的產品體系呢?

一般來說,對于深度神經網絡算法模型,其模型框架的訓練需要涉及非常龐大的數據計算,但運算方法要求又相對簡單,所以需要在云端進行大量高并行、高效率和高數據傳輸的運算。因此相較于擅長復雜邏輯運算、但核心數較少的CPU,擁有多個計算單元的GPU更適合于進行深度神經網絡的訓練任務。

這是英偉達的GPU在全球云端AI服務器芯片市場,尤其是訓練端,贏得市場先機的根本原因。與此同時,英偉達針對一系列AI服務開發(fā)的完備的TESLA GPU產品線以及成功布局針對GPU的“CUDA”開發(fā)平臺,才是英偉達在AI服務器芯片市場一家獨大的主要原因。

從2016年推出第一個專為深度學習優(yōu)化的Pascal GPU,到2017年又推出性能相比Pascal提升5倍的新GPU架構Volta,再到現(xiàn)在推出比Volta性能高20倍的Ampere(安培)架構,英偉達在數據中心的GPU產品一直成功實現(xiàn)高速且穩(wěn)定的性能提升。

此外,英偉達推出了神經網絡推理加速器TensorRT,可以為深度學習應用提供低延遲、高吞吐率的部署推理加速,兼容目前幾乎所有主流的深度學習框架,使其能夠滿足超大數據中心從AI訓練到部署推理的完整的AI構建。

而在去年3月,英偉達宣布以68億美金收購了以色列網絡通信芯片公司Mellanox。通過對Mellanox的加速網絡平臺的整合,英偉達可以解決通過智能網絡結構連接大量快速計算節(jié)點,以形成巨大的數據中心規(guī)模計算引擎的整體架構。

就在發(fā)布A100 GPU的同時,英偉達也基于Mellanox技術,推出全球第一款高度安全、高效的25G/50G以太智能網卡SmartNIC,將廣泛應用于大型云計算數據中心,大幅優(yōu)化網絡及存儲的工作負載,實現(xiàn)AI計算的更高安全性和網絡連接效能。

當然,收購Mellanox的意義不止于此,除了解決高性能的網絡連接和算力輸出問題,英偉達還將也擁有GPU、SoC、NPU面向不同細分領域的三大處理器,這意味著英偉達已基本具備了獨立打造 AI 數據中心的能力。

整體上,隨著云端數據中心正在從傳統(tǒng)的數據存儲向著進行深度學習、高性能計算(HPC)和大數據分析的方向演變,英偉達也將在其中扮演著更加重要的AI計算服務商的角色。

跨越英偉達的堅壁高墻,AI計算競賽加劇

當然,云端AI服務器芯片市場還遠未到格局已定的地步,反而在2019年迎來最激烈的競爭態(tài)勢。

英偉達的GPU產品,因其高耗能和高價格一直制約著云計算數據中心的AI算力的成本。從服務器芯片市場的另一位大佬英特爾,到AMD、高通,云計算服務商亞馬遜、谷歌、阿里、華為以及眾多新興的AI芯片創(chuàng)業(yè)公司,都在積極投入云端AI服務器芯片的研發(fā),尋求替代GPU的解決方案??梢娞煜驴唷癎PU”久矣。

在2019年,相比英偉達的略顯沉寂,其他各家則紛紛推出了自己的AI服務器芯片產品。比如去年上半年,英特爾、亞馬遜、Facebook以及高通都陸續(xù)推出或宣布推出自己的專用AI服務器芯片,試圖在AI推理運算上實現(xiàn)對GPU和FPGA的替代。年中,我國的主要云端AI廠商也集體發(fā)力,寒武紀在6月宣布推出第二代云端AI芯片思云270;8月,華為正式發(fā)布算力最強的AI處理器Ascend910及全場景AI計算框架MindSpore;9月,阿里推出當時號稱全球最強的AI推理芯片含光800,基本都在對標英偉達的T4系列產品。

在所有AI芯片的競爭者中,作為第二名的英特爾顯然是最想挑戰(zhàn)英偉達的霸主位置,也是最有可能挑戰(zhàn)英偉達的代表。

作為通用服務器芯片的傳統(tǒng)巨頭,英特爾最有可能的策略就是把GPU和AI都融入到自己的CISC指令集和CPU生態(tài)中,也就是把CPU和GPU部署在一起,云服務商們只需購買一家的產品,就能更好地發(fā)揮AI計算的效能。

在All IN AI的英特爾那里,他們是如何來構建這一AI計算策略的?

英特爾最先補足的就是AI硬件平臺版圖,而收購則是最快的方案。2015年,英特爾先是天價收購了FPGA的制造商Altera,一年后又收購了Nervana,為全新一代AI加速器芯片組奠定了基礎。

去年12月,英特爾再次花掉20億美元高價收購了成立僅3年的以色列數據中心AI芯片制造商Habana Labs。與英偉達收購Mellanox一樣異曲同工,通過收購Habana,英特爾也將補足數據中心場景下的通信和AI兩種能力。

受到這一收購的激勵,英特爾宣布停止去年8月才發(fā)布的用于AI訓練的Nervana NNP-T,轉而專注于推進Habana Labs的Gaudi和Goya處理器產品,以對標英偉達的tesla V100和推理芯片T4。此外,一款基于Xe架構的GPU也將在今年中旬面世。

在軟件層面,為應對異構計算帶來的挑戰(zhàn),英偉達在去年11月發(fā)布了OneAPI公開發(fā)行版。不管是CPU、GPU、FPGA還是加速器,OneAPI都嘗試最大程度來簡化和統(tǒng)一這些跨SVMS架構的創(chuàng)新,以釋放硬件性能。

盡管英特爾以“全力以赴”的姿態(tài)投入到AI計算當中,通過四處出手收編了涵蓋GPU、FPGA 到ASIC的AI芯片產品陣列,并建立了廣泛適用的軟硬件生態(tài)。但是在挑戰(zhàn)英偉達的通用GPU產品上面,仍然還有一定距離。

首先,英特爾通過CPU適用于AI計算的策略一直未能得到主要云計算廠商的青睞,大多數廠商仍然樂于選擇CPU+GPU或FPGA的方案來部署其AI訓練的硬件方案。而GPU仍然是英偉達的主場,V100和T4仍然是當下數據中心主流的通用GPU和推理加速器。

其次,英特爾在AI芯片的布局才剛剛發(fā)力,受到Nervana AI芯片一再延遲的影響,Habana產品才剛剛開始進行整合,這將使得英特爾短期內難以挑戰(zhàn)英偉達的AI服務器芯片的市場份額。

而現(xiàn)在英偉達最新的安培架構的A100 GPU以及AI系統(tǒng)集群的發(fā)布,更是給英特爾以及市場其他競爭對手一場飽和攻擊。盡管說,長期來看云計算廠商和AI服務器芯片廠商開發(fā)的定制芯片會侵蝕一部分GPU的份額,而如今都要先跨越英偉達A100所搭起的AI計算的堅壁與高墻。

AI計算升級,帶來數據中心全新布局方案

我們先看數據中心本身的變化。受到AI相關應用需求和場景的爆發(fā)式增長,中小型數據中心無法承受如此巨量的“AI計算之痛”,市場對超大型數據中心的需求越發(fā)強烈。

第一,以亞馬遜AWS、微軟Azure、阿里、谷歌為代表的公有云巨頭,正在占據超大型數據中心的主要市場份額。一方面,超大型數據中心將帶來更多的服務器及配套硬件的增長;另一方面,AI算法的復雜度增加和AI處理任務的持續(xù)增長,又需要服務器的配置以及結構得到持續(xù)升級。

在一些視覺識別為主的AI企業(yè),建立一個超算中心就需要部署上萬塊GPU,對于那些TOP級云服務商的云計算數據中心,為支持深度學習訓練任務,所需要的GPU量級也將是海量級別。

第二,云服務廠商都在推出自研的芯片,來緩解因為價格昂貴和數據量巨大而帶來的GPU計算成本飆升的問題。這些廠商推出的大多是推理芯片,以節(jié)省GPU的通用算力。但這些推理芯片只在通用性上面的不足,造成其很難突破自研自用的局面。

那么,英偉達的A100 GPU芯片的發(fā)布,對云計算數據中心帶來哪些新的變化呢?或者說為AI服務器芯片的對手們設立了怎樣的門檻呢?

首先,作為采用全新的安培架構的A100 GPU,支持每秒1.5TB的緩沖帶寬處理,支持TF32 運算和FP64雙精度運算,分別帶來高達20倍FP32的AI計算性能和HPC應用2.5倍的性能提升。此外還包括MIG 新架構、NVLink 3.0以及AI運算結構的稀疏性等特性,這些使得 A100 加速卡不僅可用于AI訓練和AI推理,還可以用于科學仿真、AI對話、基因組與高性能數據分析、地震建模及財務計算等多種通用計算能力。而這一解決方案有可能緩解很多云服務廠商在推理上面的計算壓力,也對其他廠商的推理芯片帶來一定的競爭壓力。

其次,英偉達發(fā)布的第三代的DGX A100的AI系統(tǒng)在提高吞吐量同時,大幅降低數據中心的成本。由于A100內置了新的彈性計算技術,可以分布式的方式進行靈活拆分,多實例 GPU 能力允許每個 A100 GPU 被分割成多達七個獨立的實例來推斷任務,同時也可以將多個A100作為一個巨型 GPU 運行,以完成更大的訓練任務。

(“The more you buy,the more money you save!”)

用黃仁勛舉的例子來說,一個典型的AI數據中心有50個DGX-1系統(tǒng)用于AI訓練,600個CPU系統(tǒng)用于AI推理,需用25個機架,消耗630kW功率,成本逾1100萬美元;而完成同樣的工作,一個由5個DGX A100系統(tǒng)組成的機架,達到相同的性能要求,只用1個機架,消耗28kW功率,花費約100萬美元。

也就是說,DGX A100系統(tǒng)用一個機架,就能以1/10的成本、1/20的功率、1/25的空間取代一整個AI數據中心。

總體而言,英偉達用一套性能驚人又極具創(chuàng)新性的AI計算架構與AI服務器芯片硬件,帶來了AI數據中心計算平臺的全新升級。英偉達的野心將不再只是提供性能升級的GPU硬件產品,而是要重新定義數據中心的AI計算的規(guī)則,將數據中心視作基本的計算單元。

實際來講,一個DGX A100 GPU系統(tǒng)的單價就要20萬美元,對于要為了AI訓練而采購成千上萬塊企業(yè)級GPU的云計算廠商來說,可想而知成本將有多高?,F(xiàn)在,也只有全球主要的云計算廠商、IT巨頭以及政府、實驗室為DGX A100下了初始訂單。

對于其他競爭對手而言,英偉達這次在AI服務器芯片及AI數據中心計算平臺鑄就的堅壁高墻,似乎在短期內難以逾越。同時,也會成為未來幾年,AI服務器芯片廠商努力去對標的性能標準。當然,對英偉達A100的挑戰(zhàn),也自然就此開始。至于是英特爾、AMD還是AWS、谷歌,我們拭目以待。

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2020-05-22
用“AI核彈”飽和攻擊的英偉達,如何贏下AI計算新賽場?
英偉達首次推出第8代安培GPU架構,以及首款基于安培架構的NVIDIA A100 GPU,采用7nm工藝,在和上一代Volta架構V100 GPU幾乎相同面積的晶圓上放置了超過540億個晶體管,晶體管

長按掃碼 閱讀全文