210億顆晶體管加持 金山云全國(guó)首家商用Tesla V100

2018年被稱為AI全面爆發(fā)的元年,大量AI行業(yè)應(yīng)用逐漸落地,帶來(lái)了生產(chǎn)效率及生活品質(zhì)的大幅提升,催生出了更加多元化的商業(yè)價(jià)值。而伴隨著AI發(fā)展進(jìn)入深水區(qū),待處理數(shù)據(jù)量空前龐大,算法復(fù)雜度呈現(xiàn)指數(shù)級(jí)增長(zhǎng),能否提供更快更強(qiáng)的計(jì)算力,成為AI保持高速發(fā)展的關(guān)鍵因素。

面向用戶日益增長(zhǎng)的對(duì)于構(gòu)建更智慧AI應(yīng)用的計(jì)算需求,提供性能更加強(qiáng)悍、彈性易擴(kuò)展和高性價(jià)比的云上計(jì)算能力,成為業(yè)界的共同目標(biāo)。金山云基于對(duì)用戶需求的深刻把控,于近期正式推出了基于NVIDIATesla V100的GPU云服務(wù)器,支持最高15*8 TFLOPS的單精浮點(diǎn)計(jì)算能力和125*8TFLOPS的混合精度(FP16/FP32)矩陣計(jì)算能力,使深度學(xué)習(xí)訓(xùn)練與推理過(guò)程性能提升300%,而成本保持不變。

210億顆晶體管加持 金山云全國(guó)首家商用Tesla V100

210億顆晶體管構(gòu)建最強(qiáng)計(jì)算力

作為國(guó)內(nèi)首家正式公開售賣的基于Tesla V100的GPU云服務(wù)器,使用了創(chuàng)新的Tensor Core引擎,將混合精度浮點(diǎn)的計(jì)算能力再提升10倍以上,在整體深度學(xué)習(xí)的訓(xùn)練與推理應(yīng)用中相比于上一代PASCAL平臺(tái)有了3倍性能提升,可輕松應(yīng)對(duì)深度學(xué)習(xí),科學(xué)運(yùn)算、圖形圖像渲染等諸多應(yīng)用場(chǎng)景,有效縮短在線預(yù)測(cè)和離線訓(xùn)練時(shí)長(zhǎng)。

目前基于V100的GPU加速計(jì)算服務(wù)已全面商用,為包括小米等在內(nèi)的諸多客戶提供著高性能的計(jì)算支撐。小米最新發(fā)布的年度旗艦手機(jī)小米8,其AI加持的全面屏系統(tǒng)MIUI 10、AI相機(jī)、AI語(yǔ)音助理“小愛(ài)同學(xué)”等,背后均有金山云頂級(jí)GPU資源提供的計(jì)算服務(wù),極大提升了產(chǎn)品的研發(fā)效率和使用體驗(yàn)。

在基礎(chǔ)結(jié)構(gòu)層面,Tesla V100一共包含了210億顆晶體管,搭載了84個(gè)SM(流多處理器)單元,其中有效單元有80個(gè),每個(gè)SM單元中有64個(gè)單精度的處理單元CUDA Core以及8個(gè)混合精度的矩陣運(yùn)算單元Tensor Core,總計(jì)共有5120個(gè)CUDA Core和640個(gè)Tensor Core,搭載16GB的HBM 2的顯存,帶寬可以高達(dá)900GB/s,并且支持300GB/s雙向帶寬的NVLink2.0的主線協(xié)議。

210億顆晶體管加持 金山云全國(guó)首家商用Tesla V100

全新的Volta架構(gòu)示意圖

在線程調(diào)配層面,V100是首款支持獨(dú)立線程調(diào)度的GPU,允許GPU執(zhí)行任何線程,從而程序中的并行線程之間能實(shí)現(xiàn)更精細(xì)的同步與協(xié)作,使用戶能在更復(fù)雜多樣的應(yīng)用程序上高效地工作。獨(dú)創(chuàng)的Tensor Core打破了單處理器的最快處理速度記錄,能夠提供比功能單一的ASIC更高的性能,在不同工作負(fù)載下仍然具備可編程性。

Tensor Core打造更專業(yè)的深度學(xué)習(xí)計(jì)算單元

Tensor Core是Volta架構(gòu)最重磅的特性,是專門針對(duì)深度學(xué)習(xí)應(yīng)用而設(shè)計(jì)的專用ASIC單元,是一種矩陣乘累加的計(jì)算單元。(矩陣乘累加計(jì)算在Deep Learning網(wǎng)絡(luò)層算法中,比如卷積層、全連接層等是最重要、最耗時(shí)的一部分)。Tensor 核心每個(gè)時(shí)鐘周期可執(zhí)行64次浮點(diǎn)混合乘加(FMA)運(yùn)算,從而為訓(xùn)練和推理應(yīng)用程序提供高達(dá)125 TFLOPS的計(jì)算性能。

更強(qiáng)悍的計(jì)算能力意味著開發(fā)人員可以使用混合精度(FP16 計(jì)算使用 FP32 累加)執(zhí)行深度學(xué)習(xí)訓(xùn)練,從而實(shí)現(xiàn)比上一代產(chǎn)品快3倍的性能,并可收斂至網(wǎng)絡(luò)預(yù)期準(zhǔn)確度,目前Tensor Core可以支持的深度學(xué)習(xí)框架有Caffe、Caffe2、MXNet、PyTorch、Theano、TensorFƒlow等。

210億顆晶體管加持 金山云全國(guó)首家商用Tesla V100

NVLink互聯(lián)方式示意圖

此外,Tesla V100的NVLink版本支持NVLink2.0高速互聯(lián)總線協(xié)議,Tesla P100支持的NVLink1.0協(xié)議,每顆GPU可以連接4根總線,每根總線的單向傳輸帶寬可以達(dá)到20GB/s,四根總線可以實(shí)現(xiàn)單向80GB/s、雙向160GB/s的IO帶寬。而Tesla V100支持最新的NVLink2.0協(xié)議,每顆GPU最多可以實(shí)現(xiàn)六根總線互聯(lián),每根總線的單向傳輸帶寬可以達(dá)到25GB/s,六根總線可以實(shí)現(xiàn)單向150GB/s、雙向300GB/s的IO帶寬,相比NVLink1.0,帶寬幾乎提升了1倍。

高混合精度計(jì)算能力讓計(jì)算更高效

Tesla V100有NVLink和PCIe兩個(gè)版本,計(jì)算核心都是GV100,均有5120個(gè)CUDA Cores以及640個(gè)Tensor Cores, NVLink 版本主頻略高,雙精度浮點(diǎn)計(jì)算能力達(dá)到7.5TFLOPS,單精度浮點(diǎn)計(jì)算能力達(dá)到了15TFLOPS,而混合精度計(jì)算能力可以達(dá)到125 TFLOPS ,PCIe版本有7TFLOPS雙精度浮點(diǎn)計(jì)算能力、14TFLOPS單精度浮點(diǎn)計(jì)算能力和112個(gè)TFLOPS混合精度計(jì)算能力。

在訓(xùn)練 ResNet-50 時(shí),單個(gè)V100 Tensor Core GPU的處理速度能達(dá)到1075 張圖像/秒,與上一代Pascal GPU相比,它的性能提高了4倍。據(jù)測(cè)算,假如有100萬(wàn)張圖片需要學(xué)習(xí),理論上僅需約15分鐘即可訓(xùn)練完成。

210億顆晶體管加持 金山云全國(guó)首家商用Tesla V100

NVLink和PCIe版本Tesla V100對(duì)比

金山云作為國(guó)內(nèi)首家正式商用Tesla V100的云服務(wù)廠商,目前在售基于V100的服務(wù)器有GPU云服務(wù)器(P4V系列)和GPU物理服務(wù)器(P4E系列)。卓越的深度學(xué)習(xí)計(jì)算性能,讓用戶能夠更加快速、高效構(gòu)建AI業(yè)務(wù),彈性易擴(kuò)展和高性價(jià)比的特性,能夠?yàn)橛脩艄?jié)省大量計(jì)算成本,有效降低AI開發(fā)的時(shí)間風(fēng)險(xiǎn),提高企業(yè)AI競(jìng)爭(zhēng)力。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2018-06-01
210億顆晶體管加持 金山云全國(guó)首家商用Tesla V100
2018年被稱為AI全面爆發(fā)的元年,大量AI行業(yè)應(yīng)用逐漸落地,帶來(lái)了生產(chǎn)效率及生活品質(zhì)的大幅提升,催生出了更加多元化的商業(yè)價(jià)值。

長(zhǎng)按掃碼 閱讀全文