一区二区三区美国产人,国产综合永久精品日韩

有著“年度 AI 風向標”之稱GTC 大會是英偉達每年最重要的發(fā)布平臺之一，廣納當今計算領域最熱門話題的相關培訓和見解，并為廣大開發(fā)者創(chuàng)造與頂級專家交流的機會。12月15日-19日，GTC中國大會首次以線上大會的形式與開發(fā)者相見，共組織265場技術演講，演講者分別來自百度、阿里、騰訊、字節(jié)跳動等眾多知名企業(yè)，以及清華大學、中科院計算所等知名高校。百度飛槳也貢獻了四個主題演講，現(xiàn)在為您帶來飛槳推理引擎性能優(yōu)化的演講實錄。

課程鏈接：https://nvidia.gtcevent.cn/forum/watch?session_id=CNS20191

AI Studio鏈接：https://aistudio.baidu.com/aistudio/education/group/info/2099

GTC大會飛槳專家演講內容實錄：飛槳推理引擎性能優(yōu)化

在一小時的演講中，來自飛槳資深研發(fā)工程師商智洲老師介紹了飛槳原生推理引擎，以及該引擎中針對 GPU 推理所做的優(yōu)化工作。飛槳推理引擎是飛槳模型推理部署的重要基礎，已在百度內部各核心業(yè)務線和眾多 ToB 交付的AI服務中經過充分驗證。

商智洲介紹，飛槳在不同的推理場景下，都有相應的推理部署方案：

1、飛槳框架的原生推理引擎Paddle Inference，側重低延遲、高吞吐，主要目標是X86和英偉達的GPU上的模型推理;

2、模型服務化部署工具Paddle Serving，側重線上模型管理，彈性服務，A/B測試;

3、面向Mobile&IoT的壓縮工具PaddleSlim 和推理庫Paddle Lite，側重高性能，低資源使用，部署體積小;

4、Paddle.js支持瀏覽器場景的推理部署。

飛槳框架的原生推理引擎Paddle Inference有如下特點：

1、通用性：Paddle Inference復用了訓練框架的前向代碼，可以完全支持飛槳訓練出來的模型的推理。

2、多硬件支持：包括X86、英偉達的Tesla GPU和Jetson GPU。

3、深度優(yōu)化：支持顯存和內存的優(yōu)化;支持OP的融合;X86和英偉達GPU架構下的高性能計算kernel;通過子圖的方式集成TensorRT，支持混合精度推理。

4、接口簡單：十幾行代碼即可完成C++、Python的推理過程。另外有Go語言和R語言的API接口。

商智洲進一步介紹了Paddle Inference的性能優(yōu)化方法：

1、顯存優(yōu)化

在模型推理時，顯存占用主要有模型參數(shù)、OP輸出tensor和OP內臨時顯存占用三個方面。我們分別針對這三個方面進行優(yōu)化，從而減小顯存的占用：

首先，我們支持了參數(shù)共享。推理過程需要的參數(shù)是只讀的，沒有修改需求，因此創(chuàng)建多個predictor做并行推理時，參數(shù)只用保留一份實際存儲，以降低顯存占用。

其次，我們對OP輸出Tensor進行空間復用：

GTC大會飛槳專家演講內容實錄：飛槳推理引擎性能優(yōu)化

如圖所示，對OP輸出Tensor進行生命周期分析，對生命周期無重合的Tensor進行空間復用，可以降低臨時空間的使用。

GTC大會飛槳專家演講內容實錄：飛槳推理引擎性能優(yōu)化

同時，我們對臨時顯存，開辟顯存池，統(tǒng)一分配和管理。我們以一個例子來說明飛槳推理引擎使用的顯存分配策略原理。假設顯存共8GB，參數(shù)fraction_of_gpu_memory設置為0.2，初始化的時候會開辟第一個bucket，大小是8GB * 0.2 = 1.6GB。如果在bucket的剩余空間大小范圍之內申請顯存，就會直接分配。釋放的時候，顯存也會直接釋放到bucket里面，然后左右相鄰的碎片連接到一起，并不會釋放回系統(tǒng)。

而當申請的顯存大小超過bucket剩余空間大小的時候，會開辟一個新的bucket，其大小是用fraction_of_gpu_memory乘以顯卡上剩余的顯存，例如當前我們的8GB已經使用了1.6GB，下一個bucket大小為 6.4GB * 0.2 = 1.28GB。

值得注意的是，當申請的顯存大小超過一個bucket的時候，會直接調用cudaMalloc()和cudaFree()，對推理的性能有比較嚴重的影響，因此相關參數(shù)一定要根據(jù)實際環(huán)境合理配置。

OP的融合

GTC大會飛槳專家演講內容實錄：飛槳推理引擎性能優(yōu)化

根據(jù)OP的具體計算邏輯，可以把相鄰的兩個和多個OP融合成一個大的融合OP。以這里的Conv和BatchNorm為例，通過把圖示的幾個公式代入到一起，就得到最下面化簡之后的形式。

通過融合，首先參數(shù)的數(shù)量可以減少，這樣的好處是可以減小顯存/內存的使用，同樣也會減小顯存和內存的訪問。參數(shù)數(shù)量的減小，同樣也意味著計算量的減小，通過降低冗余的計算量，可以顯著提升推理的性能。同時由于融合帶來的OP數(shù)量減少，可以減少CUDA Kernel Launch次數(shù)，降低調度開銷。

2、CUDAKernel優(yōu)化

我們對CUDA的kernel也進行了相關優(yōu)化，首先是訪存優(yōu)化：

連續(xù)線程訪問連續(xù)數(shù)據(jù)，形成數(shù)據(jù)合并訪問;連續(xù)線程寫入連續(xù)數(shù)據(jù)，避免數(shù)據(jù)分區(qū)沖突。

盡量使同一個warp內連續(xù)線程訪問連續(xù)的數(shù)據(jù)，以充分例行Global Memory讀寫的并行性。具體需要對齊的字節(jié)數(shù)跟設備的架構相關，比如算力6.0以上的設備上并行訪問以32字節(jié)對齊。

盡量使用Shared Memory, 避免Bank Conflict。

Shared Memory是性能最接近寄存器的存儲類型，由多個大小相等的Bank組成，不同的Bank之間可以并行訪問，訪問同一個Bank的線程要順序執(zhí)行。因此在使用Shared Memory時要盡量分散線程對數(shù)據(jù)的訪問，防止Bank訪問沖突。

其次是計算優(yōu)化，首先考慮從算法上優(yōu)化，使用更優(yōu)的實現(xiàn)，減少計算量;根據(jù)CUDA架構，合理安排block和thread的數(shù)量分配，增加計算并行性和計算單元的空間利用率;多使用快速指令，例如在滿足精度要求的情況下，使用CUDA提供的低精度數(shù)學庫函數(shù)替換單精度浮點的版本等。

3、TensorRT集成

TensorRT是英偉達推出的一個高性能的深度學習推理SDK，包括一個推理優(yōu)化器和一個運行時環(huán)境，可以顯著地提高在英偉達GPU上的推理性能。和Paddle Inference類似，TensorRT也會做一些層的融合，顯存的復用等優(yōu)化措施，還支持FP32、FP16、INT8的混合精度預測。TensorRT提供了C++和Python的組網API，這樣就可以嵌入到自己的工程中去使用，這也是飛槳的使用方式。Paddle Inference的執(zhí)行流程主要分為兩步，第一步是初始化，加載模型進行各種的優(yōu)化操作，第二步就是預測。TensorRT也有類似的兩個步驟，一是推理優(yōu)化器，對應網絡的構建、優(yōu)化階段;二是運行時環(huán)境。這兩個階段使得Paddle Inference和TensorRT可以很方便地集成到一起。

4、PaddleSlim量化

我們針對飛槳模型壓縮工具PaddleSlim也進行了相關優(yōu)化，首先是訓練側，訓練中統(tǒng)計OP的輸出 scale并存儲在屬性中，帶權重的OP插入fake quant OP、fake dequant OP并統(tǒng)計weight scale。

然后是推理側，獲取TRT子圖中所有OP輸入、輸出的scale，以及有權重OP的weight scale，但由于TRT不支持fake quant和fake dequant OP，需要將其在計算圖中刪除。最后，在TRT engine中設置獲取到的scale。

GTC大會飛槳專家演講內容實錄：飛槳推理引擎性能優(yōu)化

最后商智洲介紹了Paddle Inference對ERNIE模型優(yōu)化的例子，首先采用OP融合，將標準ERNIE模型的OP數(shù)量降低到原來的20%，且核心的融合OP都提供了FP16精度的實現(xiàn)，在英偉達T4上ERNIE模型運行耗時從224ms降至41.90ms(batch=32, layers=12, head_num=12, size_per_head=64)。然后通過對ERNIE模型變長輸入的支持，進一步提升了ERNIE模型的推理性能。在Tesla T4上ERNIE模型的推理性能從905 sentences/s提升到2237 sentences/s(飛槳框架2.0RC1, CUDA10.1，cuDNN 7.6，TensorRT 6.0，OSS 7.2.1;模型ernie-base-2.0;QNLI數(shù)據(jù)集，Batchsize 32)。

【關于飛槳】

飛槳(PaddlePaddle)以百度多年的深度學習技術研究和業(yè)務應用為基礎，是中國首個開源開放、技術領先、功能完備的產業(yè)級深度學習平臺，包括飛槳開源平臺和飛槳企業(yè)版。飛槳開源平臺包含核心框架、基礎模型庫、端到端開發(fā)套件與工具組件，持續(xù)開源核心能力，為產業(yè)、學術、科研創(chuàng)新提供基礎底座。飛槳企業(yè)版基于飛槳開源平臺，針對企業(yè)級需求增強了相應特性，包含零門檻AI開發(fā)平臺EasyDL和全功能AI開發(fā)平臺BML。EasyDL主要面向中小企業(yè)，提供零門檻、預置豐富網絡和模型、便捷高效的開發(fā)平臺;BML是為大型企業(yè)提供的功能全面、可靈活定制和被深度集成的開發(fā)平臺。

（免責聲明：本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網站出現(xiàn)的信息，均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性，但不保證有關資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時，應及時向本網站提出書面權利通知或不實情況說明，并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后，將會依法盡快聯(lián)系相關文章源頭核實，溝通刪除相關內容或斷開相關鏈接。）