中文字幕无码一区二区,中文字幕大香视频蕉无码...

AI邊緣推理與數(shù)據(jù)中心的差別在哪兒？

人閱讀

2020-07-29 09:21:00

相關(guān)關(guān)鍵詞
- 人工智能
- AI

雖然推理加速器最初用于數(shù)據(jù)中心，但它們已經(jīng)迅速發(fā)展到應(yīng)用程序的邊緣推理，如自動(dòng)駕駛和醫(yī)學(xué)成像。通過(guò)這種轉(zhuǎn)變，客戶發(fā)現(xiàn)，同樣的加速器，在數(shù)據(jù)中心處理圖像很順利，但移到邊緣推斷方面卻顯得糟糕。其實(shí)原因很簡(jiǎn)單：一個(gè)處理數(shù)據(jù)池，而另一個(gè)處理的是數(shù)據(jù)流。

當(dāng)你在batch ＝ 1時(shí)進(jìn)行批處理時(shí)，池子里待處理的batch就會(huì)很多。在數(shù)據(jù)中心，客戶通常是數(shù)據(jù)的處理池，比如被標(biāo)記的照片。其目標(biāo)是用最少的資源和功耗以及最佳的延遲來(lái)處理盡可能多的照片。

另一方面，邊緣推斷應(yīng)用程序需要處理數(shù)據(jù)流。我們通常的相機(jī)每秒拍攝30幀，每幀通常是200萬(wàn)像素。通常情況下，每幅圖像需要33毫秒，每秒大約30幀。當(dāng)你有一個(gè)圖像從一個(gè)流進(jìn)來(lái)，它如何被處理取決于它需要做什么。

例如，使用推理進(jìn)行零售分析的商店可能會(huì)計(jì)算給定時(shí)間排隊(duì)的人數(shù)。在這個(gè)例子中，他們真的不需要幾個(gè)小時(shí)甚至幾天的結(jié)果。然而，如果你駕駛一輛使用自動(dòng)駕駛功能的汽車(chē)，你只有毫秒來(lái)處理圖像，否則你可能會(huì)撞到人。雖然在這兩個(gè)例子中，相機(jī)每3毫秒生成1幀圖像，但使用的推理加速器非常不同。

讓我們看看數(shù)據(jù)流發(fā)生了什么。

首先，您需要清理圖像以去除諸如光線條紋之類(lèi)的東西，然后應(yīng)用推理。當(dāng)推理完成后，您需要采取一個(gè)行動(dòng)，根據(jù)你正在處理的活動(dòng)，所有這些都需要在特定的時(shí)間內(nèi)發(fā)生。如果你不需要幾個(gè)小時(shí)的結(jié)果，你可以對(duì)圖像進(jìn)行批處理。在這種情況下，延遲就無(wú)關(guān)緊要了。重要的是用最少的成本和能量處理最多的圖像。

最常犯的一個(gè)錯(cuò)誤就是在選擇邊緣推斷解決方案時(shí)沒(méi)有考慮延遲和流媒體吞吐量。比方說(shuō)，你有一臺(tái)每秒能處理30幀的推理加速器，另一臺(tái)每秒能處理15幀。

大多數(shù)人自然而然地認(rèn)為每秒30幀的解決方案更好——其實(shí)你錯(cuò)了。

每秒30幀的加速器可能會(huì)獲得比較可觀的吞吐量，原因是它有三個(gè)引擎，每個(gè)引擎都有不同的延遲。最典型的是英偉達(dá)Xavier推理加速器。Xavier的深度學(xué)習(xí)引擎處理圖像大約需要300毫秒，GPU大約需要90毫秒。如果客戶有兩個(gè)深度學(xué)習(xí)引擎＋GPU都在運(yùn)行，他們可能會(huì)在數(shù)據(jù)池中獲得顯著的吞吐量。

但是，如果它需要從數(shù)據(jù)流一次處理一個(gè)圖像，它就不能有效地使用深度學(xué)習(xí)引擎，吞吐量會(huì)顯著下降。在這種情況下，你需要觀察哪個(gè)執(zhí)行單元的延遲最短，即GPU的延遲為90毫秒。分割成1000毫秒就是每秒的幀數(shù)，這意味著這個(gè)吞吐量實(shí)際上只有每秒10幀（而不是宣傳的每秒30幀）。

x Logix購(gòu)買(mǎi)了一臺(tái)Xavier AGX，并將其配置為NX模式（該軟件測(cè)量芯片的功率，當(dāng)功率超過(guò)15W時(shí)，會(huì)調(diào)低芯片的時(shí)鐘，以防止芯片過(guò)熱）。

然后，我們通過(guò)Nvidia Xavier NX軟件流運(yùn)行三個(gè)模型（YOLOv3加上我們客戶的兩個(gè)模型），并在芯片上運(yùn)行，測(cè)量每張圖像的延遲。我們還通過(guò)自己的InferX X1性能評(píng)估器運(yùn)行了相同的模型。

顯然，Nvidia不能為我們自己客戶的機(jī)型發(fā)布基準(zhǔn)測(cè)試，但YOLOv3的數(shù)據(jù)是在Xavier AGX上發(fā)布的，而不是在NX上發(fā)布的——而且他們發(fā)布的數(shù)據(jù)是使用GPU和兩個(gè)DL加速器的綜合吞吐量。對(duì)于Batch＝ 1，GPU有可接受的延遲。

12下一頁(yè)>

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。）