[TechWeb]萊斯大學(xué)的研究人員展示了設(shè)計創(chuàng)新的以數(shù)據(jù)為中心的計算硬件的方法,以及將硬件與機(jī)器學(xué)習(xí)算法共同設(shè)計的方法,這兩種算法可以將能源效率提高兩個數(shù)量級。
機(jī)器學(xué)習(xí)是自動駕駛汽車和許多其他高科技應(yīng)用背后的人工智能形式,它的進(jìn)步開創(chuàng)了一個新的計算時代——以數(shù)據(jù)為中心的時代,并迫使工程師們重新思考75年來幾乎沒有受到挑戰(zhàn)的計算體系結(jié)構(gòu)的各個方面。
電氣與計算機(jī)工程助理教授林英彥(音)說:“問題是,對于目前機(jī)器學(xué)習(xí)最先進(jìn)的大規(guī)模深層神經(jīng)網(wǎng)絡(luò)來說,整個系統(tǒng)運行所需的90%以上的電力消耗在存儲器和處理器之間的數(shù)據(jù)移動上。”。
Lin和合作者提出了兩種互補(bǔ)的方法來優(yōu)化以數(shù)據(jù)為中心的處理,這兩種方法都在6月3日的國際計算機(jī)體系結(jié)構(gòu)研討會(ISCA)上進(jìn)行了介紹,這是有關(guān)計算機(jī)體系結(jié)構(gòu)新思想和研究的主要會議之一。
數(shù)據(jù)中心架構(gòu)的驅(qū)動力與一個稱為馮·諾依曼瓶頸(von Neumann瓶頸)的問題有關(guān),這是一個效率低下的問題,源于計算架構(gòu)中的內(nèi)存和處理分離,自1945年數(shù)學(xué)家約翰·馮·諾依曼發(fā)明數(shù)據(jù)中心架構(gòu)以來,這一問題一直占據(jù)著至高無上的地位。通過將內(nèi)存與程序和數(shù)據(jù)分離,von Neumann架構(gòu)允許一臺計算機(jī)具有難以置信的多功能性;根據(jù)從內(nèi)存中加載的存儲程序,計算機(jī)可以用來進(jìn)行視頻通話、準(zhǔn)備電子表格或模擬火星上的天氣。
但是將內(nèi)存與處理分開也意味著即使簡單的操作(如加2加2)也需要計算機(jī)處理器多次訪問內(nèi)存。深度神經(jīng)網(wǎng)絡(luò)中的大量操作使這種記憶瓶頸變得更糟,深度神經(jīng)網(wǎng)絡(luò)是通過“研究”大量先前示例來學(xué)習(xí)做出人性化決策的系統(tǒng)。網(wǎng)絡(luò)越大,它可以完成的任務(wù)就越困難,并且顯示的網(wǎng)絡(luò)示例越多,它的執(zhí)行效果就越好。深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練可能需要專門的處理器庫,這些處理器需要全天候運行一周以上?;谥悄芫W(wǎng)絡(luò)在智能手機(jī)上執(zhí)行任務(wù)可以在不到一個小時的時間內(nèi)耗盡電池電量。
賴斯高效智能計算(EIC)實驗室主任林說:“人們普遍認(rèn)為,對于機(jī)器學(xué)習(xí)時代的以數(shù)據(jù)為中心的算法,我們需要創(chuàng)新的以數(shù)據(jù)為中心的硬件架構(gòu),但機(jī)器學(xué)習(xí)的最佳硬件架構(gòu)是什么?“
她說:“沒有一個答案是萬能的,因為不同的應(yīng)用程序需要的機(jī)器學(xué)習(xí)算法在算法結(jié)構(gòu)和復(fù)雜度方面可能有很大的不同,同時具有不同的任務(wù)精度和資源消耗,如能源成本、延遲和吞吐量折衷要求。許多研究人員正在進(jìn)行這方面的研究,英特爾、IBM和谷歌等大公司都有自己的設(shè)計。”
在ISCA 2020上,Lin的小組做了一個報告,提供了及時的結(jié)果,這是她和她的學(xué)生為“內(nèi)存處理”(PIM)開發(fā)的一個創(chuàng)新架構(gòu),是一種將處理引入內(nèi)存陣列的非von Neumann方法。一個有前途的PIM平臺是“電阻隨機(jī)存取存儲器”(ReRAM),一種類似flash的非易失性存儲器。盡管已經(jīng)提出了其他的ReRAM-PIM加速器架構(gòu),但林說,在10多個深度神經(jīng)網(wǎng)絡(luò)模型上運行的實驗發(fā)現(xiàn),適時的ReRAM-PIM加速器的能效提高了18倍,其計算密度是最具競爭力的最先進(jìn)ReRAM-PIM加速器的30倍以上。
TIMELY是“時域、內(nèi)存執(zhí)行、局部性”的縮寫,它通過消除頻繁訪問主內(nèi)存以處理中間輸入和輸出以及本地內(nèi)存和主內(nèi)存之間的接口而導(dǎo)致效率低下的主要因素來實現(xiàn)其性能。
在主存儲器中,數(shù)據(jù)以數(shù)字方式存儲,但是當(dāng)將其帶入本地存儲器以進(jìn)行內(nèi)存中處理時,必須將其轉(zhuǎn)換為模擬量。在以前的ReRAM PIM加速器中,結(jié)果值從模擬轉(zhuǎn)換為數(shù)字,然后發(fā)送回主存儲器。如果將它們從主存儲器調(diào)用到本地ReRAM以進(jìn)行后續(xù)操作,則它們將再次轉(zhuǎn)換為模擬信號,依此類推。
通過使用本地存儲器中的模擬格式緩沖區(qū),及時避免了不必要的訪問主存儲器和接口數(shù)據(jù)轉(zhuǎn)換的開銷。這樣,TIMELY幾乎可以將所需的數(shù)據(jù)保留在本地存儲陣列中,從而大大提高了效率。
該小組在ISCA 2020上提出的第二個建議是SmartExchange,該設(shè)計結(jié)合了算法和加速器硬件創(chuàng)新以節(jié)省能源。
“訪問主存儲器(DRAM)的能量要比執(zhí)行計算多花費200倍,因此SmartExchange的關(guān)鍵思想是強(qiáng)制執(zhí)行算法中的結(jié)構(gòu),使我們可以將成本較高的內(nèi)存換成成本更低的內(nèi)存,成本計算。”
她舉例說:“例如,我們的算法有1000個參數(shù)。在傳統(tǒng)方法中,我們將所有1,000個存儲在DRAM中,并根據(jù)計算需要進(jìn)行訪問。使用SmartExchange,我們搜索以找到這1,000個中的某些結(jié)構(gòu)。然后,我們只需要存儲10個,因為如果我們知道它們之間的關(guān)系, 10和其余的990,我們可以計算990中的任何一個,而不必從DRAM調(diào)用它們“。
她說:“我們將這10個稱為‘基礎(chǔ)’子集,其想法是將它們存儲在靠近處理器的本地位置,以避免或大幅度減少為訪問DRAM而支付的費用”。
研究人員使用SmartExchange算法及其自定義的硬件加速器對七個基準(zhǔn)深度神經(jīng)網(wǎng)絡(luò)模型和三個基準(zhǔn)數(shù)據(jù)集進(jìn)行了實驗。他們發(fā)現(xiàn),與最先進(jìn)的深度神經(jīng)網(wǎng)絡(luò)加速器相比,該組合將等待時間減少了多達(dá)19倍。[TechWeb]
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )