如何把存儲器做到CPU里?我們向大腦找答案

整理|網(wǎng)易科技 孟倩

特別鳴謝 部分編輯校對:

劉千惠,浙江大學(xué)計算機科學(xué)與技術(shù)專業(yè)博士生

邢東,浙江大學(xué)計算機科學(xué)與技術(shù)專業(yè)博士生

過去的十年以深度學(xué)習(xí)為代表的人工智能技術(shù)深刻影響了人類社會。但人類要進(jìn)入真正意義上的智能時代,還需要更強大的智能技術(shù)。而向人腦學(xué)習(xí),借鑒人類大腦的智能產(chǎn)生機理被認(rèn)為是一條非常值得期待的道路。反過來,AI技術(shù)也在深刻改變著腦科學(xué)的研究方法。在“觀測腦”手段不斷變革的基礎(chǔ)上,AI技術(shù)為腦科學(xué)提供了越來越強大的分析、展示和科學(xué)發(fā)現(xiàn)手段。

2020年4月25日,青創(chuàng)聯(lián)盟發(fā)起的YOSIA Webinar特別推出了“AI+X”科學(xué)系列主題,第一期主題為AI+腦科學(xué),主要針對人工智能與腦科學(xué)的發(fā)展以及兩者間的相互影響進(jìn)行了分享。


本次參與者有六位嘉賓,他們分別是來自浙江大學(xué)計算機學(xué)院的唐華錦教授,清華大學(xué)微納電子系教授、副系主任吳華強,清華大學(xué)計算機科學(xué)與技術(shù)系副教授胡曉林、中國科學(xué)技術(shù)大學(xué)神經(jīng)生物學(xué)與生物物理學(xué)系主任畢國強、北京師范大學(xué)認(rèn)知神經(jīng)科學(xué)與學(xué)習(xí)國家重點實驗室畢彥超教授以及北京大學(xué)信息科學(xué)技術(shù)學(xué)院長聘教授吳思。主持人為未來論壇青年理事會輪值主席、中科院計算所研究員、博士生導(dǎo)師山世光教授。

唐華錦發(fā)表了《神經(jīng)形態(tài)計算機》的主題分享,他認(rèn)為模擬大腦智能是計算機科學(xué)領(lǐng)域長久以來的目標(biāo),成為過去幾十年人工智能的發(fā)展的重要推動力。

人工智能和腦科學(xué)在各自領(lǐng)域獨自發(fā)展,且都取得了很大突破,我們亟需以新的眼光和視角重新建立兩者的聯(lián)系,特別是從腦科學(xué)的角度探索人工智能的新思路和新方法。報告從探討神經(jīng)元-突觸為計算載體的信息處理和計算形式、記憶的形成和存儲,以及高級認(rèn)知的產(chǎn)生,探討基于腦科學(xué)、神經(jīng)科學(xué)的人工智能的展望。

他分享了如何來設(shè)計未來的神經(jīng)形態(tài)計算機。首先必須具備異構(gòu)的網(wǎng)絡(luò)結(jié)構(gòu),其次包含時序動力學(xué)的神經(jīng)元非線性,要構(gòu)建基于突觸可塑性的信用分配算法不僅實現(xiàn)模式識別這樣深度學(xué)習(xí)里面已經(jīng)非常成功應(yīng)用的各種算法,而且要實現(xiàn)學(xué)習(xí)-記憶融合的認(rèn)知計算,我們未來把大腦搬進(jìn)機箱讓它實現(xiàn)知識的表達(dá)、知識的學(xué)習(xí)、認(rèn)知以及環(huán)境的交互。

吳華強則進(jìn)行了《大腦啟發(fā)的存算一體技術(shù)》的分享,他提到,人工智能無處不在,從云端到我們手機端都有很多人工智能也在深刻影響我們生活。并且人工智能的研究和應(yīng)用已經(jīng)取得了突飛猛進(jìn)的發(fā)展,但是運行人工智能深度神經(jīng)網(wǎng)絡(luò)算法的計算平臺主要是超級計算機群(成百上千個CPU和GPU),不但需要巨大的硬件投入,而且占用的空間和消耗的能源也非??捎^。

受限于存儲計算分離對芯片性能的限制,同時CMOS工藝微縮速度放緩,以及人工智能應(yīng)用對計算存儲需求的不斷提升,當(dāng)前的技術(shù)將面臨諸多新的挑戰(zhàn)。

因此,我們需要類腦計算、存算一體,這也是向生物找答案,向大腦找答案。用腦啟發(fā)設(shè)計新的人工智能芯片是非常必要也是急需的。

在這一背景下,新器件的出現(xiàn)變得至關(guān)重要,通過引入新原理的半導(dǎo)體器件,不但可以拓展芯片的功能,甚至可以顛覆傳統(tǒng)電路理論,突破當(dāng)前芯片面臨的能效、速度瓶頸,大幅提升芯片性能。

基于過渡族金屬氧化的憶阻器件顯示出了優(yōu)越的存算一體的特性,能夠規(guī)避存儲和計算之間數(shù)據(jù)搬運的功耗并且能夠?qū)崿F(xiàn)大規(guī)模集成,進(jìn)而實現(xiàn)高性能計算。

胡曉林則從AI的發(fā)展,神經(jīng)網(wǎng)絡(luò)的發(fā)展來談如何促進(jìn)神經(jīng)科學(xué)的研究。他闡述了《神經(jīng)元稀疏發(fā)放在視聽覺通路上的作用》,受Barlow高效編碼理論的啟發(fā),上世紀(jì)90年代人們通過計算建模的方式發(fā)現(xiàn)神經(jīng)元的稀疏發(fā)放對于哺乳動物的視覺和聽覺系統(tǒng)的前期的信息處理機制有著重要作用,但是稀疏發(fā)放對于更上層的功能區(qū)域有什么作用一直不是很清楚。

在報告中胡教授介紹了目前他們的發(fā)現(xiàn),通過用深度學(xué)習(xí)對腦的視聽覺通路的建模的兩個案例,建模后發(fā)現(xiàn),高級視聽覺區(qū)域的神經(jīng)元的稀疏發(fā)放與它們的一些獨特功能有著密不可分的關(guān)系。該結(jié)果暗示高效編碼理論可能在高級感覺區(qū)域也是成立的,從而推廣了前人在感覺通路低級區(qū)域發(fā)展出來的高效編碼理論。

在問答環(huán)節(jié)里,六位嘉賓探討了腦科學(xué)為AI提供了哪些思想、技術(shù)和方法,同時進(jìn)行了相應(yīng)的轉(zhuǎn)化,而AI也為研究腦科學(xué)提供了分析工具,并提供了更多思路。

“我們理解一個事情,我們需要能創(chuàng)造它才能做它。”從AI和腦科學(xué)的整體關(guān)系,是科學(xué)和工程的關(guān)系。作為正在被打開的兩個“黑箱”,二者在互相影響和碰撞,等待更大空間的研究被發(fā)現(xiàn)和釋放。

怎么樣培養(yǎng)更多的交叉學(xué)科的人才成為了重點討論問題。嘉賓們認(rèn)為這是一個很大的挑戰(zhàn),作為交叉學(xué)科的人,要對兩個學(xué)科都要有充分的把握,而這兩個學(xué)科都是很難的學(xué)科,挑戰(zhàn)很大,因此需要鼓勵青年人要真正追求自己的興趣,如果真的想研究,要花別人雙倍的力氣把這兩個學(xué)科都學(xué)好。

以下為AI+腦科學(xué)主題分享速記:

主題報告

分享一:《神經(jīng)形態(tài)計算機》—唐華錦

唐華錦,浙江大學(xué)計算機學(xué)院教授

唐華錦教授分別于浙江大學(xué)、上海交通大學(xué)完成本科和碩士學(xué)習(xí),2005年新加坡國立大學(xué)獲得博士學(xué)位。2008-2015年于新加坡科技研究局資訊通信研究院擔(dān)任Robotic Cognition實驗室主任,2014年起擔(dān)任四川大學(xué)類腦計算研究中心主任,目前為浙江大學(xué)計算機學(xué)院教授。主要研究領(lǐng)域為神經(jīng)形態(tài)計算、類腦智能芯片、智能機器人。獲2016年度IEEE TNNLS杰出論文獎、2019年度IEEE Computational Intelligence Magazine杰出論文獎。擔(dān)任/曾擔(dān)任IEEE TNNLS、 IEEE Trans. on Cognitive and Developmental Systems、Frontiers in Neuromorphic Engineering,Neural Networks等期刊的Associate Editor,擔(dān)任國際神經(jīng)網(wǎng)絡(luò)學(xué)會(International Neural Networks Society)理事及評獎委員會成員等。

唐華錦:大家好!我今天很榮幸被邀請來分享這樣一個主題,我的主題是以神經(jīng)形態(tài)計算機為中心來探討一些開放問題以及對這個領(lǐng)域做一些展望。

我今天報告提綱分以下幾條:

一、首先簡述計算機與大腦的區(qū)別以及大腦對開發(fā)更加新型智能計算機的啟示;

二、接著討論關(guān)于神經(jīng)形態(tài)計算機的必要組成以及介紹大腦如何完成各種計算任務(wù)的;

三、之后介紹目前算法的進(jìn)展以及硬件方面設(shè)計的成果;

四、最后提出對這個領(lǐng)域的個人的總結(jié)和展望。

計算機與大腦的區(qū)別以及大腦對開發(fā)更加新型智能計算機的啟示

大家知道,目前的計算機體系是基于馮·諾伊曼架構(gòu),這已經(jīng)非常成功的引領(lǐng)計算機科學(xué)技術(shù)的發(fā)展幾十年。在這個計算機架構(gòu)的基礎(chǔ)上我們的深度學(xué)習(xí)在近年取得了飛速發(fā)展,在各個領(lǐng)域取得非常成功的應(yīng)用。同時,馮·諾伊曼架構(gòu)發(fā)展到現(xiàn)階段也存在一些制約,比如說由于存在風(fēng)險帶來的I/O性能的瓶頸制約以及功耗的制約,這種制約隨著大數(shù)據(jù)、深度學(xué)習(xí)為基礎(chǔ)的計算架構(gòu)帶來的擁擠會凸顯的越來越嚴(yán)重,比如大量數(shù)據(jù)讀寫嚴(yán)重降低整體效率。和大腦的計算方式相比,大腦處理的步驟非常少,但它的運行速度非常高。其次由于突觸和神經(jīng)元同時可以做激發(fā)和存儲,所以不存在馮·諾伊曼架構(gòu)的I/O的吞吐帶來的瓶頸。就能耗來說,大腦的計算能耗非常低,大致只有20W左右,所以帶來的計算效率非常高。另外非常顯著的區(qū)別,計算機實現(xiàn)的或者處理大量的實值數(shù)據(jù),大腦神經(jīng)元處理的(或者說編碼的)都是稀疏的事件或者神經(jīng)科學(xué)稱之為脈沖。從如何構(gòu)建一個非馮·諾伊曼體系的新型智能計算機體系,不僅是計算機科學(xué)也是我們計算機工程以及硬件芯片發(fā)展的一個重要方向。隨著新的計算體系結(jié)構(gòu)以及硬件方面的實驗,我們預(yù)測可能帶來新一代的人工智能的算法的硬件以及架構(gòu)上的新突破。

關(guān)于神經(jīng)形態(tài)計算機的必要組成以及介紹大腦如何完成各種計算任務(wù)的

下面我從大腦主要的計算過程來解釋一下我們?nèi)绾蝸碓O(shè)計未來的神經(jīng)形態(tài)計算機。

第一,網(wǎng)絡(luò)結(jié)構(gòu)。生物神經(jīng)元有多種神經(jīng)元類型,這里以錐體神經(jīng)元(Pyramidal神經(jīng)元)為例,錐體神經(jīng)元是多個環(huán)節(jié)、多個部件組成的復(fù)雜的神經(jīng)元模型結(jié)構(gòu),包括軸突的遠(yuǎn)端和近端,對生物神經(jīng)元的輸入前饋和反傳,發(fā)生在神經(jīng)元的不同部位,對于I/O來說做了充分的簡化,把它作為一個典型神經(jīng)元,沒有遠(yuǎn)端軸突和近端軸突的區(qū)別,從網(wǎng)絡(luò)結(jié)構(gòu)上來說,大腦存在著大量稀疏的異構(gòu)的連接結(jié)構(gòu),目前ANN主要依賴的深度網(wǎng)絡(luò)是前饋全連接的網(wǎng)絡(luò)結(jié)構(gòu)。當(dāng)然在不同的網(wǎng)絡(luò)結(jié)構(gòu)處理的實際方式也有顯著不同?;谏疃染W(wǎng)絡(luò)的空間算法,往往采取一個全區(qū)的優(yōu)化函數(shù)來達(dá)到最優(yōu)值來調(diào)解。而對于生物神經(jīng)網(wǎng)絡(luò)來說,由于存在大量的局部連接以及遠(yuǎn)程連接,有豐富多樣的突觸可塑性,可以更加靈活的調(diào)整神經(jīng)元之間的連接來完成對目標(biāo)函數(shù)的優(yōu)化。

第二,大腦的計算模式采用的是更加接近生物的個性的方式,比如脈沖神經(jīng)元的輸入,在人工神經(jīng)元里面不需要考慮輸入時間的特性,輸入是一個實值,典型的ReLU函數(shù)或者Sigmoid激活函數(shù)做了一個這樣的簡單的非行為數(shù)據(jù),但是對于生物神經(jīng)元來說,它不僅采用了輸入輸出的映射,還具有四個典型的時間的非線性動力學(xué),一是膜電位積分,二是漏電效應(yīng),三是不應(yīng)期,四是需要閾值來判定脈沖發(fā)放或不發(fā)放。這樣導(dǎo)致脈沖神經(jīng)元輸入脈沖編碼的不連續(xù)性,以及輸出脈沖的不連續(xù)性。這樣導(dǎo)致后面的第三個問題就突出來,即信用分配問題。信用分配在人工神經(jīng)網(wǎng)絡(luò)里常常說成是優(yōu)化算法,最典型的一個優(yōu)化算法是誤差反傳,就是梯度下降算法,但是這里梯度下降算法存在一個誤差,要求前向和反向權(quán)值要完全對稱,因為全局的目標(biāo)函數(shù),設(shè)定了一個這樣的網(wǎng)絡(luò)結(jié)構(gòu),這是典型的ANN的學(xué)習(xí)模式以及處理方式。

第三,生物神經(jīng)元同樣的信用分配機制,但是采用完全不同的處理方式。神經(jīng)元之間依賴于脈沖發(fā)放時間,導(dǎo)致他們可以采用基于脈沖時間的學(xué)習(xí)方式,最典型的在神經(jīng)科學(xué)里面應(yīng)用非常廣泛的是STDP(脈沖時間依賴的突觸可塑性),基于脈沖時間前后發(fā)放的時間差來調(diào)整權(quán)值,實現(xiàn)局部的無監(jiān)督學(xué)習(xí)。此外,我們也可以考慮設(shè)計輸入脈沖和期望脈沖序列之間的序列差,來有監(jiān)督式的學(xué)習(xí)和訓(xùn)練脈沖,發(fā)放一定的脈沖。

其次依據(jù)多巴胺的神經(jīng)科學(xué)的發(fā)現(xiàn),可以構(gòu)造這樣一個強化學(xué)習(xí)的脈沖實驗網(wǎng)絡(luò),把每個神經(jīng)元和突觸都當(dāng)做一個智能體,把發(fā)放脈沖或者不發(fā)放脈沖作為一個它的行動,來構(gòu)成這樣一個強化學(xué)習(xí)網(wǎng)絡(luò),這樣不僅實現(xiàn)更加靈活的行為,而且是生物性更加強的一種學(xué)習(xí)算法。

第四點,大腦的計算機制,重要的是學(xué)習(xí)與記憶的融合。在前饋網(wǎng)絡(luò)里,權(quán)值訓(xùn)練完之后,當(dāng)新的任務(wù)進(jìn)來,往往權(quán)值會被抹殺或者權(quán)值遺忘的作用,但是在生物神經(jīng)元里面,有大量的專門負(fù)責(zé)記憶的細(xì)胞,比如海馬體中存在各種記憶細(xì)胞,尤其是對位置細(xì)胞的編碼,對空間的感知認(rèn)知,它可以記憶熟知的場景,對這個空間進(jìn)行編碼。所以依據(jù)皮層-海馬等腦區(qū),可以實現(xiàn)神經(jīng)元大腦對外部輸入的表達(dá),學(xué)習(xí)及記憶構(gòu)成一個基于學(xué)習(xí)、基于融合的認(rèn)知計算。(圖)右側(cè)是一個對皮層以及海馬體主要微腦區(qū)的神經(jīng)電路結(jié)構(gòu),基于這樣的電路結(jié)構(gòu),我們可以實現(xiàn)基于海馬體的聯(lián)想記憶、持續(xù)記憶以及對空間的記憶模型。

目前算法的進(jìn)展以及硬件方面設(shè)計的成果

下面初步介紹一下我們在這個領(lǐng)域的初步成果。因為時間有限,只是展示冰山一角。

對于信息的編碼,把輸入信息經(jīng)過脈沖神經(jīng)元的編碼轉(zhuǎn)變成一系列的時空脈沖信號,可以對輸入信息進(jìn)行編碼以及重構(gòu)。下圖是Nature的一篇文章,上圖是做的編碼神經(jīng)元的算法。

同時可以對新型的神經(jīng)形態(tài)視覺算法進(jìn)行脈沖編碼和表征處理,分別處理動態(tài)的視覺信息,發(fā)表在2020年TNNLS的一篇論文上。

另外,信用分配算法可以高效的解決脈沖神經(jīng)網(wǎng)絡(luò)由于時間動力學(xué)帶來的訓(xùn)練困難問題,不僅在空間上進(jìn)行誤差反傳,可以同時把誤差信息傳遞到脈沖的時間信息上,經(jīng)過這樣的設(shè)計我們提出了基于脈沖簇的學(xué)習(xí)算法,不僅是可以訓(xùn)練神經(jīng)元在指定時間發(fā)放脈沖,而且是指定發(fā)放脈沖簇。

這是目前幾種典型的脈沖損失函數(shù),各自具有一些不同的缺陷,我們改造這樣的損失函數(shù),可以不斷的訓(xùn)練發(fā)放,訓(xùn)練這樣一個脈沖簇。它的優(yōu)點是能夠訓(xùn)練神經(jīng)元對復(fù)雜的時間序列的神經(jīng)元的響應(yīng)特性,左圖顯示的是雜亂無章的神經(jīng)元響應(yīng),右側(cè)是訓(xùn)練后神經(jīng)元能夠顯示出對某些特定信號的選擇性響應(yīng)。這是一個新型的深層的脈沖網(wǎng)絡(luò),在訓(xùn)練性能上已經(jīng)超越專門設(shè)計和訓(xùn)練的CNN的網(wǎng)絡(luò)。

學(xué)習(xí)與記憶融合,我們構(gòu)建多層的模仿多層腦區(qū)的結(jié)構(gòu),實現(xiàn)神經(jīng)元的編碼以及監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),同時實現(xiàn)聯(lián)想記憶和時序記憶。右側(cè)是神經(jīng)硬件電路圖,是北大黃如院士團(tuán)隊合作的FPGA硬件的記憶模型的設(shè)計和實現(xiàn)。

在感知-認(rèn)知-交互閉環(huán)上我們做了一個初步的成果,把海馬體電路搬到機器人上,通過硬件模式來實現(xiàn)機器人對空間感知、認(rèn)知交互的閉環(huán)。在Communications of ACM 2018專題介紹了這樣的工作,來解釋大腦如何幫助機器人對復(fù)雜環(huán)境空間的感知,依賴空間位置神經(jīng)元對空間的記憶以及編碼的作用。

無獨有偶,在Deepmind,今年也開展了這樣類型的工作,但與我們基于模型、大腦結(jié)構(gòu)方式的不同,Deepmind在基于學(xué)習(xí)和訓(xùn)練的網(wǎng)絡(luò)來訓(xùn)練神經(jīng)元,發(fā)放基于網(wǎng)格細(xì)胞的效應(yīng)特性,右圖展示了他們在虛擬環(huán)境下的網(wǎng)絡(luò)的效果。有興趣的朋友可以看一下論文。

在硬件實現(xiàn)上的一些成果。通過數(shù)字或者模擬集成電路可以實現(xiàn)神經(jīng)元、突觸以及各種突觸可塑性,在這個領(lǐng)域上已經(jīng)有大量的神經(jīng)形態(tài)芯片的成果,比如SpiNNaker、BrainScaleS、Truenorth、Loihi、ROLLS、清華“天機”芯片、浙大“達(dá)爾文”芯片等,都是屬于在數(shù)字模擬電路上實現(xiàn)架構(gòu)。另外,在對于未來類腦芯片的潛在突破,憶阻器及陣列,憶阻器可以分別實現(xiàn)突觸和神經(jīng)元,實現(xiàn)模擬矩陣運算即存算一體。

下面我舉了北大楊玉超、黃如老師的工作,以及清華吳華強老師的工作,發(fā)布在Nature communications上,吳老師隨后會更加詳細(xì)的介紹,他們實現(xiàn)一體機的陣列來設(shè)計構(gòu)建了這樣模擬矩陣的運算,實現(xiàn)快速的存算一體的神經(jīng)網(wǎng)絡(luò)的計算模式。

關(guān)于神經(jīng)形態(tài)計算機,我個人提出一些不太成熟的總結(jié)與展望。首先必須具備異構(gòu)的網(wǎng)絡(luò)結(jié)構(gòu),其次包含時序動力學(xué)的神經(jīng)元非線性。要構(gòu)建基于多種突觸可塑性的信用分配算法,不僅實現(xiàn)模式識別這樣深度學(xué)習(xí)里面已經(jīng)非常成功應(yīng)用的各種算法,而且要實現(xiàn)學(xué)習(xí)-記憶融合的認(rèn)知計算,我們未來把大腦搬進(jìn)機箱讓它實現(xiàn)知識的表達(dá)、知識的學(xué)習(xí)、認(rèn)知以及環(huán)境的交互。

分享二:《大腦啟發(fā)的存算一體技術(shù)》—吳華強

吳華強 清華大學(xué)微納電子系教授、副系主任

清華大學(xué)微納電子系,長聘教授,副系主任,清華大學(xué)微納加工平臺主任,北京市未來芯片技術(shù)高精尖創(chuàng)新中心副主任。2000年畢業(yè)于清華大學(xué)材料科學(xué)與工程系和經(jīng)濟(jì)管理學(xué)院。2005年在美國康奈爾大學(xué)電子與計算機工程學(xué)院獲工學(xué)博士學(xué)位。隨后在美國AMD公司和Spansion公司任高級研究員,從事先進(jìn)非易失性存儲器的架構(gòu)、器件和工藝研究。2009年,加入清華大學(xué)微電子學(xué)研究所,研究領(lǐng)域為新型存儲器及存算一體技術(shù),先后負(fù)責(zé)多項自然科學(xué)基金、863、973和重點研發(fā)計劃項目和課題。在Nature, Nature Communications, Proceedings of the IEEE等期刊和國際會議發(fā)表論文100余篇,獲得美國授權(quán)發(fā)明專利30余項,獲得中國授權(quán)發(fā)明專利40余項。

吳華強:今天和大家分享一下我們做的一點工作,題目是“大腦啟發(fā)的存算一體技術(shù)”。

我的報告將從硬件的挑戰(zhàn),研究進(jìn)展以及展望三方面來介紹大腦啟發(fā)的存算一體技術(shù)。

人工智能無處不在,從云端到我們手機端都有很多人工智能。不同的人工智能應(yīng)用對芯片的需求是不一樣的,比如數(shù)據(jù)中心、汽車無人駕駛要求算力特別高,而智能傳感網(wǎng)、物聯(lián)網(wǎng)和手機希望耗能低,追求高能效。不同應(yīng)用對芯片的不同需求給了芯片領(lǐng)域很多機會。

人工智能的三個發(fā)展浪潮和硬件算力也有關(guān)系。從第一款神經(jīng)網(wǎng)絡(luò)Perceptron網(wǎng)絡(luò)AI開始火起來,到70年代進(jìn)入低谷,一個非常重要的因素是,雖然有很好的理論模型,但是沒有足夠的算力。后來專家系統(tǒng)出現(xiàn),第二波浪潮又起來。這時候很多人做專門圍繞人工智能的計算機。同時代摩爾定律快速推動芯片的發(fā)展,通用計算機的性能飛速上揚,專業(yè)計算機能做的通用計算機也能做,因此逐漸占據(jù)市場,第二波浪潮又下去。第三波浪潮,深度神經(jīng)網(wǎng)絡(luò)的提出到利用GPU加速網(wǎng)絡(luò)訓(xùn)練,GPU成為AI的主要訓(xùn)練平臺。有了更大的算力,網(wǎng)絡(luò)規(guī)??焖偬嵘?。AlphaGo Zero需要5000個TPU訓(xùn)練40天才成為地表最強的圍棋選手,花費的時間還是很大的,因此人工智能的廣泛應(yīng)用需要硬件能力革新,支撐人工智能的發(fā)展。

芯片能提供的算力和人工智能的高需求是很矛盾的。第一臺計算機ENIAC出現(xiàn)在1947年,算力是每秒鐘5000次左右。英特爾2019年的CPU大約是20.8GFLOPS。我們看到它的變化是圍繞著摩爾定律,即每18個月翻一番的集成度來提升算力。但是目前AI的需求是每3.4個月翻一番。因此需要尋找新方法提供算力。

算力提升越來越困難有兩個原因,一是過去摩爾定律是把器件做的越來越小,現(xiàn)在器件尺寸縮小已經(jīng)接近物理極限了,所以摩爾定律逐漸失效。二是傳統(tǒng)計算架構(gòu)發(fā)展帶來的性能提升日趨緩慢?,F(xiàn)代計算系統(tǒng)普遍采用信息存儲和運算分離的馮諾依曼架構(gòu),其運算性能受到數(shù)據(jù)存儲速度和傳輸速度的限制。具體來說,CPU的計算速度小于1納秒,但是主存DRAM是百納秒左右,也就是存儲的速度遠(yuǎn)遠(yuǎn)低于計算速度。在能耗上,以TSMC45納米的工藝為例,加減乘小于一個pJ,但是32位DRAM的讀要高達(dá)640個pJ,這一比也是百倍的差距。因此存儲速度遠(yuǎn)遠(yuǎn)低于CPU的速度,而存儲的功耗也遠(yuǎn)遠(yuǎn)高于CPU的功耗。這還沒有講存儲的寫,寫的功耗會更高。這樣整個系統(tǒng)的性能受到數(shù)據(jù)存儲速度和傳輸速度的限制,能耗也因為存儲讀的功耗和寫的功耗很大,導(dǎo)致整個系統(tǒng)功耗都很大。

現(xiàn)在可以看到很多新的計算出來了,量子計算、光計算、類腦計算、存算一體。所以當(dāng)我們要思考未來的計算時,我自己覺得量子計算、光計算是向物理找答案,類腦計算、存算一體是向生物找答案,也就是向大腦找答案。

著名的人機大戰(zhàn),人工智能選手AlphaGo用了176個GPU、1202個CPU,功耗是150000W。而我們大腦體積大概1.2L,有1011個神經(jīng)元,1015個突觸,思考的時候功耗是20W。大腦的功耗這么少,這么聰明,這里面還有這么大容量的神經(jīng)元、突觸。所以我們希望用腦啟發(fā)設(shè)計新的人工智能芯片。

我們想通過向生物學(xué)家學(xué)習(xí)、向神經(jīng)學(xué)家學(xué)習(xí),來看看大腦是如何處理計算的。大腦有幾個特點,一個是有大量的神經(jīng)元連接性,以及神經(jīng)元加突觸的結(jié)構(gòu),一個神經(jīng)元將近連接了1萬個突觸。第二個它的時空信息的編碼方式是用脈沖的方式。我們希望模仿大腦的結(jié)構(gòu)和工作機制,用脈沖編碼的形式來輸入輸出。

生物突觸是信息存儲也是信息處理的最底層的生物器件。我們想在芯片上做電子突觸新器件,做存算一體的架構(gòu)。新器件方面我們主要研究的是憶阻器,它的特點是可以多比特,同時非易失,即把電去掉以后可以保持這個阻值,并且它速度很快。還有很關(guān)鍵的一點,它和集成電路的CMOS工藝是兼容的,可以做大規(guī)模集成。近十年我們一直圍繞這個器件來做其優(yōu)化和計算功能。

美國DARPA的FRANC項目提出用模擬信號處理方式來超越傳統(tǒng)的馮·諾依曼計算架構(gòu),希望帶來計算性能系統(tǒng)的增加。任正非在2019年接受采訪時說,未來在邊緣計算不是把CPU做到存儲器里,就是把存儲器做到CPU里,這就改變了馮·諾依曼結(jié)構(gòu),存儲計算合而為一,速度快。阿里2020年的十大科技趨勢里提到計算存儲一體化,希望通過存算一體的架構(gòu),突破AI算力瓶頸。存算一體的理念也是受大腦計算方式啟發(fā)的。

基于憶阻器的存算一體技術(shù)可以分為三個階段:第一個階段是單個器件的發(fā)展階段。2008年惠普實驗室的Stan William教授首次在實驗室制備了憶阻器,之后美國密西根大學(xué)的盧偉教授提出了電子突觸概念,美國UCSB大學(xué)的謝源教授提出了基于憶阻器的PRIME存算一體架構(gòu),引起廣泛關(guān)注。第二個階段開始做陣列,2015年UCSB在12×12的陣列上演示了三個字母的識別,我們團(tuán)隊2017年在128×8的陣列上演示了三個人臉的識別,準(zhǔn)確率能夠大于95%,同時期還有IBM,UMass和HP等研究團(tuán)隊實驗實現(xiàn)了在陣列上的存算一體;第三個階段是存算一體芯片,我們以芯片設(shè)計領(lǐng)域的頂會ISSCC上近幾年發(fā)表的文章為例,2018年松下展示了多層感知機的宏電路,2019年臺灣地區(qū)新竹清華大學(xué)和臺積電聯(lián)合演示了卷積核計算的宏電路,今年清華和斯坦福合作做的限制玻耳茲曼機宏電路。也是今年我們清華團(tuán)隊完成的一個全系統(tǒng)集成的完整的存算一體芯片,從系統(tǒng)測試結(jié)果來看,這個芯片能效高達(dá)78.4TOPs/W,是相當(dāng)高的。我們還做了一個對比,一個是存算一體的芯片和系統(tǒng),一個是用了樹莓派28納米的CPU。我們的芯片跑完一萬張圖片是3秒,而他們是59秒,我們的速度要快很多,準(zhǔn)確率卻相當(dāng)。

今年1月我們在Nature上發(fā)表了一個憶阻器存算一體系統(tǒng)的工作。這個工作主要是把多個陣列放在一起組成一個系統(tǒng),并驗證是否能用作模擬計算來實現(xiàn)AI的工作。我們提出新型混合訓(xùn)練算法,實現(xiàn)了與軟件相當(dāng)?shù)挠嬎憔?。還提出了新型卷積空間并行架構(gòu),成倍提升了系統(tǒng)處理速度。

為什么憶阻器存算一體適合人工智能呢?因為交叉陣列結(jié)構(gòu)特別適合快速矩陣向量乘法。存算一體可以減少權(quán)重搬移帶來的功耗和延時,有效地解決目前算力的瓶頸。另外,人工智能更關(guān)注系統(tǒng)準(zhǔn)確性,而不是每個器件的精度,這特別符合憶阻器和模擬計算的特點。

我們還和畢國強老師合作了一篇綜述文章。利用腦啟發(fā)來設(shè)計人工智能芯片,我們把大腦從I/O通道,到突觸,神經(jīng)元,到神經(jīng)環(huán)路,到整個大腦的結(jié)構(gòu),都和電子器件做了對比。文章題目叫《Bridging Biological and Artificial Neural Networks》,發(fā)表在2019年的Advanced Materials上面,如果大家感興趣可以讀這個文章。

展望未來,希望能夠做一個存算一體的計算機系統(tǒng)。以前是晶體管加布爾邏輯加馮·諾依曼架構(gòu),現(xiàn)在是模擬型憶阻器加模擬計算和存算一體的非馮架構(gòu)。

人工智能無處不在,從云端到我們手機端都有很多人工智能也在深刻影響我們生活,前幾天聽說谷歌用人工智能預(yù)測天氣預(yù)報,比過去物理模型做的好很多,所以說人工智能的應(yīng)用會越來越廣泛。

我們看看不同的人工智能的應(yīng)用對芯片需求是不一樣的。數(shù)據(jù)中心的需求就是要求算力特別高,比如說GPU,芯片算力有多少個TOPs,功耗比較高,但是它的算力很大,比如汽車無人駕駛也是大芯片,算力很高。智能的傳感網(wǎng)、物聯(lián)網(wǎng)和我們手機都是用電池的,這種情況下希望耗能特別低,這時候就追求高能效,比如1W到幾十個TOPs等等,甚至更高,所以不同的應(yīng)用對需求不一樣,這也給了我們芯片領(lǐng)域很多機會,不管是瞄準(zhǔn)數(shù)據(jù)中心服務(wù)器的還是智能終端的。

人工智能有三個浪潮,我主要從三個浪潮和硬件算力的關(guān)系來說。1956年,達(dá)特茅斯開AI夏季研討會,1957年Rosenblatt發(fā)明了第一款神經(jīng)網(wǎng)絡(luò)Perceptron,后來AI就非?;穑蠹野l(fā)現(xiàn)這個有用。到了70年代,后來就出現(xiàn)一些問題,進(jìn)入了低谷,這里面有一個非常重要的因素,雖然理論模型很好,但是缺的算力很多,沒有足夠算力是不行的,那時候芯片的算力只有1M的OPs,其實跟現(xiàn)在比差了很多,所以1到10M OPs的芯片算力很難支撐序列的復(fù)雜任務(wù)。到后來專家系統(tǒng)出現(xiàn),專家系統(tǒng)能回答很多問題,第二波浪潮又起來,這時候很多人做專門圍繞人工智能的計算機,這時候從操作系統(tǒng)上、指令集上等等做了一些設(shè)計,那時候摩爾定律快速推動芯片的發(fā)展,通用計算機的性能飛速上揚,很多事情專業(yè)計算機做的事情,通用計算機也能做,這時候通用計算機性能飛速上揚,逐漸占據(jù)了市場。第二波浪潮下去了。第三波浪潮,2006年Hilton提出深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),到2015年Alex提出利用GPU加速網(wǎng)絡(luò)訓(xùn)練,獲得了當(dāng)年ISV計算冠軍,GPU就成為AI的主要訓(xùn)練平臺,網(wǎng)絡(luò)規(guī)??焖偬嵘?,我們可以看到后來一些專用的硬件,比如谷歌開發(fā)的APU,包括計算所的“寒武紀(jì)”等等,都是新型的硬件架構(gòu)開始走上了舞臺。我們看看AlphaGo的Zero需要5000個TPU訓(xùn)40天才成為地表的圍棋,還是要花很大時間訓(xùn)練的,對他算力的趨勢很大,我們也希望硬件能力革新,能夠支撐發(fā)展。

這張表是我們團(tuán)隊基于英特爾的一個表又重新制作的表。計算機在四幾年的時候,ENIAC,這個計算機當(dāng)時的算力是每秒鐘5000次左右,5000是加法,400是乘法。現(xiàn)在英特爾的CPU,20.8的GFLOPS,這是2019年的。我們看到它的變成,從ENIAC,到英特爾的386、486,到奔騰,到英特爾Croe,它是圍繞著摩爾定律,每18個月翻一番的集成度來提升算力。當(dāng)芯片功耗比較高就調(diào)整為多核,開始進(jìn)入換變期。其實中間還有Nvida的GPU,GPU比CPU搞一個數(shù)量級。但是我們AI的需求,可以看到在這之后每三年四個月翻一番目前,AlphaGo Zero在這個地方,可以看到芯片能夠提供的算力和人工智能的高需求是很矛盾的,所以需要尋找新方法提供算力。

芯片來講算力提升越來越困難。有兩個原因。(圖)這個圖展示80年代到現(xiàn)在的性能表,是J·Hennessy和D.Patterson的文章里講的,目前來講每年的算力提升3%左右。兩個原因,一是過去摩爾定律是把器件做的越來越小,現(xiàn)在器件尺寸縮小已經(jīng)接近物理極限了,所以摩爾定律變換了。二是傳統(tǒng)的計算,存儲計算分子架構(gòu)帶來的性能提升日趨緩慢。

摩爾定律變緩。在2019年我們集成電路的量產(chǎn)工藝是7納米,今年說是要5納米、現(xiàn)在3納米也看到了機會。再往下很難做,原因就是說我們現(xiàn)在原則執(zhí)行一個納米左右,再往下做很多量子效應(yīng)是很難控制的。晶體管尺寸存在物理極限,不可能無限的縮小,所以傳統(tǒng)的不斷縮小器件尺寸的方式已經(jīng)很難往下走了。

存儲墻的瓶頸。馮·諾伊曼架構(gòu)因為存儲、計算分離,1946年提出馮·諾伊曼架構(gòu),處理器分離,處理器專門做計算,算完之后通過總線把數(shù)據(jù)放到存儲器,需要數(shù)據(jù)從存儲器再提取數(shù)據(jù),通過總線傳到處理器來,這種存算分離架構(gòu)在設(shè)計上非常清晰,也助推了過去70年的計算機系統(tǒng)的發(fā)展。但現(xiàn)在受到一個很大的挑戰(zhàn),我們看右邊的表,CPU的計算速度小于1納秒,但是我們主存DRAM是百納秒左右,這方面存儲的速度遠(yuǎn)遠(yuǎn)低于計算速度,差100倍,存儲就拉后腿了。最右邊的圖是能耗圖,TSMC45納米的工藝,可以看到加減乘,其實也就小于一個PCR左右,但是32位DRAM的讀要高達(dá)640個PCR,這一比也是百倍的差距。所以看到存儲速度遠(yuǎn)遠(yuǎn)低于CPU的速度,它的功耗也遠(yuǎn)遠(yuǎn)它的功耗。而且還沒有講存儲的寫,寫的功耗更高。這樣整個系統(tǒng)的性能受到數(shù)據(jù)存儲速度、傳輸速度的限制,能耗也因為存儲讀的功耗、寫的功耗很大,導(dǎo)致整個系統(tǒng)功耗很大。

向大腦找答案

所以我們講人工智能時代我們要思考未來的計算,剛剛唐老師也做了很好的總結(jié),現(xiàn)在可以看到很多新的計算出來了,量子計算、光計算、類腦計算、存算一體。我自己覺得量子計算、光計算是向物理找答案,類腦計算、存算一體是向生物找答案,也就是向大腦找答案。

我們來對比,我們知道人工智能讓我們大家很感興趣,著名的故事AlphaGo和李世石、柯潔大戰(zhàn),一個是2016年3月份,一個是2017年4月份,最后李世石和柯潔都輸了。我們看到AlphaGo用了176GPU、用了1000多個CPU,又把TPU又加上了,它的功耗是150000W,我們大腦體積大概1.2L,有11的11次的神經(jīng)元,10的15次方個突觸,而且在思考的時候功耗是20W,這是非常奇妙的。大腦的功耗這么少,這么聰明,這里面還有這么容量計算的神經(jīng)元、突觸。所以我們希望用腦啟發(fā)設(shè)計新的人工智能芯片是非常必要也是急需的。

我們看一看大腦從微觀到宏觀尺度。(圖)我們從電子信息的角度、芯片角度來看這個問題。以視覺系統(tǒng)來看,視覺信息處理前面眼睛傳感,視網(wǎng)膜是各種各樣的細(xì)胞結(jié)構(gòu)。后面還有對比視覺信息的處理。這是大腦和神經(jīng)環(huán)路的結(jié)構(gòu)。還有很多神經(jīng)元,軸突和另外一個神經(jīng)元的樹突形成了一個突觸。仔細(xì)看突觸,軸突過來,這是樹突接收的地方,然后發(fā)現(xiàn)很多離子通道,離子通道也很關(guān)鍵的,是很重要的機理。從結(jié)構(gòu)上來看,最底層是離子通道,形成了突觸,這個有突觸,這邊有神經(jīng)元,再往上有神經(jīng)環(huán)路,腦網(wǎng)絡(luò)。從微觀到宏觀尺度,怎么反映到芯片里面?怎么反映到Brain Spike Cumputng里面去,這是我們需要思考的問題。

把神經(jīng)元放大里面,這是它的軸突、樹突,這是另外一個神經(jīng)元,它的軸突和樹突交接的地方就是Steps。動作電位是神經(jīng)傳導(dǎo)的勝利基礎(chǔ),例子通過通道移動之后會引起離子膜電位的變化,膜電位的變化介導(dǎo)神經(jīng)信號的傳導(dǎo)。我覺得這里面還有好多可以學(xué)習(xí)的,我今天會簡單提一句我們另外的工作,也是樹突上面的一些計算功能。

類腦計算。大腦有很多奇妙的地方,我們想通過向生物學(xué)家學(xué)習(xí)、向神經(jīng)學(xué)家學(xué)習(xí)看看大腦怎么計算。大腦有幾個特點,有大量的神經(jīng)元連接性的突觸,神經(jīng)元加突觸的結(jié)構(gòu),一個神經(jīng)元將近1萬個突觸。另外它的時空信息的編碼方式是用Spike的方式,Spike之間的間距來看,我們把這些轉(zhuǎn)移Spike過來,在一個神經(jīng)網(wǎng)絡(luò)里面不管是積分也好,還是非線性處理也好,我們希望模仿大腦的結(jié)構(gòu)和工作機制,也就是說我用脈沖編碼的形式來輸入輸出,編碼方式和現(xiàn)在的數(shù)據(jù)上的輸入是不一樣的,剛才唐老師也介紹了這方面的工作。

突觸這個地方,生物突觸是既儲存了信息,I/O通道的情況會對突觸的大小有影響。另外,它的膜電位在這個地方也進(jìn)行了信息處理,我們認(rèn)為突觸結(jié)構(gòu)本身是信息的存儲也是信息處理的最底層的生物器件。我們能不能在芯片方面做同樣的事情,我們做電子突觸新器件,我們做存算一體的架構(gòu),我們改變我們的馮·諾伊曼架構(gòu),存儲計算分離架構(gòu)變成存算一體架構(gòu),這時候新器件我們主要做憶阻器,憶阻器這個器件還是比較簡單的,因為太復(fù)雜的器件集成度上不去。大腦有千萬億個突觸,我們比它少一點也得是多少億以上才行,我們器件很小,很簡單,上電極、下電極,中間是介質(zhì)層。這期間通過里面氧離子的運動,讓我們這個器械的組織可變,這是在持久電壓下的情況。它有個特點,可以多比特,這個器件可以1歐姆可以是2歐姆,可以是3歐姆,可以在不同的組織停下來。同時這個組織是非易失的,把電去掉以后,它保持這個組織,它速度很快,多少納秒之后就行了。還有很關(guān)鍵的一點,它和集成電路的工藝很多是兼容的,也就是CMOS compatible,可以做大規(guī)模集成,這是這個器件的特點,我們主要圍繞這個器件,近十年一直做它的優(yōu)化和在它的上面做計算功能。什么叫新型計算范式呢?在人工智能算法里面有很多向量乘矩陣、矩陣乘矩陣,如果把向量X1、X2、XM,轉(zhuǎn)化成器件的交叉陣列,垂直上電極,中間黃的是介質(zhì)層,在這種情況下,如果把X1到XM轉(zhuǎn)化到電壓的V1、V2到VM,這樣我把這邊G11參數(shù)轉(zhuǎn)化為器件的電導(dǎo),電壓乘以電導(dǎo)就得到電流,這是歐姆定律,定流累計相加就得到了總和電流,這是加法。也就是說我們現(xiàn)在的計算是基于物理定律的計算,這是用完成矩陣乘積的計算。

存算一體美國DAPPA的FRANC項目,美國的ERI“電子復(fù)興計劃”里面提的FRANC項目,他們提出用模擬信號處理方式來超越傳統(tǒng)的馮·諾伊曼計算架構(gòu)的創(chuàng)新,希望帶來計算性能系統(tǒng)的增加。

任正非在2019年4月接受美國采訪時說華為未來一方面做連接做5G,在邊緣計算上做到世界最好,未來在邊緣計算不是把CPU做到存儲器,就是把存儲器做到CPU里面,就改變了馮·諾伊曼結(jié)構(gòu),存儲計算合而為一速度快,他們也在做這個事情。

阿里2020年講十大科技趨勢,趨勢二里面就說,計算存儲一體化,通過AI算力評級??梢哉f采用存算一體的架構(gòu),應(yīng)該說是非常大的突破,我們也希望能夠突破AI算力瓶頸。存算一體的理念也是受大腦計算方式啟發(fā)的。

數(shù)字芯片,它的技術(shù)路線由過去的CPU、GPU,也有谷歌TPU,它是用近存計算來做的,還有存算一體處理器等等。

我們的存算一體處理器,我把它三個階段,單位個器件的發(fā)展階段,惠普的Stan Villiam,在2008年首次在實驗室制備了憶阻器,之后密歇根大學(xué)的盧偉教授提出電子突觸概念,之后華人教授加州大學(xué)的謝源教授提出PRIME存算一體架構(gòu),謝源教授現(xiàn)在在阿里巴巴。

第二個階段,做完器械之后開始做陣列,2015年UCSB的Barbaro Dimitri(音)教授在12×12的陣列上,也是三個字母,Z、V和M三個字母識別,我們2017年在128×8的陣列上,演示了三個人臉識別工作,準(zhǔn)確率能夠大于95%,比CPU+外存儲器高一千倍左右。還包括密歇根大學(xué)的稀疏編碼,惠普和麻省大學(xué)在8K上的MNIST數(shù)據(jù)集,IBM做的結(jié)合相變存儲器和GT1C單元演示前夕學(xué)習(xí),這是他們2018年做的工作。2015年到2018年是國際上多個團(tuán)隊存算一體的陣列工作。

第三個階段是存算一體芯片,芯片可以更好地反映trade-off,松下的宏電路多層感知機,包括新竹清華大學(xué)和臺積電的卷積核計算,ISSCC上面,這是芯片里面最高的會議了。今年我們和斯坦福合作做了宏電路限制玻耳茲曼機,同時我們獨立完成了一個全系統(tǒng)集成的完整的存算一體芯片,也是一個多層感知機。跟它合作的是宏電路,我們這是一個完整的芯片。這個芯片我們從實際系統(tǒng)測試結(jié)果來看能達(dá)到78.4TOPs/W,還是相當(dāng)高的。而且現(xiàn)在的工藝是130納米,我們做了兩個系統(tǒng)對比,左邊是存算一體的芯片和系統(tǒng),右邊是用了樹莓派28納米的CPU,可以看到我們的速度,跑完一萬張圖片是3秒,他們是59秒,速度要快很多。準(zhǔn)確率相當(dāng),能效比它高幾百倍,同時有完整的芯片可以深入的分析各種模塊的性能。

今年1月我們在Nature上發(fā)了文章,這個工作主要是我們把多個陣列放在一起組成一個系統(tǒng),陣列和陣列之間怎么傳數(shù)據(jù),我們來驗證是否能夠用模擬計算實現(xiàn)一些AI的工作,我們提了新型的混合訓(xùn)練算法,也提出了新型卷積空間并行架構(gòu)。

為什么憶阻器存算一體適合人工智能呢?因為交叉陣列結(jié)構(gòu)特別適合快速矩陣向量乘法。存算一體的器件特性可以減少權(quán)重搬移帶來的功耗和延時,有效地解決目前算力的瓶頸。另外,我們覺得人工智能是一個更關(guān)注系統(tǒng)組織性,而不是關(guān)注每個器件的精度,這特別符合憶阻器和模擬計算的特點,這是我們的認(rèn)識。

最后講講我們最近的工作,最近神經(jīng)科學(xué)界發(fā)現(xiàn)樹突不僅僅是傳輸數(shù)據(jù)的功能,也有濾波和積分的作用,它在空間和時間上都可以對一些信號進(jìn)行處理,也就是不是說的信號,不是縮短信號,從突觸通過樹突傳到胞體,而是有很多信號在樹突被過濾掉,我們希望把樹突的概念引入到我們的神經(jīng)元的結(jié)構(gòu)里面去,我們相信這種結(jié)構(gòu)可能會對神經(jīng)網(wǎng)絡(luò)的性能尤其能效大幅度提高。我們做了一個器件,我們整理了一下突觸、樹突和胞體不同的功能,我們還搭了一個系統(tǒng),樹突和胞體連在一起,我們也做了工作,這個工作已經(jīng)被接收,希望盡快能發(fā)表出來。我們發(fā)現(xiàn)動態(tài)功耗能降低30倍左右,而且準(zhǔn)確率還能提高。我們后來覺得注意力等等是不是也和樹突也有關(guān)系。

總的來說,腦啟發(fā)來設(shè)計人工智能芯片,我們寫了一篇綜述文章和畢國強老師合作,在去年Adv.Mater發(fā)表了將近30頁的綜述文章,大家感興趣可以看一看。我們把大腦從I/O通道,到Synapses Neuro,到神經(jīng)環(huán)路,到整個大腦的結(jié)構(gòu),我們和電子器件做了對比,文章題目叫《Bridging Biological and Artificial Neural Networks》,如果大家感興趣可以讀這個文章。

展望未來,希望也能夠做一個存算一體的計算機系統(tǒng),跟以前比,以前是晶體管加布爾邏輯加馮·諾伊曼架構(gòu),現(xiàn)在是模擬憶阻器加模擬計算和存算一體的架構(gòu),同樣我們需要編譯器、指令集等等,還有面向模擬計算的算法等等,上面的應(yīng)用就不用太多變化。

分享三:《神經(jīng)元稀疏發(fā)放在視聽覺通路上的作用》

胡曉林 清華大學(xué)計算機科學(xué)與技術(shù)系副教授

2007年在香港中文大學(xué)獲得自動化與輔助工程專業(yè)博士學(xué)位,然后在清華大學(xué)計算機系從事博士后研究,2009年留校任教至今。他的研究領(lǐng)域包括人工神經(jīng)網(wǎng)絡(luò)和計算神經(jīng)科學(xué),主要興趣包括開發(fā)受腦啟發(fā)的計算模型和揭示大腦處理視聽覺信息的機制。在IEEE Transactions on Neural Networks and Learning Systems, IEEE Transactions on Image Processing, IEEE Transactions on Cybernetics, PLoS Computational Biology, Neural Computation, European Journal of Neuroscience, Journal of Neurophysiology, Frontiers in Human Neuroscience, Frontiers in Computational Neuroscience等國際期刊和CVPR, NIPS, AAAI等國際會議上發(fā)表論文80余篇。他目前是IEEE Transactions on Image Processing和Cognitive Neurodynamics的編委,曾擔(dān)任IEEE Transactions on Neural Networks and Learning Systems的編委。

胡曉林:各位嘉賓好,各位在線朋友們好!非常榮幸今天有機會和大家交流,今天我分享的主題和前面兩位嘉賓分享的正好相反,前面兩位嘉賓講的都是我們神經(jīng)科學(xué)怎么樣啟發(fā)做新的器件,因為這個主題是AI和腦科學(xué)的交互,我來講另外一個方面的工作,就是AI的發(fā)展,神經(jīng)網(wǎng)絡(luò)的發(fā)展,怎么樣促進(jìn)神經(jīng)科學(xué)的研究。

我對神經(jīng)科學(xué)和AI方面都比較感興趣,兩方面的工作都在做。今天主要是講從AI到BI這方面的兩個小工作。我今天介紹的內(nèi)容和前兩位嘉賓有點不同,前兩位嘉賓講的都是非常宏大,我今天只是介紹兩個點上的工作。

神經(jīng)網(wǎng)絡(luò)和神經(jīng)科學(xué)與大腦視覺皮層是有一定關(guān)聯(lián)的

首先看一下背景。左邊是視覺系統(tǒng)大致的通路,信息從視網(wǎng)膜到LGN到腦皮層。中間是聽覺皮層,也是一個層次化結(jié)構(gòu),信息從耳蝸一直傳到聽覺皮層。右邊是典型的神經(jīng)網(wǎng)絡(luò)。從圖上可以看到,至少我們現(xiàn)在的神經(jīng)網(wǎng)絡(luò)和視覺、聽覺系統(tǒng)有一定的相似性,至少是層次化的結(jié)構(gòu)。基于這種相似性是不是可以利用現(xiàn)在神經(jīng)網(wǎng)絡(luò)的飛速發(fā)展來促進(jìn)神經(jīng)科學(xué)的研究,促進(jìn)我們對大腦的視覺、聽覺或者其他感覺皮層工作機制的理解呢?這是我們今天要重點討論的問題。

這個方面的工作,比較早期的一個工作,是2014年MIT的教授他們做的一個工作,他們用一個神經(jīng)網(wǎng)絡(luò),一個CNN去訓(xùn)練了一個圖片分類的模型,然后同樣的圖片給猴子看,可以記錄猴子不同的視覺區(qū)域,比方說V4和IT兩個區(qū)域神經(jīng)元的發(fā)放,最后去比較神經(jīng)網(wǎng)絡(luò)不同層和猴子的不同皮層V4和IT這兩個區(qū)域神經(jīng)元的相關(guān)性。發(fā)現(xiàn)不同神經(jīng)網(wǎng)絡(luò)層的神經(jīng)元反應(yīng)的特點正好對應(yīng)猴子IT、V4區(qū)域反應(yīng)的特點。這是第一次證明神經(jīng)網(wǎng)絡(luò)和神經(jīng)科學(xué)和大腦視覺皮層是有一定關(guān)聯(lián)的。

這是一個神經(jīng)科學(xué)的發(fā)現(xiàn),我們先簡單介紹一下這個神經(jīng)科學(xué)發(fā)現(xiàn),然后對比一下。這是2013年紐約大學(xué)的一個工作,他們做了一個實驗,讓猴子和人去看兩種不同的圖片,這是從原來的自然圖片通過算法合成的兩種不同的圖片,中間的比較像自然圖片,右邊是噪聲圖片,不完全是噪聲,是從自然圖片合成的噪聲。然后給猴子這兩類圖片,NT是中間那一列,SN是右側(cè)一列,V1區(qū)域記錄猴子的發(fā)放,發(fā)現(xiàn)V1的神經(jīng)元對這兩類圖片的反應(yīng)差不多,基本上分不開。但是到V2神經(jīng)元對于NT一類的圖片反應(yīng)高一些,對于SN類的圖片反應(yīng)低一些,也就是在V2有一個區(qū)分。他們定義了Index,一個神經(jīng)元的Index如果越高,就說明這個神經(jīng)元越喜歡比較上面的圖片,那個圖片從數(shù)學(xué)定義上來講是含有高階統(tǒng)計特性的圖片,時間關(guān)系,不展開講它具體的數(shù)學(xué)定義,什么叫含有高階統(tǒng)計特性??偠灾甐1區(qū)域,所有的神經(jīng)元的Modulation Index都集中在0附近,在0左右對稱。在V2,大部分神經(jīng)元的Modulation Index都是正的,也就是大部分的神經(jīng)元都是喜歡這種比較像自然圖片的圖片。

2015年的時候日本的一個研究小組在另外一個區(qū)域,就是猴子的V4區(qū)域,他們發(fā)現(xiàn)了同樣的結(jié)論。V4的神經(jīng)元相對V1來講,他們更喜歡具有高階統(tǒng)計特性比較像自然圖像的圖片,而不是噪聲。

為什么會又有這樣的結(jié)果?為什么V2和V4的神經(jīng)元他們喜歡像自然圖像的圖片而不是那種噪聲呢?為了研究這個問題,有兩種選擇,一種是用傳統(tǒng)的計算模型,計算神經(jīng)科學(xué)領(lǐng)域早期的模型都是單層的,現(xiàn)在為了研究這個問題顯然單層模型沒有辦法的,因為研究的是視覺皮層的高級皮層,如果沒有下面的這些層,上面就沒有辦法研究,所以需要一個層次化的模型,所以我們考慮用深度學(xué)習(xí)的模型來研究這個問題。

這是我們的模型,我們構(gòu)建了這樣一個模型,這是很標(biāo)準(zhǔn)的深度學(xué)習(xí)模型,有輸入輸出,我們用同樣的方式從自然圖片中創(chuàng)造出一種像自然圖片的圖片,一種是噪聲圖片,這個噪聲不是隨機噪聲,它也是具有一定語義的,但是它和像自然圖片的圖片有所不同。我們把這兩類圖片輸入到模型里面去,然后記錄每一層神經(jīng)元的反應(yīng)。我們也可以定義每個神經(jīng)元的Modulation Index,這個Modulation Index比較大就說明這個神經(jīng)元比較喜歡具有高階統(tǒng)計特性的圖片。

結(jié)果非常有意思。有三行,第一行是AlexNet,第二行是VggNet,大家如果做深度學(xué)習(xí)的話是非常熟悉的,這兩類非常典型的卷積神經(jīng)網(wǎng)絡(luò)。這兩個神經(jīng)網(wǎng)絡(luò)有很多層,我們把他們分成五個大層,AlexNet本身就有五個卷積層,Vgg因為中間有很多max pooling,以此為界可以把相鄰的幾個卷積層分成一個大層,總共也會有五個層,統(tǒng)計每個大層的Modulation Index,就是藍(lán)色的柱狀圖,基本上隨著層數(shù)越高,它的Modulation Index越高,右邊的圖顯示的每一層,Modulation Index的分布,可以看到在LAYER1的時候,Modulation Index集中在O,左右差不多對稱,越往后面去,Modulation Index越來越正,最后大部分集中在1,也就是說比較頂層LAYER5大部分神經(jīng)元就是特別喜歡高階統(tǒng)計特性的圖片。下面還有一個網(wǎng)絡(luò)這是一個無監(jiān)督模型,我們叫它SHMAX,它的結(jié)構(gòu)跟上面兩個結(jié)構(gòu)基本是一樣的,唯一區(qū)別是它的學(xué)習(xí)是一種無監(jiān)督學(xué)習(xí),我們可以得到同樣的結(jié)果,藍(lán)色柱狀圖和后面的Modulation Index分布都是一樣的結(jié)論。剛才最后的模型,每一層的學(xué)習(xí)是Sparse codind,Sparse coding的公式在這兒,我想很多朋友應(yīng)該聽說過這個模型,這是經(jīng)典模型,1996年就提出來了,這是一個無監(jiān)督學(xué)習(xí)模式,也就是對于圖片不需要監(jiān)督,就可以進(jìn)行學(xué)習(xí)。我把這個模型堆疊很多層,先學(xué)一層,把它的輸出作為下一層的輸入,在下一層繼續(xù)用同樣的過程進(jìn)行學(xué)習(xí),就可以得到剛才說的第三個模型。

也就是說對于有監(jiān)督學(xué)習(xí)模型和無監(jiān)督學(xué)習(xí)模型,他們的Modulation Index都是隨著乘數(shù)的增加而增高的。到底是什么樣的因素導(dǎo)致了這些神經(jīng)網(wǎng)絡(luò)具有這樣的特性,我們考察了很多因素,最后我們發(fā)現(xiàn),Response Sparseness非常重要,它跟Modulation Index成正相關(guān)的關(guān)系,比如我們看AlexNet、VggNet、以及SHMAX,你看他們的稀疏性Sparseness,你給它看很多圖片,很多時候神經(jīng)元是不發(fā)放的,因為它有一個ReLU,有些時候是不發(fā)放的,有些時候是發(fā)放的,Sparseness定義的是神經(jīng)元在多大的比例是不發(fā)放的,可以看到隨著層數(shù)上升,Sparseness會越來越強,正好跟Modulation Index趨勢差不多,我們做了對照實驗,AlexNet每一層的稀疏性越高,Modulation Index也會越高,SHMAX也是一樣,稀疏性越高,Modulation Index就會越高。

簡單總結(jié),我們通過三個深度學(xué)習(xí)模型上發(fā)現(xiàn)和猴子視覺皮層高層反應(yīng)特點類似的一個結(jié)論。當(dāng)然也可以做一些預(yù)測,時間關(guān)系,這些模型預(yù)測我就不講了。

稀疏發(fā)放的特點和神經(jīng)科學(xué)的發(fā)現(xiàn)是呈正相關(guān)的關(guān)系

第二個工作,這是一個關(guān)于聽覺的。剛才已經(jīng)提到聽覺皮層也是層次化的結(jié)構(gòu),人們在聽覺通路上也發(fā)現(xiàn)了很多有意思的一些結(jié)果,比如說在耳蝸后有一個nerve fiber(59:03),你給它一些刺激,它的反映特別是呈這樣的小窩的形式,在下丘這個地方,這些神經(jīng)元它們的感受也是可以測出來的,橫軸是時間、縱軸是頻率。在聽覺皮層,人們發(fā)現(xiàn)在皮層里面有很多神經(jīng)元或者有很多Local area,他們可以特異性的一些音素比較喜歡,音素是比音節(jié)更小的單元,比如“a”里面有輔音“b”,元音“a”,元音輔音這些東西又叫音素。

作為計算能力科學(xué)怎么解釋這些結(jié)果?計算機科學(xué)已經(jīng)用Sparse coding解釋了nerve fiber 和下丘(IC)的神經(jīng)元的反映情況,具體是這樣的,這個模型還是Sparse coding模型,X是輸入、S是Response,如果你的輸入不再是圖片如果是語音,最后解出來A,A是每個神經(jīng)元的感受野,它就長成這樣小波的形式。在IC區(qū),用同樣模型只是把輸入改了一下,輸入不再用位子格式的輸入,而是進(jìn)行視頻轉(zhuǎn)換,輸入頻譜圖,把頻譜圖當(dāng)成X,再去求解一個Sparse coding模型,就會得到神經(jīng)元的感受點也呈這樣的形式,神經(jīng)科學(xué)家已經(jīng)發(fā)現(xiàn)IC區(qū)的神經(jīng)元的感受點的形狀就是長這樣。

前面兩個層級的神經(jīng)元的反應(yīng)特點已經(jīng)被解釋了,第三層級,就是最高層,這個現(xiàn)象怎么解釋呢?核心含義是給病人插一些電極,做手術(shù)的病人插一些電極,可以發(fā)現(xiàn)有些電極特別喜歡d、g、e、h、k、t這幾個輔音,有些電極喜歡摩擦音,還有的喜歡元音o、e、i??偠灾麄儼l(fā)現(xiàn)在人類的Quarter上面,神經(jīng)元對音素有特異化的表達(dá),這種表達(dá)是怎么出現(xiàn)的呢?就是我們要回答的問題,我們?yōu)槭裁从羞@樣的表達(dá)。第二個問題是前面比較低的皮層用Sparse coding解釋了他們的現(xiàn)象,同樣的Sparse coding模型能不能解釋高層的現(xiàn)象呢?為了回答這兩個問題我們做了層次化的稀疏編碼模型,典型的CNN結(jié)構(gòu),只不過我們每一層的學(xué)習(xí)不再用BP算法,而是用Sparse coding,第一層學(xué)習(xí)完以后再學(xué)習(xí)第二層,第二層學(xué)完以后再學(xué)第三層,就這樣從底層一直到高層學(xué)習(xí),我們的輸入就是時頻格式的信號。

有意思的是,構(gòu)建了這樣的層次化的稀疏編碼模型,我們把靠中間的層拿出來,S2第二卷積層,把這個地方的神經(jīng)元的感受畫出來,可以看到這些感受野和神經(jīng)科學(xué)家在下丘測出來的神經(jīng)元的感受野有類似的形狀,這些感受野的形狀參數(shù)的分布也和在貓的下丘這個地方測的參數(shù)分布是一致的。最有意思的是到頂層以后,我們發(fā)現(xiàn)頂層Layer C6,這里很多神經(jīng)元特異性的喜歡一類音素,比如B、P、L、G,還有一些神經(jīng)元喜歡元音,a、o、e。而且聚集效應(yīng)在頂層最明顯,在下面這些層也有,只不過這個效應(yīng)低一些,數(shù)值越低就是說它的聚集效應(yīng)低一點。也就是說這個模式并不是陡然在頂層出現(xiàn)的,其實下面的層級也出現(xiàn)了,只不過神經(jīng)科學(xué)家們沒有測到下面那些區(qū)域神經(jīng)元有這樣的表達(dá),當(dāng)然這是我們的推測。

總結(jié)一下,我們發(fā)現(xiàn)一些深度學(xué)習(xí)的模型在中層和高層這些地方,這些神經(jīng)元的反應(yīng)和視覺和聽覺的中層和高層的真實的神經(jīng)元的反應(yīng)有一定的一致性,這個結(jié)果并不是一個非常Trivial的結(jié)果,我們并沒有嘗試Fit數(shù)據(jù),所有的學(xué)習(xí)準(zhǔn)則要么是使得分類的準(zhǔn)確率高,要么是使得重建的輸入準(zhǔn)確,并沒有Fit任何生理學(xué)的數(shù)據(jù),但是就是出現(xiàn)了這樣的特性,所以我們覺得這樣的結(jié)果還是非常有意思的。第二個結(jié)論,稀疏編碼,前面研究的這些深度學(xué)習(xí)模型都有一個稀疏發(fā)放的特點,而且稀疏發(fā)放的特點和神經(jīng)科學(xué)的發(fā)現(xiàn)有重要的關(guān)系,當(dāng)然這些深度神經(jīng)網(wǎng)絡(luò)去研究神經(jīng)科學(xué)的問題也是存在巨大的缺陷,就是他們模型的細(xì)節(jié)結(jié)構(gòu)和生物上的系統(tǒng)還是存在著非常大的差異,所以沒有辦法用很粗糙的學(xué)習(xí)模型去研究細(xì)節(jié)的神經(jīng)科學(xué)的問題。

感謝大家!

討論環(huán)節(jié)

山世光:謝謝胡老師給我們分享了兩個非常具體的案例,試圖去建立AI特別是深度學(xué)習(xí)模型和我們腦的神經(jīng)網(wǎng)絡(luò)之間在某一些層面的一致性。

再次感謝三位嘉賓的精彩分享,接下來我們進(jìn)入嘉賓討論環(huán)節(jié)。

我們今天的討論嘉賓除了剛剛已經(jīng)給大家介紹過的作分享的三位老師外,我們有幸邀請到三位討論嘉賓,他們分別是來自北京師范大學(xué)認(rèn)知神經(jīng)科學(xué)與學(xué)習(xí)國家重點實驗室的畢彥超老師,來自中國科學(xué)技術(shù)大學(xué)神經(jīng)生物學(xué)與生物物理學(xué)系系畢國強老師,來自北京大學(xué)信息科學(xué)技術(shù)學(xué)院長聘教授吳思老師。

畢彥超:我是來自北京師范大學(xué)認(rèn)知神經(jīng)科學(xué)與學(xué)習(xí)國重的畢彥超,謝謝山老師和未來論壇的邀請。

我自己做認(rèn)知神經(jīng)科學(xué)研究,我覺得整個論壇做認(rèn)知或者整個領(lǐng)域國內(nèi)做認(rèn)知的相對少一些,所以請允許我稍微介紹一下我們整個主題。我們關(guān)注人的認(rèn)知功能的腦基礎(chǔ),我們實驗室關(guān)注的核心問題是物體識別和知識的存儲。

我們關(guān)于大千世界有各種各樣的知識,比如簡單的,剪刀有什么功能?玫瑰有什么顏色?最近我們學(xué)到的新冠病毒是什么?都存在大腦當(dāng)中,記憶系統(tǒng)的一部分叫語義記憶。有了這些知識信息我們才可以做各種各樣的認(rèn)知功能,我們可以識別物體,理解詞的意思。我們實驗室特別關(guān)注這種知識,在記憶里面存儲在大腦什么地方。以什么樣的形式,編碼什么樣的信息。我們關(guān)注人的高級功能,拿各種各樣的人群做實驗。比如正常人,把他放在核磁機器里,讓他做知識提取加工任務(wù),看大腦活動模式是什么。先天盲人和聾人,完全剝奪視覺和聽覺的經(jīng)驗,看對大腦的知識和理解有什么樣的影響。

我們還做各種各樣的腦損傷病人,破壞大腦各種各樣的地方,看對什么樣的知識缺失。我們發(fā)現(xiàn)很多有趣的結(jié)果,很期待和AI領(lǐng)域的各位同行和朋友去交流,很想試一試我們的新發(fā)現(xiàn)和思路。

我是默默關(guān)注AI很多年,我一直受認(rèn)知心理學(xué)訓(xùn)練,在我早期念書的時候,AI早期的理論模型、PTP模型,都是天然的一些認(rèn)知心理學(xué)的模型。后來自己工作關(guān)注到大腦的機制,發(fā)現(xiàn)中間有很多年的鴻溝。前些年機緣巧合參加了AI兩個主要領(lǐng)域的會議,機器視覺和自然語言處理,發(fā)現(xiàn)很大的領(lǐng)域這么多人,用和我們非常相似的詞匯,但是其實做非常不同的事情也有很多不同的視角。所以這些年我也盡量學(xué)習(xí)和了解AI領(lǐng)域?qū)ξ覀兿嗨频膯栴}的理解和思路,對我自己有很多的啟發(fā),同時我也覺得我們對人腦認(rèn)知計算的很多新特點的發(fā)現(xiàn),AI領(lǐng)域真的應(yīng)該過來試一試,很好玩,所以非常有興趣參加這種跨學(xué)科的交流活動,謝謝未來論壇。

畢國強:非常感謝世光老師、華強老師與論壇的邀請,非常高興參加這次跨界論壇。我現(xiàn)在研究的工作和教書都是神經(jīng)生物學(xué),我自己本科是學(xué)物理的,跟AI還是有一些特別的淵源。1988年左右,趙凱華老師組織過一個全國人工神經(jīng)網(wǎng)絡(luò)研討班,我跟著趙老師和他的研究生在研討班上做記錄,當(dāng)時就覺得非常神奇,然后就特別想要了解一下大腦神經(jīng)網(wǎng)絡(luò)是怎么回事兒,于是研究生的時候就開始學(xué)生物,算是一個曲折的經(jīng)歷。

我們現(xiàn)在做的神經(jīng)生物學(xué)工作與剛才華強、華錦老師都提到突觸可觸性有關(guān),我關(guān)注的主要是學(xué)習(xí)記憶的規(guī)則和機制,這也與AI有關(guān)。AI之所以有這么強的威力,一個根本原因就是它的學(xué)習(xí)能力。我們研究大腦的學(xué)習(xí)和記憶主要關(guān)注兩個層次,一個是在突觸的層次,一個是在大腦神經(jīng)網(wǎng)絡(luò)的層次。在突觸層次上,可塑性是一種局域規(guī)則,比如我們研究的STDP,剛才兩位老師也講到過,是在生理條件下很多系統(tǒng)里大家也都觀測到的規(guī)則,也應(yīng)用在許多計算神經(jīng)科學(xué)和脈沖神經(jīng)網(wǎng)絡(luò)模型里。但實際上的STDP和脈沖神經(jīng)網(wǎng)絡(luò)的應(yīng)用還不是很成功,它的性能一直很難上去。我個人對這方面的理解是STDP作為一個生物學(xué)規(guī)律的描述還不是非常完善,比如在不同類型的神經(jīng)突觸甚至同一類型的神經(jīng)突觸的不同狀態(tài)下,STDP規(guī)則都可能很不一樣。這樣的話如果我們只是簡單應(yīng)用同一個簡化的規(guī)則,確實可以理解會遇到很多問題。而完整的規(guī)則對于實驗神經(jīng)生物學(xué)家來說是一個很大的挑戰(zhàn),原因是我們?nèi)匀蝗狈伤苄詸C理的深刻理解,而這在一定程度上是由于實驗技術(shù)的局限。

最近十來年我們做的事情是嘗試發(fā)展和應(yīng)用新的微觀成像技術(shù),包括最新的超分辨光學(xué)顯微和冷凍電鏡技術(shù)來看突觸到底是什么樣的,將來再進(jìn)一步去看它在可塑性中發(fā)生什么變化。另一方面在發(fā)展新的工具來看更大尺度上大腦神經(jīng)網(wǎng)絡(luò)是什么樣的,我們最近這幾年發(fā)展了一個新的高通量腦結(jié)構(gòu)成像方法,可以很快的把一個鼠腦的神經(jīng)元和全腦尺度的連接三維結(jié)構(gòu)很快拍出來,這樣的一個工具也讓我們能夠開始探討動物在某些行為下的神經(jīng)活動的印跡,再反推神經(jīng)活動和行為之間的關(guān)系。我們正在深圳建設(shè)科大和深圳先進(jìn)院的聯(lián)合研究中心,叫腦信息中心,在那里我們希望通過這些不同尺度的成像方法來探索腦結(jié)構(gòu)和功能的大數(shù)據(jù)信息。這些數(shù)據(jù)的進(jìn)一步分析,也需要AI的方法,而從這些分析得到的結(jié)果,也希望能對AI的進(jìn)一步發(fā)展提供素材和啟發(fā)。這是我們做的事情,謝謝大家。

吳思:我先介紹一下自己,我是來自北京大學(xué)的吳思,我的研究方向是計算神經(jīng)科學(xué)。簡單說,計算神經(jīng)科學(xué)就是用計算的方法來研究腦科學(xué),很顯然這樣的研究會有很多附產(chǎn)品,可以啟發(fā)我們發(fā)展人工智能的算法。

我課題組目前有50%的精力在做計算神經(jīng)科學(xué),另外50%做類腦計算。目前比較關(guān)注的課題包括:神經(jīng)編碼的機制與模型,如大腦表征信息的正則化模型,大腦如何做貝葉斯推理,以及多模態(tài)信息整合的問題;另一個大的方向是關(guān)于視覺信息的加工機制,如神經(jīng)反饋的作用,皮層下的視覺通路計算功能,以及皮層上和皮層下通路之間如何實現(xiàn)信息融合。另外,我們也做一些腦啟發(fā)的類腦計算研究,如用連續(xù)吸引子網(wǎng)絡(luò)大腦實現(xiàn)物體跟蹤,尤其是在加入負(fù)反饋的情況下實現(xiàn)預(yù)測跟蹤;同時受皮層下視覺通路啟發(fā),我們也發(fā)展一些算法,可以做運動模式的識別、物體全局信息識別等,這些都太細(xì)節(jié),這里就不詳細(xì)介紹。

首先感謝未來論壇的邀請,今天的主題是關(guān)于AI和腦科學(xué)之間的關(guān)系。在很多不同的場合總有人問我這個問題。從大的方面說,AI就是我們要創(chuàng)造一個人工的智能體,這是個工程問題;而腦科學(xué),尤其腦科學(xué)中關(guān)注信息處理的研究,是要解析生物的智能體,這是一個科學(xué)問題。因此,AI和腦科學(xué)的關(guān)系從某種意義上說就是科學(xué)和工程的關(guān)系。在AI中,大家最近經(jīng)常強調(diào)深度學(xué)習(xí)的有可解釋性,就是我們要打開深度學(xué)習(xí)網(wǎng)絡(luò)的黑箱,這其實也是腦科學(xué)研究一直在干的事情,只不過打開的是生物體智能的黑箱。兩者都是在干同一個解析智能的問題,一個是從工程的角度我們怎么去創(chuàng)造一個智能體,而另一個是從科學(xué)的角度去解析大腦的工作原理。因此,兩者之間的互動和互補是很顯然的。一方面,大腦是自然界已經(jīng)存在的智能體,我們了解它肯定能夠幫助AI發(fā)展;另一方面,創(chuàng)造AI也有助于我們真正了解生物智能。有一種說法是了解一個事物,最佳的方法就是你去制造它。

AI和腦科學(xué)互助從邏輯上說是非常自然的。大腦是宇宙中已知的最好的智能體,發(fā)展人工智能當(dāng)然要從大腦中去學(xué)。腦科學(xué)的確已經(jīng)給了AI啟發(fā),但目前還遠(yuǎn)遠(yuǎn)不夠。從我自己的研究經(jīng)驗看似乎經(jīng)常是AI幫助我做腦科學(xué),而不是腦科學(xué)對AI有什么幫助。這個問題出在什么地方呢?一個很大的問題是吳華強老師剛才說的,現(xiàn)在的算力不夠;即便計算神經(jīng)科學(xué)發(fā)展了一些好模型,如果沒有很好的算力,就實現(xiàn)不了,體現(xiàn)不出腦啟發(fā)的優(yōu)點。此外,我覺得還有兩個問題經(jīng)常被大家忽視。一是目前AI的應(yīng)用其實關(guān)注的任務(wù)相比我們?nèi)四X的高級認(rèn)知功能來說還是太簡單。比如AI的很多應(yīng)用涉及的核心任務(wù)是目標(biāo)識別,但大腦在我們?nèi)粘I钏媾R的計算遠(yuǎn)遠(yuǎn)不是簡單的目標(biāo)識別。當(dāng)AI應(yīng)用以后走向更復(fù)雜的任務(wù),可能腦科學(xué)能夠提供更多的幫助。還有一個問題涉及當(dāng)前實驗室科學(xué)的研究,計算神經(jīng)科學(xué)要根據(jù)實驗數(shù)據(jù),但當(dāng)前的實驗范式通常都太簡單了,比如對猴子呈現(xiàn)一個簡單的刺激,然后記錄大腦內(nèi)神經(jīng)元怎么反應(yīng),即便我們把整個計算過程揭示出來,它對我們認(rèn)識大腦的高級認(rèn)知功能還相差很遠(yuǎn)。所以實驗科學(xué)家也要加把勁,把整個實驗范式設(shè)置的更復(fù)雜,更多揭示大腦如何實現(xiàn)高級認(rèn)知功能,在此基礎(chǔ)上計算神經(jīng)科學(xué)的建模、以及發(fā)展的算法才能對AI有用。

第一:腦科學(xué)已經(jīng)為AI發(fā)展提供了什么思想、方法和技術(shù)?有哪些典型案例?

吳華強:我們最近剛剛做一個樹突計算的事情,我們最開始做,其實是我們看一個器件和樹突優(yōu)點相似,過去神經(jīng)網(wǎng)絡(luò)里只有神經(jīng)元和樹突,樹突在神經(jīng)元里面不體現(xiàn),也就是所有的突觸的信號都傳到胞體上和neuro上來了,然后Neuro再做integrate/fire。我們發(fā)現(xiàn)有一些憶阻器和我們的突觸不一樣,可能有積分功能和過濾功能,后來就跟吳思老師、和畢老師討論過,覺得和樹突有點相似,我們就開始研究樹突能不能做一個Electronic dendrite Device,后來發(fā)現(xiàn)很有意思,人的大腦里突觸很多,突觸的很多信號如果都傳到胞體上,胞體就崩潰了,就分掉了,這是我猜測的。

不是所有的樹突都傳到胞體上去,它空間上會group,而且時間上也會做一些group。很多信號,70%、80%的信號突觸上產(chǎn)生的并不傳到胞體上來,它只把重要的信號傳過來,接近胞體比較近的樹突那邊有一個負(fù)的結(jié)構(gòu),這種結(jié)構(gòu)對我們神經(jīng)網(wǎng)絡(luò)是不是可以大幅度的提升,神經(jīng)網(wǎng)絡(luò)是不是可以引入一個輕的樹突,就把有一些突觸的Synapses weight,它和多加一層(神經(jīng)元)不一樣,多加一層“W…”(神經(jīng)元)就要多加一個層weight(權(quán)重),樹突其實和Neuro Soma是緊密結(jié)合的,一個胞體,一個Neuro有很多個樹突,是固定連接。如果引入樹突,會不會讓我們整個計算更加準(zhǔn)確。甚至我們的注意力也和這個有關(guān)系。后來我們做了一點工作,把突觸和樹突和胞體,在實驗場連在一起,做一個小的系統(tǒng),發(fā)現(xiàn)還挺有意思的。一方面對SVA圈數(shù)據(jù)集,街邊的數(shù)字,門牌號進(jìn)行識別,發(fā)現(xiàn)準(zhǔn)確率提高了,動態(tài)能效提高30倍。這是舉個例子說通過對腦科學(xué)理解讓AI網(wǎng)絡(luò)更加提升。

山世光:這是挺有意思的一個話題,剛才說到猜測樹突是不是有濾波的功能,過去我們說MCP的神經(jīng)元模型里面是一個積分,你是不是相當(dāng)于對每一路的輸入又有一個濾波,是又加了一層濾波嗎?

吳華強:就是那個器件可以對它進(jìn)行過濾,我介紹的器件并不是百分之百把樹突功能都模仿了,也許在做新的電子器件,網(wǎng)絡(luò)架構(gòu)上可以發(fā)生變化,去年10月我到美國訪問MIT,它的實驗室有一個教授做的報告就有樹突計算的,我聽了一下,他有一個觀點,樹突的長度和智慧是有關(guān)聯(lián)的。他說老鼠的樹突多長、人的樹突多長,智慧和樹突的長度有關(guān)系。也許給我們AI帶來很大變化。

畢國強:華強老師說的樹突計算非常有意思,我聽到華強的結(jié)果也非常興奮,最后的效能提升是由于什么原因?是不是樹突的濾波性質(zhì)或樹突本身的構(gòu)架?這種構(gòu)架可能把突觸變得不太一樣,一般人工神經(jīng)網(wǎng)絡(luò)構(gòu)架中每個突觸的基本性質(zhì)是一樣的,樹突構(gòu)架可能引入了異質(zhì)性。另外,樹突結(jié)構(gòu)本身的層級結(jié)構(gòu)的復(fù)雜性也可能會對最終產(chǎn)生的計算能力有一些影響。關(guān)于異質(zhì)性,我剛提到的突觸可塑性,STDP應(yīng)用到人工神經(jīng)網(wǎng)絡(luò)效果不好,一個可能的原因就是異質(zhì)性。所以華強的這個工作,把樹突結(jié)構(gòu)加進(jìn)去,非常值得進(jìn)一步看到底是哪些特征產(chǎn)生了這些性能的提升或者改變。

當(dāng)然從哲學(xué)層次上來說,生物的大腦和神經(jīng)系統(tǒng)是很多年進(jìn)化的結(jié)果,是經(jīng)過自然選擇,證明是能夠Work的東西。但這里面又有多個尺度上的復(fù)雜性,從最小尺度上,即使只是看突觸不到一微米大小的設(shè)備,其實真實的突觸非常復(fù)雜,然后到環(huán)路、到整個大腦的結(jié)構(gòu)。我們?nèi)ツ7麓竽X,可能在不同尺度、不同層次上都可以獲得不同的啟發(fā)。這個時候關(guān)鍵的一點是我們從中得到的東西要分析出來是哪些特性能夠?qū)I起到正面的作用。我覺得短時間內(nèi)要全面地模仿大腦肯定是不現(xiàn)實的,所以我們需要從復(fù)雜的層級結(jié)構(gòu)中抽提出關(guān)鍵特性一步一步模仿。

第二:從腦科學(xué)可以轉(zhuǎn)化到AI來的,大家可以不可以分享一些更好的案例?

胡曉林:剛才的問題是問腦科學(xué)已經(jīng)為AI提供了什么樣的幫助,有很多工作其實是從腦科學(xué)啟發(fā)過來,追根溯源到1943年,麥克和皮茨這兩個人第一次提出人工神經(jīng)元MP神經(jīng)元,如果沒有他們提出人工神經(jīng)元,后面的這些CNN等等都是不存在的,他們其實是做神經(jīng)科學(xué)的,他們嘗試發(fā)明計算模型并解釋大腦的工作,他們提出了這種邏輯運算的MP神經(jīng)元。后來Rosenbaltt把MP神經(jīng)元擴(kuò)展了一下,得到了多層感知機。后來在1989年、1990年的時候Yan LeCun等人提出來CNN,當(dāng)時是受了Neocognitron模型的啟發(fā),Neocognitron是日本人Fukushima提出來的,我真的找過他那篇論文,Neocognitron的結(jié)構(gòu)和現(xiàn)在CNN的結(jié)構(gòu)一模一樣,唯一區(qū)別是學(xué)習(xí)方法不一樣,Neocognitron在1980年提出來時還沒有BP算法。Neocognitron怎么來的呢?它是受到一個神經(jīng)科學(xué)的發(fā)現(xiàn),在貓的視覺皮層有簡單細(xì)胞、復(fù)雜細(xì)胞兩種細(xì)胞,從這兩種細(xì)胞的特點出發(fā)構(gòu)建了Neocognitron嘗試去解釋大腦怎么識別物體的。后來才發(fā)展到CNN。MP神經(jīng)元和Neocognitron這是兩個具有里程碑意義的方法,這是很典型的神經(jīng)科學(xué)給我們AI的啟發(fā)的工作,甚至可以說是顛覆性的工作。

坦白說到這次神經(jīng)網(wǎng)絡(luò)、人工智能的騰飛,這次騰飛期間我并沒有看到特別多令人非常興奮的腦啟發(fā)的工作,我本人也做了一些這方面的工作,發(fā)現(xiàn)目前一些受腦科學(xué)啟發(fā)的計算模型好像都沒有我剛才說的那兩個模型的意義那么大。希望這個領(lǐng)域能出現(xiàn)一些新的腦啟發(fā)的方法,哪怕它們現(xiàn)在的性能非常差,但是十幾年、幾十年以后,它們也許會成為奠基性的工作。

山世光:SNN還需要時間再去進(jìn)一步觀察,因為目前還沒有到那么強大的地步。吳華強老師做存算一體,不知道很可能會成為未來值得關(guān)注受腦啟發(fā)做計算的模型。

胡曉林:有可能。

畢彥超:我們了解任何一個智能系統(tǒng),比如戈登摩爾,我們非常喜歡的一位計算神經(jīng)科學(xué)家說,了解任何一個智能系統(tǒng),要從三個層次看:計算、算法和實現(xiàn)。我聽到剛才大家講的,借鑒的大多都是在實現(xiàn)層面的,包括硬件、底層、神經(jīng)元,等等。我覺得在計算和算法的層面上,對于這兩個基本機理完全不同的智能系統(tǒng),計算和算法有很多可以參考的地方。我覺得目前沒有看到這方面的界線,我會覺得認(rèn)知神經(jīng)科學(xué)或者認(rèn)知心理學(xué)是一個寶藏。剛才吳老師也提到在視覺加工的時候,至少人腦和猴腦的視覺絕對不僅僅是識別這個標(biāo)簽就可以了,是為了正確規(guī)避的反應(yīng),有社交的功能。我們已經(jīng)在人和猴子的高度視覺皮層能夠看到非視覺,比如對標(biāo)簽的運動皮層的不同反應(yīng)作為它的塑造作用。剛才吳老師和畢國強老師都提到,人的condition并不是特定的single purpose,而現(xiàn)在AI的計算很多是特定的purpose,但是并不等于人或者其他動物目前所謂的最優(yōu)解,肯定看我們想要達(dá)到什么樣的目的。

我舉一個簡單的例子,我做知識存儲,在AI里面知識存儲全都從文本來,但實際上神經(jīng)科學(xué),知識存儲,更主流的觀點是從感知經(jīng)驗來,從視覺來、從聽覺來,跟視覺去互動來。我們最新的工作是發(fā)現(xiàn)在人里面這兩項都有,而且是獨立的存在。AI里面,大家經(jīng)常會問,常識性的知識怎么表達(dá),一直是個很大的挑戰(zhàn)。我們說人腦在神經(jīng)科學(xué)的研究有這方面的答案,從我們感知和運動,與視覺的互動當(dāng)中來。剛才說借鑒的成果,我會覺得Implementation我看到很多令人激動的已經(jīng)很好的成果,我還蠻希望人和我們交流,我會覺得有很多寶藏。

第三:AI怎么助力了腦科學(xué)的發(fā)展, AI對腦科學(xué)的發(fā)展有什么典型的幫助?

吳思:我們要看我們怎么定義AI。如果泛泛的包括信息理論、動力學(xué)系統(tǒng)分析、統(tǒng)計學(xué)習(xí)等,那么這些都是計算神經(jīng)科學(xué)每天在用的工具,它們一直在助力腦科學(xué)的發(fā)展。如果一定要強調(diào)最新的,比如說深度學(xué)習(xí),那么如何將AI用于腦科學(xué)是目前的一個研究熱點。國際上有多個組,也包括清華的胡曉林老師,大家把視覺系統(tǒng)當(dāng)成一個深度學(xué)習(xí)網(wǎng)絡(luò),然后訓(xùn)練這個深度學(xué)習(xí)網(wǎng)絡(luò),同時加入一些生物學(xué)的約束,然后用對比的方法看這個系統(tǒng)能學(xué)習(xí)到什么,進(jìn)而回答生物視覺認(rèn)知的問題。

山世光:我們看到一些工作也都是在驗證,深度網(wǎng)絡(luò)和人的大腦之間似乎在層上有一定的對應(yīng)性。

唐華錦:我補充一下吳思老師講的,在傳統(tǒng)上AI提供了很重要的大數(shù)據(jù)分析工具,視覺神經(jīng)、視覺皮層,現(xiàn)在的AI提供了很重要的大數(shù)據(jù)工具,尤其是在高通量的腦成像方面,建立非常精細(xì)的腦模型,AI大數(shù)據(jù)起到重要的作用。還有實時的腦活動的分析上,比如斑馬魚的活動,如何同時實時記錄以及把這些神經(jīng)元的活動匹配到那些神經(jīng)元上,這是大量AI深度學(xué)習(xí)幫助腦科學(xué)家在分析數(shù)據(jù)、統(tǒng)計數(shù)據(jù)上,包括三維重建,包括樹突、軸突之間連接的結(jié)構(gòu)也會起到非常重要的作用,AI還是提供了很好的工具在深入的解釋上面。

胡曉林:我接著吳思老師剛才的觀點和大家分享,吳思說現(xiàn)在國際有一個熱點,用深度學(xué)習(xí)的方式去研究以前在生物學(xué)實驗當(dāng)中的結(jié)果,在這個模型當(dāng)中能不能出現(xiàn)這個結(jié)果。我想說的一點,這是第一步,我們首先要來看一下深度學(xué)習(xí)模型是不是具有這樣的特點。如果發(fā)現(xiàn)它具有這樣的特點,你能干什么。深度學(xué)習(xí)模型是你自己構(gòu)造的,這個模型你所有神經(jīng)元都可以測。不像生物體會受到實驗條件限制,有些地方測不到。這個模型是你自己構(gòu)造的,所有神經(jīng)元的特點都可以測。如果有了一個等價模型,在等價的人工智能模型上做一些實驗和解釋,做一些原理性的探索,會比在動物那種“黑箱”上做容易一些。

我給大家再分享一個話題,去年的時候MIT有一個組,DiCarlo實驗室,剛才提到了他們2014年的工作,他們?nèi)ツ暧幸粋€更進(jìn)一步的工作,在猴子的高級皮層,神經(jīng)科學(xué)家很難用一個刺激讓這些神經(jīng)元能夠以一個很大的發(fā)放率去發(fā)放。如果做實驗的話會發(fā)現(xiàn),越往高層就越難讓一個神經(jīng)元發(fā)放。為解決這個問題他們做了一個實驗。他們先構(gòu)造了一個神經(jīng)網(wǎng)絡(luò)CNN,然后把中間的某一層L3層取出來和猴子V4區(qū)域的神經(jīng)元反應(yīng)做簡單的映射,這個映射可能是一個小網(wǎng)絡(luò),然后學(xué)出參數(shù)。學(xué)出來之后,他們認(rèn)為從視覺刺激(這只貓)到你的眼睛通過L1、L2、L3再到V4這是一個通路,這個通路上經(jīng)過的是人工神經(jīng)網(wǎng)絡(luò),而不是真正的生物系統(tǒng),真正的生物系統(tǒng)是下面的通路,看到這只貓然后經(jīng)過V1、V2、V3最后傳到V4。所以他們其實構(gòu)造了一個視覺通路的替代模型。你可以通過這個替代模型,這個神經(jīng)網(wǎng)絡(luò),用BP算法反求一個刺激,使得V4區(qū)的神經(jīng)元反應(yīng)最大,最后發(fā)現(xiàn)反求出來的刺激像下面這張圖的樣子。然后再把這些刺激給猴子看,去測V4區(qū)神經(jīng)元反應(yīng)是不是最大。發(fā)現(xiàn)V4區(qū)的神經(jīng)元反應(yīng)遠(yuǎn)遠(yuǎn)超出以前用任何刺激所帶來的反應(yīng),也就是說如果不用他們這種反求的方式去做刺激,用自然數(shù)據(jù)是很難讓這個神經(jīng)元發(fā)放這么強烈的。這個就解決了他們做生理學(xué)實驗的一個痛點。我和做聽覺的老師聊過,他們在猴子的聽覺皮層發(fā)現(xiàn)大部分神經(jīng)元都是不反應(yīng)的,很多人覺得猴子的聽覺神經(jīng)元不是干聽覺這件事的,很多人想不通為什么這樣,我覺得可能是我們沒有找到合適的刺激。

畢彥超:我想補充一句,用AI來理解大腦的事情,吳思老師也提到我們很費力的想把黑箱打開,我理解AI最近的潮流,包括最近講的DNN很多時候是把黑箱合上,比如模擬的很好,如果只為一個模型,跟我的神經(jīng)模擬的很好,或者可以操縱的話,并不等于它就是這樣的。并不是說這個沒有用,而是用它理解大腦的時候,比如我們多找一些不同的模型去對比,才會有價值,才有可能為理解稍微添更多的證據(jù)。

山世光:這本身對AI,我們現(xiàn)在深度學(xué)習(xí)的模型也是一個黑箱,在過去三年里AI領(lǐng)域已經(jīng)把AI的可解釋AI或者XAI這個研究問題突出出來了,很多人做了非常漂亮的工作解釋黑盒子模型,我相信在接下來的時間里肯定會有更多的發(fā)展。這個話題還有哪位老師發(fā)言?

畢國強:我再補充一句,剛才幾位老師已經(jīng)說的非常透徹了,AI在腦科學(xué)研究中能夠起到很多助力作用,從基本的大數(shù)據(jù)分析到更高層次的模擬,對大腦的模擬。在最后一步,對大腦的模擬有不同深度,早期的人工神經(jīng)網(wǎng)絡(luò)以及現(xiàn)在很多深度神經(jīng)網(wǎng)絡(luò)所模擬的只是神經(jīng)元和突觸連接的一些非常基本的性質(zhì)。用這樣簡單的性質(zhì)來模擬大腦,能夠得到的一些似乎和大腦里面發(fā)生的類似的現(xiàn)象,這確實反映了非常根本的機制。但是很可能很多事情是沒有辦法用目前的人工神經(jīng)網(wǎng)絡(luò)來解釋的,這時候需要用進(jìn)一步的模擬,也可能叫計算神經(jīng)科學(xué)的模擬,剛才吳思提到AI和計算神經(jīng)科學(xué)沒有本質(zhì)上的嚴(yán)格邊界,這種更深層次模型通過加入更多的腦神經(jīng)系統(tǒng)的特性就可能模擬神經(jīng)系統(tǒng)更多的行為,然后可以再反過來看哪些性質(zhì)是哪些行為必須的。當(dāng)然最后這還是一個大腦理解大腦的復(fù)雜性問題。

第五:我們面臨的是兩個黑盒子,深度學(xué)習(xí)和大腦這兩個黑盒子怎么互相對比?能不能把這個黑盒子打開?

吳華強:我們可以用人的大腦去研究老鼠的大腦,我們可以先從簡單的東西研究起,我們不能打開自己的大腦,我們打開別人的大腦。

山世光:腦科學(xué)研究需要什么樣的AI技術(shù)來解決什么樣的前沿腦科學(xué)問題,哪位老師就這個話題再說幾句。

吳思:我特別期望望神經(jīng)形態(tài)研究的發(fā)展,就是唐華錦和吳華強老師他們將的東西來幫助來幫助計算神經(jīng)科學(xué)的發(fā)展。我們研究腦科學(xué),提出了各種模型和機制后,如果有一個類腦的硬件系統(tǒng)驗證一下,就能更好證明這個機制和模型是否生物學(xué)合理,能否在AI中得到應(yīng)用。

第六:我們還有一個話題關(guān)于人才培養(yǎng),這是未來論壇秘書處覺得非常重要的話題,我們看哪位老師對交叉學(xué)科培養(yǎng)有經(jīng)驗或者想法?

畢國強:這是非常重要的,可能目前整個領(lǐng)域,尤其是在國內(nèi)發(fā)展的真正瓶頸,就是怎么樣培養(yǎng)更多的交叉學(xué)科的優(yōu)秀人才。這是一個很大的挑戰(zhàn),因為真正的AI-腦科學(xué)交叉學(xué)科人才可能需要對兩個學(xué)科都要有充分的把握,而這兩個學(xué)科都是很難的學(xué)科,計算機科學(xué)、神經(jīng)生物學(xué)都很難,而且它中間重疊的部分又不多,不像是計算機和應(yīng)用數(shù)學(xué),或者生物學(xué)和化學(xué)相對容易一些,如果想把AI和腦科學(xué)這兩個連在一起,你需要幾乎雙倍的專業(yè)知識。國外有很多值得借鑒的經(jīng)驗,但最關(guān)鍵是需要鼓勵青年人追求自己的興趣,你如果感覺大腦很神奇或者AI很神奇,真的想研究它們,理解它們,那就花別人雙倍的力氣把這兩個學(xué)科都學(xué)好,這是最重要的。我讀物理研究生時很容易,英語聽不懂照樣去考試,但讀生物研究生的時候發(fā)現(xiàn)不光英語聽不懂,翻譯成中文也聽不懂,我只拿錄音機錄下來,仔細(xì)查,把所有東西一點一點搞清楚,這樣花了一個多學(xué)期的時間之后,就開始真正能理解生物學(xué)家說的話,可以開始去做這方面的研究。另一方面,國內(nèi)很多課程設(shè)置有專業(yè)限制,不同專業(yè)間的壁壘還是很大的。在生物系和計算機系這兩個學(xué)科的要求差別非常大,這時候需要設(shè)計真正的交叉學(xué)科的課程體系,科大在這方面做過一些努力,比如溫泉老師教物理系學(xué)生計算神經(jīng)科學(xué)的課,深圳在建的中科院深圳理工大學(xué)也希望建立AI+腦科學(xué)的智能交叉學(xué)科專業(yè)方向,建成培養(yǎng)交叉學(xué)科頂尖人才的機制。我想后面會慢慢好的,大家在北大、清華、浙大,在這方面都有很重的責(zé)任。

畢彥超:剛才畢老師講的太好,我自己會思索,不光是對人才培養(yǎng),對我們每個人都是一直的挑戰(zhàn),我們參加這個論壇,已經(jīng)可能是自己領(lǐng)域的異類??鐚W(xué)科有很多特別不容易溝通的地方,雖然用同樣的詞,其實是固守一些成見,按照自己學(xué)科的思路去想。剛才吳思提到一點,腦科學(xué)很多是科學(xué)的思維,AI很多是工程思維,我會覺得在溝通過程中我們都會碰到一些壁壘,這時候怎么更開放,思考背后大家真正關(guān)心的大問題,而不是當(dāng)前具體某個小問題,特別的重要。所以在人才培養(yǎng),我想說自己沒有成功的經(jīng)驗,但是我一直在招博后,如果有感興趣的聽眾。

山世光:我今天早上還在看心理所要設(shè)計本科專業(yè),課程體系里我看到人工智能的課他們有一門,我就在想這個人工智能的課誰來講、講什么,對他們來講前面沒有計算機變成課,上來就有人工智能,給心理所的人講,確實課程體系建設(shè)方面有有非常多的地方需要努力。

唐華錦:浙大這邊新招的人工智能專業(yè)本科生專業(yè)設(shè)置了AI+腦科學(xué)的交叉課程,在推動培養(yǎng)新一代的AI+腦科學(xué)方面的交叉人才上已經(jīng)在布局,相信清華、北大也有類似課程的設(shè)計。

胡曉林:我個人認(rèn)為在畢老師你們那兒開人工智能課,前面沒有編程基礎(chǔ),上來就講人工智能很難的。我覺得反過來,如果在信息科學(xué)這樣的院系開設(shè)腦科學(xué)相對來講應(yīng)該是比較容易的,因為就我這點不成功的經(jīng)驗來講,學(xué)神經(jīng)科學(xué)可能不需要特別系統(tǒng)的、像數(shù)學(xué)、編程那樣要經(jīng)過好幾年的培養(yǎng)。浙大這樣的做法可能是比較好一點。在我的課題組,我是鼓勵同學(xué)們做一些腦科學(xué)的事兒,但是目前為止不是特別成功。現(xiàn)在計算機信息學(xué)科的學(xué)生更加關(guān)注的還是AI,偏純AI,技術(shù)本身。這是另一個方面的困難。

山世光:也不容易,我本人也學(xué)了好幾年,現(xiàn)在剛剛能做到腦科學(xué)、神經(jīng)科學(xué)說的詞匯我基本能理解,但是更深刻的思考也做不到,感覺也不是那么容易。

胡曉林:要真正有興趣,真的覺得這個東西不解決,AI這個領(lǐng)域可能也沒有特別大的發(fā)展。

山世光:還是要投入雙倍的時間和精力。

現(xiàn)場問答環(huán)節(jié)

第七、 大腦如何完成學(xué)習(xí)-記憶融合的?能不能稍微展開講一下。

唐華錦:因為時間關(guān)系我簡單陳述一下。這涉及到我們對記憶的理解問題,首先記憶通過神經(jīng)元的群組編碼實現(xiàn),比如對某個概念,必須有一組神經(jīng)元對這個概念進(jìn)行表述,這組神經(jīng)元就要通過學(xué)習(xí)對這個概念進(jìn)行響應(yīng),比如通過快速學(xué)習(xí),這個神經(jīng)元群組之間要加強它們之間的連接。把這個概念和另一個概念之間,如果它們之間存在聯(lián)想關(guān)系,不同的神經(jīng)元群組間要形成一個新連接,這個連接要把不同概念聯(lián)系起來。群組內(nèi)的神經(jīng)元連接以及群組間的神經(jīng)元連接都要通過學(xué)習(xí)方式實現(xiàn)。要么通過無監(jiān)督STDP學(xué)習(xí)規(guī)則,或者通過有監(jiān)督的學(xué)習(xí)規(guī)則來實現(xiàn)學(xué)習(xí)和記憶的融合。

山世光:華強老師在做存算一體,不知道是不是更重要的是“學(xué)算、學(xué)憶一體”更值得做。

吳華強:這個問題問的很好,看學(xué)算怎么定義,我們現(xiàn)在做的這個工作,是可以Chip上做學(xué)習(xí)的,也就是它可以改變位置可以學(xué)習(xí)的,而且我們芯片上也實現(xiàn)了。

第八、如果就一個神經(jīng)元來講,它怎么學(xué)和記憶一起,現(xiàn)在MCP模型是沒有記憶力的。

吳華強:如果現(xiàn)在突觸在生物上會不斷變化,因為通過學(xué)習(xí)它會變化,電子器件也是一樣的,比如我現(xiàn)在存的值10歐姆,新的學(xué)習(xí)過來之后把它變成12歐姆或者9歐姆也是可以的,通過變化就實現(xiàn)了它的記憶。當(dāng)一個芯片真的能夠比較智能的話,集成度是比較關(guān)鍵的。比如10個突觸,現(xiàn)在每個的變化、離散性都會大幅度影響系統(tǒng)準(zhǔn)確率,如果芯片集成10億個器件,其實單個器件就不會有太大影響,這塊要找數(shù)學(xué)理論家合作,在理論上怎么證明器件的離散和整個網(wǎng)絡(luò)的準(zhǔn)確率的關(guān)系。

我剛才在聊天時已經(jīng)回答了,憶阻器陣列可以做乘加,電流需要轉(zhuǎn)化,總得來說是需要的,但是如果每個陣列都做ADC轉(zhuǎn)化成本有點高,芯片里面時間其實是很快的,都是納秒級計算,比大腦快多了。更關(guān)鍵的是用了很多ADC導(dǎo)致芯片面積比較大,會導(dǎo)致它的能耗比較高,所以我覺得一部分可以做模擬信號傳遞,一部分可以做數(shù)字信號傳遞。這是回答這個問題。

激活函數(shù)可以通過硬件實現(xiàn),我們現(xiàn)在做的函數(shù)是用CMOS去做的,但是也有人單個器件去做激活函數(shù)的事情,用新的器件去做。但我們是要把它集成更大規(guī)模的芯片,所以我們用CMOS去做。

第三個問題,跑完整的AlexNET還沒有跑,我們下個芯片會做這個事情。我們之前做的芯片集成度規(guī)模只有幾十萬個規(guī)模,下一個芯片的規(guī)模是幾百萬,再下個芯片達(dá)到更大規(guī)模,在幾百萬里就可以跑AlexNET,目前討論結(jié)果還可以,但是還需要在芯片上跑出來。

第四個問題,目前憶阻器,目前來講它的算法有乘法和加法,整個計算特別適合做矩陣計算,當(dāng)然要配合別的輸入輸出,還有存儲和編碼這都是需要的,而且硬件上來講,我的陣列是固定的,算法是千變?nèi)f化的,需要用編譯器或者算法支持去把千變?nèi)f化的Layer Breakdown到我的固定陣列上。

第五個問題,關(guān)于存儲墻問題,在探究提高存儲器存取速度以及傳輸上,到第6層就到頭了嗎?如果繼續(xù)增加層數(shù),預(yù)期會有什么結(jié)果?新的存儲器也是可能會有的,比如現(xiàn)在新的MRAM和新的其他東西,它其實有它的優(yōu)點,和現(xiàn)在的DRAM比,其實DRAM是很快的,速度足夠快,最大的問題是架構(gòu)上的問題,再快比不過M…(02:24:52),小于1納秒,目前還沒有發(fā)現(xiàn)比它更快的存儲器更快的速度。

我剛才講的兩個瓶頸,速度慢、功耗大的問題目前沒有找到非常好的芯片去解決它。

第九、有沒有人研究好奇心是如何產(chǎn)生的?機制有什么辦法度量它。

畢彥超:簡單的答案,我自己不知道。傳統(tǒng)比較主流的認(rèn)知神經(jīng)科學(xué)上目前也沒有很好的回答。首先從嬰兒、兒童的研究上能夠看到,人們對心意的刺激有基本的生理性、直接性好奇。人各個方面對事情的答案有一個基本的好奇心。而且不光是在人身傷,貓也是很好奇的,對于生物體進(jìn)化過程當(dāng)中對于外部世界刺激的反應(yīng),有可能是生存繁衍一個很重要的進(jìn)化的東西,所有的生物體是不是有一種比較基本的好奇心。是什么樣的時間范式,比如是不是僅僅對心意的刺激,一種是基本的好奇心,是不是一回事,怎么去實現(xiàn),是不是有不同種類的好奇心,我自己不知道。

山世光:這是不是和神經(jīng)科學(xué)有一個理論相關(guān),它的基本理論是說對于外在世界什么東西會有一個預(yù)測,但如果實際刺激或者實際發(fā)生的事情和預(yù)測不吻合會有一個偏差,你會關(guān)注那個偏差。

畢彥超:如果要是觀察人們問的好奇心的問題,我得時刻關(guān)注外面的世界,進(jìn)行預(yù)測,才能實現(xiàn)實際有效的識別和交互,有可能有關(guān)系。但至少在認(rèn)知神經(jīng)科學(xué)里面,不會把它Label成好奇心,我覺得有可能是有關(guān)系。

第十、剛才提到多模態(tài)融合很感興趣,能不能介紹一下人腦是如何進(jìn)行多模態(tài)融合的?

吳思:多模態(tài)信息整合是我們大腦的一個基本功能。人為什么有五官?實際上它們是我們從不同的物理、化學(xué)和聲音等信號來感知這個外界世界,這些信號需要在大腦里有效地融合起來。從數(shù)學(xué)角度說,多模態(tài)信息整合的最好算法是貝葉斯推理。有意思的是,行為上已經(jīng)證明大腦能做數(shù)學(xué)上優(yōu)化的貝葉斯多模態(tài)信息整合,在神經(jīng)數(shù)據(jù)上猴子實驗也證明,在計算模型上也得到了驗證。我們最近做一個模型工作來解釋其機理?;镜乃枷胧歉髂X區(qū)有分工,分別負(fù)責(zé)處理視覺信號、聽覺信號等,但同時這些腦區(qū)之間又有連接,這些連接編碼不同信號之間關(guān)聯(lián)的先見知識。這樣多個腦區(qū)間通過信息交流,最終以并行分布的方式實現(xiàn)了優(yōu)化的多模態(tài)信息整合。

第十一、關(guān)于兒童發(fā)展或者跨物種比較的研究來研究學(xué)習(xí)如何動態(tài)塑造大腦神經(jīng)網(wǎng)絡(luò)的,比如小孩的大腦可能更接近全連接,后面逐漸被選擇性的消除掉一些連接。這樣一種模式對計算會不會有幫助?

畢彥超:首先有很多人關(guān)注這方面,至于對AI的借鑒的程度我不知道,我會覺得是一個寶藏。首先從嬰兒認(rèn)知的發(fā)展上,人們發(fā)現(xiàn)很多有趣的現(xiàn)象,比如機器學(xué)習(xí)一個詞很難,小孩在語言爆發(fā)期只要聽到一個詞一次就可以學(xué)會。但是在特定的情景下,發(fā)展心理學(xué)家已經(jīng)發(fā)現(xiàn)只有在特定的這種情景下小孩才學(xué)會,所以可以借鑒一下。對于人腦來說,對于人類嬰兒的人腦非常難研究,因為我們不想以有損的方式研究嬰兒。最近隨著無損的神經(jīng)影像的發(fā)展才開始有一些特別基本的認(rèn)知,開始的時候相對全連接,其實通過分析早產(chǎn)兒的大腦,很快的先去發(fā)展初級的感覺運動皮層,但隨著后來的發(fā)展,網(wǎng)絡(luò)當(dāng)中的樞紐然后在其他的額頂更高級的網(wǎng)絡(luò)再慢慢發(fā)展了,這些也是最近兩年隨著神經(jīng)影像發(fā)展,人們才剛剛知道一點。所以可以關(guān)注,我不知道是不是動物上已經(jīng)有很多很好借鑒的例子了。

第十二、突觸可塑性可以看成一種局部優(yōu)化規(guī)則,大腦是如何進(jìn)行全局學(xué)習(xí)和調(diào)控的?

畢國強:這是一個很好的問題,我剛才提到一點,我們研究學(xué)習(xí)或者可塑性,一方面是看突觸本身發(fā)生的變化,另一方面我們希望,實際上還沒有真正做到,就是在全局尺度上或者環(huán)路尺度上看這些可塑性是怎樣發(fā)生變化的。這也分多個層次,一是在全局上面,哪些突觸可以發(fā)生可塑性變化,這需要突觸前后神經(jīng)元的活動,任何一個需要學(xué)習(xí)的內(nèi)容在整個網(wǎng)絡(luò)里面以不同的神經(jīng)元活動表達(dá)出來的時候,就會有相應(yīng)的突觸發(fā)生變化。

另一方面,全局尺度上還有神經(jīng)調(diào)質(zhì)的作用,比如說情緒或者是獎勵的信號,受到獎勵的時候大腦里多巴胺系統(tǒng)會對整個網(wǎng)絡(luò)有一個全面的調(diào)控。但調(diào)控具體影響還有待深入研究,但是一般來說它可能讓在這段時間受到影響的突觸的可塑性變化更容易。這樣就在全局尺度上可以把很多突觸的變化協(xié)調(diào)起來。

第十三、信息專業(yè)的學(xué)生如果希望自己入門腦科學(xué)相關(guān)內(nèi)容,應(yīng)該從哪里入手?

吳華強:可能找一本比較好的教科書,我當(dāng)年自己入門的時候我是讀一本《從神經(jīng)元到腦》,當(dāng)然還有很多其他的教科書。讀的時候你會碰到很多名詞,你可能不太清楚,現(xiàn)在網(wǎng)上資源這么多,可以很容易的幫助你查。另一方面,有一些不懂的東西你先擱在那兒,看影響不影響你理解全局,然后先把可以理解的東西理解了。另外,一些計算神經(jīng)科學(xué)的教科書里面大部分是數(shù)學(xué)語言,同時又介紹一些神經(jīng)科學(xué)的基礎(chǔ)以及模擬的方法,這是另一個比較好的途徑。但我知道的書都比較偏深偏細(xì),不知道吳思有沒有更好的建議。

吳思:最好能進(jìn)到一個課題組,多聽報告,參與做具體的課題,這樣才更有效。如果光看書,剛開始堅持一個月還可以,你能堅持一年嗎?而且你學(xué)的東西得不到應(yīng)用,你可能很沮喪,你可能就放棄了。所以找一個合作課題是最佳的。

山世光:我一直在建議未來論壇青創(chuàng)聯(lián)盟我們搞一個獎學(xué)金,能夠鼓勵一些信息科學(xué)或者腦科學(xué)的人互相進(jìn)入對方,然后給他們提供支持,當(dāng)然這也很難。

畢國強:這是非常好的辦法。我原來在的匹茲堡大學(xué)和CMU有一個聯(lián)合的CNBC Program,就是試圖把實驗神經(jīng)生物學(xué)和計算神經(jīng)科學(xué)和計算機科學(xué)實驗室都聯(lián)合到一起,學(xué)生拿到CNBC的獎學(xué)金,如果他屬于計算實驗室的他需要到一個生物實驗室去做一個學(xué)期或者更長時間,反過來也是一樣。當(dāng)然對每個人,我還是要強調(diào)每個人的效果不同,最終還是要看個人的堅持,你有多強烈的興趣和你想花多大的力氣。

剛才我提到花雙倍的力氣,很多人就有雙倍的力氣,這些人可能就適合做這件事情。

山世光:而且雙倍的力氣可能只是在開始。

唐華錦:確實建議很好,要放在一個具體團(tuán)隊或者項目里去做,一個是提升你的成就感,也不會學(xué)了一年之后感到很沮喪。中科院這一點做的很好,你們的“腦中心”甚至強制要求人工智能和神經(jīng)科學(xué)蹲點。還有浙大,“雙腦”中心也是強調(diào)人工智能和神經(jīng)科學(xué)在一塊兒在一個團(tuán)隊,至少你要找兩個這樣的導(dǎo)師,然后去做這方面的工作,效果會很好。

吳思:計算神經(jīng)科學(xué)的教材,網(wǎng)上有“cosya”(音)課程很好。我看觀眾提問中已經(jīng)提到這一點。

畢彥超:跨學(xué)科交叉非常有趣,我建議一定要有一個自己的Base,某個方面要學(xué)透學(xué)的特別好才有能力去交叉學(xué)科去深入,要不特別容易飄在表面上。

山世光:從點到線再到面,不能上來就到面。

第十四、樹突需要Synapse一樣來訓(xùn)練嗎?像突觸一樣來訓(xùn)練嗎?

吳華強:這個問題非常好,我自己感覺從實物上來講,它樹突也是被訓(xùn)練過的,這個應(yīng)該需要。但是我們現(xiàn)在的工作還沒有做到那一步,怎么做還得琢磨琢磨。這個問題提的非常好,從思路和算法上都可以思考這個問題。

第十五、腦科學(xué)領(lǐng)域?qū)ΤWR的研究,有哪些資料可以推薦?

畢彥超:看我們組的文章。我們剛剛有一篇文章要在Neural出來,是一個特別簡單,但我自己很喜歡的工作,就是第一次有直接的證據(jù),通過看盲人顏色的知識,在人身上發(fā)現(xiàn)有兩種不同的知識表征。馬上就出來,我推薦給大家。

山世光:請教各位專家人腦中是否存在誤差反向傳播?

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2020-05-07
如何把存儲器做到CPU里?我們向大腦找答案
如何把存儲器做到CPU里?我們向大腦找答案

長按掃碼 閱讀全文