中國AI的底牌與前路:王海峰團(tuán)隊(duì)十篇論文入選ACL的價(jià)值釋讀

原標(biāo)題:中國AI的底牌與前路:王海峰團(tuán)隊(duì)十篇論文入選ACL的價(jià)值釋讀

今年的自然語言處理領(lǐng)域頂級(jí)會(huì)議 ACL已經(jīng)放榜,每每AI頂會(huì)放榜之時(shí),也是科技企業(yè)們集體關(guān)注自身學(xué)術(shù)研究進(jìn)度的時(shí)候。近年來隨著中國科技企業(yè)對(duì)AI技術(shù)的研究日益深入和產(chǎn)學(xué)結(jié)合的趨勢發(fā)展,各個(gè)AI頂會(huì)上科技企業(yè)的出沒也愈發(fā)頻繁。從某種程度上來說,一家科技企業(yè)被頂會(huì)收錄論文的數(shù)量,也體現(xiàn)了這家科技企業(yè)在AI自主創(chuàng)新上能力。

在ACL 2019中有效投稿數(shù)量達(dá)到2694篇,相比去年增長高達(dá)75%。值得關(guān)注的是,百度共有十篇論文被收錄,覆蓋了信息抽取、機(jī)器閱讀理解、對(duì)話系統(tǒng)、視頻語義理解、機(jī)器翻譯等NLP前沿研究方向。對(duì)于科技企業(yè)來說,這已經(jīng)屬于在國際頂會(huì)上能取得的里程碑式的成績。

提起ACL,不得不讓人聯(lián)想到百度高級(jí)副總裁王海峰博士——2010年加入百度的王海峰一直橫跨產(chǎn)業(yè)和學(xué)界兩個(gè)領(lǐng)域,還在曾在2013年出任ACL首任主席。在這樣NLP領(lǐng)域領(lǐng)軍人物的帶領(lǐng)下,百度在ACL 2019取得的成績并不意外。

其實(shí)現(xiàn)在像王海峰和百度這樣科學(xué)家與科技企業(yè)的組合并不少見,我們或許可以嘗試從王海峰個(gè)人身上,尋找科學(xué)家與科技企業(yè)共同產(chǎn)生化學(xué)反應(yīng)所需要的特質(zhì),看看AI自主創(chuàng)新是如何在這種化學(xué)反應(yīng)下生長的。

一重反應(yīng):從學(xué)術(shù)遠(yuǎn)見汲取養(yǎng)分

雖然王海峰在2010年就加入了百度,但大多數(shù)科技企業(yè)是在AI大潮開始之后開始與科學(xué)家們牽手。從2015年開始,從海外的谷歌、Facebook,再到國內(nèi)的科技巨頭,都開始邀請(qǐng)學(xué)界科學(xué)家加入、建立屬于自己的研究院。其中原因在于,AI本身就是一種誕生于實(shí)驗(yàn)室,受學(xué)術(shù)研究所驅(qū)動(dòng)的技術(shù)。一家企業(yè)是否在學(xué)術(shù)上具有先進(jìn)性,幾乎決定了這家企業(yè)在AI技術(shù)方面的創(chuàng)新能力。

同樣王海峰為百度帶來的,也是學(xué)術(shù)視角上的遠(yuǎn)見。

王海峰對(duì)于NLP前沿方向的關(guān)注,可以追溯到在哈工大就讀期間,在博士畢業(yè)論文中,王海峰就率先將神經(jīng)網(wǎng)絡(luò)方法引入機(jī)器翻譯中。在隨后的工作經(jīng)歷中,王海峰也一直與AI學(xué)術(shù)界保持著密切的聯(lián)系,像在百度就職期間,王海峰還出任了ACL亞太分會(huì)AACL創(chuàng)始主席、IEEE工業(yè)顧問委員會(huì)委員等等權(quán)威學(xué)術(shù)組織、會(huì)議的職務(wù)。

作為科學(xué)家,與權(quán)威學(xué)術(shù)組織的密切聯(lián)系,讓王海峰可以幫助百度AI很多次踩中AI發(fā)展過程中的高點(diǎn)。舉例來講,在很多人尚不知知識(shí)圖譜為何物時(shí),百度的知識(shí)圖譜技術(shù)就在王海峰的支持下逐漸成型,并且在今天為百度AI技術(shù)體系提供大量底層支持。對(duì)于知識(shí)圖譜這類需要大量投入累積的技術(shù)來說,遠(yuǎn)見之下的率先投入,將為百度帶來顯著的先發(fā)優(yōu)勢。

如果將AI自主創(chuàng)新想象成一顆大樹,學(xué)術(shù)視角的遠(yuǎn)見就是這顆大樹深入土壤的根系,源源不斷地從學(xué)界汲取著養(yǎng)分,支撐整棵大樹的成長。

二重反應(yīng):用產(chǎn)業(yè)視角推動(dòng)生長

前文提到,科技企業(yè)與科學(xué)家的組合已經(jīng)日漸普及。一些在學(xué)界堪稱風(fēng)雨人物的科學(xué)家,例如李飛飛、LeCun等等,都有企業(yè)任職的經(jīng)歷??梢哉f對(duì)于科技企業(yè)來說,獲取學(xué)術(shù)視角并非十分困難。

但我們注意到,王海峰和很多科學(xué)家不同的是,他從2010年加入百度距今已經(jīng)將近十年,比大多數(shù)科學(xué)家更早接觸產(chǎn)業(yè)、也擁有更豐富的產(chǎn)業(yè)經(jīng)驗(yàn)。因此王海峰得以將學(xué)術(shù)視角與產(chǎn)業(yè)思維相結(jié)合,在他的影響下,因此我們可以看到百度AI創(chuàng)新通常是在產(chǎn)業(yè)思維框架下進(jìn)行創(chuàng)新。

在百度大腦中,這種趨向格外明顯。作為向產(chǎn)業(yè)生態(tài)輸出技術(shù)的平臺(tái),百度大腦將百度在AI上領(lǐng)先性化入技術(shù)API和產(chǎn)品之中。例如推出針對(duì)人臉閘機(jī)、人臉核驗(yàn)等等專項(xiàng)解決方案,以及遠(yuǎn)場語音開發(fā)套件這樣的硬件產(chǎn)品與服務(wù)。

這類能夠直面應(yīng)用環(huán)境的技術(shù)平臺(tái),可以幫助百度AI更快進(jìn)入現(xiàn)實(shí)場景中進(jìn)行錘煉并獲得反饋,幫助百度那些偏于基礎(chǔ)和學(xué)術(shù)角度的技術(shù)創(chuàng)新可以有實(shí)際的流向,對(duì)企業(yè)整體技術(shù)生態(tài)帶來正向驅(qū)動(dòng),保持AI自主創(chuàng)新的持續(xù)性。

同時(shí)借助王海峰對(duì)產(chǎn)業(yè)的深入理解,也能讓百度AI對(duì)產(chǎn)業(yè)需求有著更敏感的感知。例如推出第一款開源中文深度學(xué)習(xí)平臺(tái)PaddlePaddle,就是從產(chǎn)業(yè)角度意義非凡的創(chuàng)新突破。一個(gè)獨(dú)立自主深度學(xué)習(xí)平臺(tái)的存在,可以保證百度AI以及整個(gè)中國AI產(chǎn)業(yè)在進(jìn)行技術(shù)輸出時(shí)獲得更多保障。從宏觀角度來看,同樣也給予了AI自主創(chuàng)新更長線的支持。

在大樹生長的過程中,雖然學(xué)術(shù)視角提供了營養(yǎng),但只有結(jié)合產(chǎn)業(yè)思維,才讓枝丫有了抽條生長的可能性。只有AI創(chuàng)新更具實(shí)際意義,創(chuàng)新能力才有了在一家企業(yè)里不斷生長的可能。

三重反應(yīng):人才虹吸下的拓張繁茂

這也是為什么,能夠招攬來科學(xué)家的科技企業(yè)不在少數(shù),而真正能與科學(xué)家一同推動(dòng)AI自主創(chuàng)新的企業(yè)卻寥寥無幾。

而這種在產(chǎn)業(yè)和學(xué)界都能占據(jù)高位的特點(diǎn),還為王海峰帶來了另一項(xiàng)重要特質(zhì),那就是對(duì)人才的吸引和甄別能力。對(duì)于企業(yè)來說,能夠保持科技創(chuàng)新能力不僅僅需要一位“王海峰”,還有持續(xù)的人才補(bǔ)充和更迭。

王海峰的學(xué)術(shù)能力和在學(xué)術(shù)組織中的權(quán)威性,讓他可以有能力幫助百度吸引來更多學(xué)界人才;而在產(chǎn)業(yè)中累積的經(jīng)驗(yàn)和思維模式,能夠讓他發(fā)現(xiàn)哪些學(xué)界人才的學(xué)術(shù)能力更加適合百度。我們可以看到,從早期的吳華到近年來的Kenneth Church、浣軍等人,這些專家有的本在斯坦福這樣的頂級(jí)高校任職,有的已經(jīng)在學(xué)術(shù)領(lǐng)域聞名遐邇,最終都被百度和王海峰所吸引,為百度AI添磚加瓦。

在人才的不斷組建之下,百度AI可以實(shí)現(xiàn)規(guī)模化的創(chuàng)新。尤其在視覺、語音、語言與智能等等領(lǐng)域中,這些科學(xué)家們正源源不斷的貢獻(xiàn)著力量,學(xué)術(shù)層面和應(yīng)用層面皆是如此。

就像在上個(gè)月剛剛放榜的國際視覺頂會(huì)CVPR上,百度同樣獲得了17篇論文入選的好成績。而在自然語言處理首席科學(xué)家吳華的帶領(lǐng)下,百度大腦已經(jīng)推出了全新的智能對(duì)話引擎,引導(dǎo)對(duì)話技術(shù)進(jìn)行工業(yè)級(jí)落地。

從王海峰個(gè)人的學(xué)術(shù)能力來說,帶給百度AI的更多是NLP方面指引。但結(jié)合由王海峰協(xié)助編織起的人才網(wǎng)絡(luò),就能給予百度AI創(chuàng)新全面能力的補(bǔ)充。借助養(yǎng)分與生長能力之上不斷擴(kuò)張繁衍,最終形成一片密林。

跳脫框架、前沿創(chuàng)新:科學(xué)家在科技企業(yè)中的價(jià)值最大化

在這一系列科學(xué)家與科技企業(yè)的化學(xué)反應(yīng)之下,不難發(fā)現(xiàn)百度AI正在自主創(chuàng)新之路上留下一個(gè)個(gè)穩(wěn)固的腳印——這次入選ACL的論文主題中就可見一斑。

ACL對(duì)于中國科技企業(yè)來說并不陌生,此前搜狗、科大訊飛等等企業(yè)也曾參與過投稿或ACL組織的競賽,并獲得了一定成績。例如科大訊飛曾在ACL下屬組織主辦的第十二屆國際語義評(píng)測比賽中獲得基于常識(shí)的機(jī)器閱讀理解全球第一;字節(jié)跳動(dòng)在去年也曾被收錄過針對(duì)于中英,德英和英法三個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上,有關(guān)神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯動(dòng)態(tài)解碼機(jī)制的論文。

但這些科技企業(yè),再對(duì)頂會(huì)的攻堅(jiān)上和百度有著一個(gè)顯著的區(qū)別。那就是相比百度,這些企業(yè)更傾向于在現(xiàn)有的框架和數(shù)據(jù)集上進(jìn)行突破鉆研,傾向于在指定的方向上前行。像在某一個(gè)競賽中取得名次,或針對(duì)某一標(biāo)準(zhǔn)數(shù)據(jù)集推出算法改進(jìn)。而百度則更傾向于跳出現(xiàn)有框架之外,去探索更前沿的陌生領(lǐng)域。

像在這次ACL收錄的幾篇論文中,百度AI就提出了包括基于注意力正則化的ARNOR框架(Attention Regularization based NOise Reduction)、語言表示與知識(shí)表示深度融合的KT-NET模型、多粒度跨模態(tài)注意力機(jī)制、基于端到端深度強(qiáng)化學(xué)習(xí)的共指解析方法等,在人機(jī)交互、智能客服、視頻理解、機(jī)器翻譯等場景中具有很大的應(yīng)用價(jià)值。

正因?yàn)樵谧灾鲃?chuàng)新上的遠(yuǎn)見和高度投入,才能讓科學(xué)家在科技企業(yè)中的價(jià)值最大化,不斷讓百度AI踩中技術(shù)發(fā)展的關(guān)鍵拐點(diǎn)。

結(jié)束語

一家科技企業(yè)在一次頂會(huì)上取得的成就,就如同一場搶灘登陸戰(zhàn),即使打得再“漂亮”也僅僅是個(gè)開始。只是這場戰(zhàn)役讓我們注意到了科學(xué)家這一至關(guān)重要的元素,以及科學(xué)家和科技企業(yè)之間所產(chǎn)生的化學(xué)反應(yīng)。

從百度AI和王海峰之間的案例看來,我們可以發(fā)現(xiàn)一位科學(xué)家的學(xué)術(shù)能力和產(chǎn)學(xué)融合視角,再加上人才號(hào)召能力,能夠幫助企業(yè)在AI的凈技術(shù)研究、應(yīng)用打造和場景布局中不斷取得自主創(chuàng)新突破。讓AI自主創(chuàng)新能力扎根、生長并不斷繁殖。王海峰在其中的作用就如同一位煉金者,推動(dòng)不同元素的碰撞最終迸發(fā)能量。

如今在科技產(chǎn)業(yè)深受大國博弈影響的背景之下,我們也愈發(fā)能夠感知到百度這種全鏈條AI自主創(chuàng)新能力的重要性。此時(shí)發(fā)布在國際頂會(huì)上的論文、開發(fā)者手中屬于中國的開發(fā)平臺(tái)以及那些源源不斷進(jìn)入應(yīng)用層面的技術(shù)接口,對(duì)于百度AI和整個(gè)中國AI產(chǎn)業(yè)來說,都是在增加手中的底牌,為未來不斷加碼。

從學(xué)界賦能產(chǎn)業(yè),卻又不止于產(chǎn)業(yè),或許這就是科學(xué)家與科技企業(yè),能夠形成的最好的化學(xué)反應(yīng)。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-05-25
中國AI的底牌與前路:王海峰團(tuán)隊(duì)十篇論文入選ACL的價(jià)值釋讀
其實(shí)現(xiàn)在像王海峰和百度這樣科學(xué)家與科技企業(yè)的組合并不少見,我們或許可以嘗試從王海峰個(gè)人身上,尋找科學(xué)家與科技企業(yè)共同產(chǎn)生化學(xué)反應(yīng)所需要的特質(zhì),看看AI自主創(chuàng)新是如何在這種化學(xué)反應(yīng)下生長的。

長按掃碼 閱讀全文