Vokenization:一種比GPT-3更有常識(shí)的視覺(jué)語(yǔ)言模型

原標(biāo)題:Vokenization:一種比GPT-3更有常識(shí)的視覺(jué)語(yǔ)言模型

學(xué)習(xí)人工智能,最好的辦法就是先考上大學(xué),學(xué)好計(jì)算機(jī)和數(shù)學(xué),其次就是生個(gè)孩子。

這可不是一個(gè)段子。有了孩子之后,你會(huì)能更好理解人工智能到底是如何發(fā)生的。

看著一個(gè)牙牙學(xué)語(yǔ)的小嬰兒開始對(duì)這個(gè)世界發(fā)生好奇,終于有一天開始指著一個(gè)毛茸茸的東西叫出“貓咪”的時(shí)候,你可能就會(huì)理解教會(huì)一個(gè)孩子說(shuō)話并不比教會(huì)人工智能認(rèn)出一只貓更容易。

人工智能靠大量的算力和數(shù)據(jù),而人類靠著五感,還有我們那個(gè)低功率的大腦。不過(guò),很快你就會(huì)對(duì)小孩子的學(xué)習(xí)能力驚訝不已,他會(huì)指著各種他不認(rèn)識(shí)的東西問(wèn)你“這是什么”,直到你不勝其煩。等到再長(zhǎng)大一些,小孩子就不會(huì)滿足于僅僅知道這些東西的名字,開始想你發(fā)問(wèn)“為什么會(huì)這樣”,再次把你問(wèn)到山窮水盡。

我們知道,現(xiàn)在人工智能領(lǐng)域,圖像識(shí)別和自然語(yǔ)言處理(NLP)正處在如日中天的發(fā)展階段。在眾多單項(xiàng)上面,圖像識(shí)別的能力要遠(yuǎn)遠(yuǎn)高于普通人,甚至比專家還好,NLP的翻譯、聽讀、寫作能力更是與專業(yè)人士不相上下,特別今年推出的GPT-3,更是以超大參數(shù)規(guī)模這種氪金方式來(lái)實(shí)現(xiàn)逆天的寫作能力。

但這又怎樣?盡管GPT-3可以編造出一大段看起來(lái)很真實(shí)的假新聞,但它仍然是靠著過(guò)去的文本經(jīng)驗(yàn)來(lái)認(rèn)知世界的,它會(huì)在很多常識(shí)性的問(wèn)題上犯下低級(jí)錯(cuò)誤,比如在回答“太陽(yáng)有幾只眼睛”的反常識(shí)問(wèn)題上,GPT-3照樣一本正經(jīng)的給出“太陽(yáng)有一只眼睛”的答案。

如果是一個(gè)人第一次碰到這種問(wèn)題,它往往并不是從文本里找答案,而是真的會(huì)去看一眼太陽(yáng)的。而這正是我們?nèi)祟愓莆照Z(yǔ)言、傳遞信息最常見的一種方式。

受此啟發(fā),最近北卡羅來(lái)納大學(xué)教堂山分校的研究人員設(shè)計(jì)了一種新的AI模型來(lái)改變GPT-3的這種缺陷,他們把這一技術(shù)稱之為“Vokenization”,可以賦予像GPT-3這樣的語(yǔ)言模型以“看”的能力。

這個(gè)思路很好理解,我們從來(lái)不是靠一種方式來(lái)認(rèn)識(shí)世界的,而把語(yǔ)言處理和機(jī)器視覺(jué)聯(lián)系起來(lái),才能更好地讓人工智能來(lái)接近人的認(rèn)識(shí)能力。那么這種“Voken”技術(shù)到底好不好用,正是本文要重點(diǎn)介紹的。

無(wú)所不能的GPT-3,卻“不知道自己在說(shuō)什么”

今年5月份正式出道的GPT-3,一度成為“無(wú)所不能”的代名詞,OpenAI推出的這個(gè)第三代NLP語(yǔ)言模型,包含1750億個(gè)參數(shù),采用了英文維基百科、數(shù)字化圖書、互聯(lián)網(wǎng)網(wǎng)頁(yè)等超大規(guī)模語(yǔ)料進(jìn)行訓(xùn)練,是現(xiàn)有的規(guī)模最大、也最復(fù)雜的語(yǔ)言模型。

從GPT-3對(duì)外API接口開放之后,研究者就從GPT03的強(qiáng)大文本生成能力中挖掘出層出不窮的應(yīng)用,從答題、寫小說(shuō)、編新聞到寫代碼、做圖表等等。

但GPT-3也印證了“出道即巔峰”這句話,也是從一開始就爭(zhēng)議不斷。人們對(duì)其實(shí)際的應(yīng)用前景表示極大的懷疑。

我們復(fù)習(xí)下GPT-3的作用原理。GPT-3采用的是少示例(Few-shot)學(xué)習(xí)的方式,對(duì)于一個(gè)特定的語(yǔ)言任務(wù),只需要給定任務(wù)描述,并給出幾個(gè)從輸入到輸出的映射示例,甚至只是給出一個(gè)開頭的文本,GPT-3就可以根據(jù)前景預(yù)設(shè)自動(dòng)生成相關(guān)下文,以此來(lái)完成對(duì)話、答題、翻譯和簡(jiǎn)單的數(shù)學(xué)計(jì)算等任務(wù)。GPT-3的優(yōu)勢(shì)就在于預(yù)訓(xùn)練模型不需要使用大量標(biāo)記的訓(xùn)練數(shù)據(jù)進(jìn)行微調(diào),這種便利性為普通人進(jìn)行相關(guān)語(yǔ)言任務(wù)的使用上消除了障礙。

盡管GPT-3在很多領(lǐng)域的表現(xiàn)都令人折服,文本的質(zhì)量高到能騙過(guò)大多數(shù)人類(無(wú)法分辨到底是機(jī)器寫的還是人類寫的),但是GPT-3本身的缺陷仍然非常明顯。

事實(shí)上,GPT-3的訓(xùn)練方式?jīng)Q定了它并不是真正理解“語(yǔ)義”,而是能夠基于龐大的語(yǔ)料數(shù)據(jù),進(jìn)行海量搜索,匹配相應(yīng)的答案。在這一過(guò)程中,GPT-3只是通過(guò)純粹統(tǒng)計(jì)學(xué)的方法“建立起聯(lián)系”,但是并沒(méi)有真正理解語(yǔ)義。比如在一個(gè)幫助患者減輕焦慮情緒的問(wèn)答中,“患者”表示感覺(jué)很糟,想要自殺的時(shí)候,GPT-3直接回復(fù)了“你可以”。

GPT-3的問(wèn)題就像是上世紀(jì)80年代John Searle提出的“中文屋實(shí)驗(yàn)”里的那個(gè)并不懂中文的翻譯者,GPT-3也只是手握著一本“無(wú)所不知”的百科全書,但是它并不清楚這個(gè)世界運(yùn)行的真實(shí)邏輯,更無(wú)法解決具體場(chǎng)景下的具體情況。

之前,紐約大學(xué)的兩位教授就聯(lián)名指出人們對(duì)GPT-3作用的高估,在《傲慢自大的 GPT-3:自己都不知道自己在說(shuō)什么》里提到,它(GPT-3)本身并不具有 “革命性” 的變化,也不能真正理解語(yǔ)義,如果某項(xiàng)工作的 “結(jié)果” 非常重要,那么你不能完全信任人工智能。

簡(jiǎn)單來(lái)說(shuō)就是,人工智能如果想要突破文本的統(tǒng)計(jì)意義而理解語(yǔ)義,那就必須要將文本和現(xiàn)實(shí)世界建立起聯(lián)系。顯然,這一點(diǎn)GPT-3還不能做到。

為了能夠讓語(yǔ)言文本和實(shí)際的世界建立起聯(lián)系,研究人員決定將語(yǔ)言模型和機(jī)器視覺(jué)結(jié)合起來(lái),研究者們需要用一個(gè)包含文本和圖像的數(shù)據(jù)集從頭開始訓(xùn)練一個(gè)新模型,這就是被稱作“Vokenization”的視覺(jué)語(yǔ)言數(shù)據(jù)集模型。

Vokenization:如何成為既好用又夠用的數(shù)據(jù)集

我們首先如何來(lái)理解這兩種模型的差異呢?如果你問(wèn)一下GPT-3這樣一個(gè)問(wèn)題,“綿羊是什么顏色?”它的回答中出現(xiàn)“黑色”的可能和“白色”一樣多,因?yàn)樗茉诖罅课谋局锌吹健癇lack Sheep”(害群之馬)這個(gè)詞。而如果你問(wèn)一個(gè)圖像識(shí)別模型,它就不會(huì)從抽象的文本中學(xué)習(xí),而是更直接從現(xiàn)實(shí)的圖像中學(xué)習(xí),指出“這是一只白色綿羊”,而“這是一只黑色綿羊”。

我們既需要一個(gè)知識(shí)特別豐富的機(jī)器人,也需要一個(gè)能夠看懂現(xiàn)實(shí)狀況的機(jī)器人,只有把二者結(jié)合起來(lái),才是人工智能更接近和人類交流合作的樣子。

但這個(gè)過(guò)程并不那么容易實(shí)現(xiàn)。實(shí)際上,我們常用的圖像描述是不適用的。比如下面這張圖,通常的描述,只能識(shí)別出物體“貓”,或者和貓常常一起出現(xiàn)的局部事物“水杯、毛線球、盒子和貓爪”,并沒(méi)有描述出這只貓的狀態(tài)和相互關(guān)系。

相比單純的對(duì)象標(biāo)注,Vokenization視覺(jué)語(yǔ)言數(shù)據(jù)集就需要對(duì)圖像進(jìn)行一組帶有描述性標(biāo)題的編輯。例如,下圖的標(biāo)題會(huì)是“一只坐在正在打包的行李箱中的橙色的貓”,這和典型的圖像數(shù)據(jù)集不同,它不僅是用一個(gè)名詞(例如:貓)來(lái)標(biāo)記主要對(duì)象,而是給AI模型標(biāo)注出了如何使用動(dòng)詞和介詞的相互關(guān)聯(lián)和作用。

但是這類視覺(jué)語(yǔ)言數(shù)據(jù)集的缺陷在于其數(shù)量實(shí)在太少,數(shù)據(jù)的生成和管理過(guò)程太久,相比較維基百科這種純文本包含近30億個(gè)單詞,這僅僅只占GPT-3數(shù)據(jù)集的0.6%的這樣的規(guī)模相比,像微軟的MS COCO(上下文通用對(duì)象)這樣的可視化語(yǔ)言數(shù)據(jù)集才包含700萬(wàn)個(gè)數(shù)據(jù),對(duì)于訓(xùn)練一個(gè)成熟的AI模型來(lái)說(shuō)顯然是不夠的。

“Vokenization”的出現(xiàn)就是要解決這個(gè)問(wèn)題。像GPT-3是通過(guò)無(wú)監(jiān)督學(xué)習(xí)來(lái)訓(xùn)練的,這不需要手動(dòng)標(biāo)記數(shù)據(jù),才使它極易去擴(kuò)展規(guī)模。Vokenization也采用了無(wú)監(jiān)督的學(xué)習(xí)方法,將MS COCO中的小數(shù)據(jù)量增加到英文維基百科的級(jí)別。

解決了數(shù)據(jù)源的數(shù)量差異問(wèn)題,Vokenination還要面臨第二個(gè)挑戰(zhàn),就是解決視覺(jué)監(jiān)督和自然語(yǔ)言文本之間的聯(lián)接問(wèn)題。

Voken代替Token:讓文本“看懂”世界

一般來(lái)看,自然語(yǔ)言中的詞匯中很大一部分是沒(méi)有視覺(jué)特征的,這為視覺(jué)監(jiān)督提出了主要的挑戰(zhàn)。我們知道,在AI訓(xùn)練語(yǔ)言模型中的單詞被稱之為Token(標(biāo)記),而研究人員則把視覺(jué)語(yǔ)言模型中與每個(gè)Token相關(guān)的圖像稱之為Voken。而Vokenizer就代表為一個(gè)Token尋找一個(gè)Voken的算法,Vokenization就代表整個(gè)算法模型實(shí)現(xiàn)的過(guò)程。

Vokenization的過(guò)程,就不是從圖像數(shù)據(jù)集開始為圖像標(biāo)注標(biāo)題,而是從一個(gè)語(yǔ)言數(shù)據(jù)集開始,采用無(wú)監(jiān)督學(xué)習(xí)的方式,將每個(gè)單詞與圖像進(jìn)行匹配,實(shí)現(xiàn)一個(gè)高擴(kuò)展性,這就是解決第一個(gè)挑戰(zhàn)的具體思路。與此同時(shí),研究者還要解決第二個(gè)挑戰(zhàn)的單詞和圖像的關(guān)聯(lián)性問(wèn)題。

GPT-3使用的是“單詞嵌入”的方式,基于上下文來(lái)創(chuàng)建每個(gè)單詞的數(shù)學(xué)表示,然后依賴這些嵌入把單詞變成句子,把句子組合成段落。Vokenization采取了一種并行的嵌入技術(shù)用于掃描圖像的視覺(jué)模式。研究者舉的一個(gè)案例是,將貓出現(xiàn)在床上的頻率和出現(xiàn)在樹上的頻率繪制成一個(gè)表格,并用這些信息創(chuàng)建一只“貓”的Voken。

研究者就在MS COCO數(shù)據(jù)集上同時(shí)采用了兩種嵌入技術(shù),把圖像轉(zhuǎn)換成視覺(jué)嵌入,把字幕轉(zhuǎn)換成文字嵌入。這樣做的優(yōu)勢(shì)之處在于,這兩種嵌入可以在一個(gè)三維空間中繪制出來(lái),并看到文字嵌入和視覺(jué)嵌入在圖形中的相互關(guān)聯(lián),一只“貓”的視覺(jué)嵌入應(yīng)該會(huì)和文本中的“貓”的嵌入相重疊。

這能夠解決什么問(wèn)題呢?這給文本Token提供了一種圖像化的Voken匹配,使得它能夠有更加情景化的表示,對(duì)于一個(gè)抽象的詞來(lái)說(shuō),也可以根據(jù)不同的上下文情境,具有了完全不同的意思。

比如,“Contact”這個(gè)詞,在下圖左側(cè)的Voken的匹配下,它就代表“聯(lián)系信息”的意思,在下圖右側(cè)的Voken的匹配下,就代表了“撫摸一只貓”的意思。

說(shuō)到這里,我們大概就能理解Voken的作用。當(dāng)GPT-3模型對(duì)于一些文本概念無(wú)法準(zhǔn)確理解其語(yǔ)境和相應(yīng)語(yǔ)義的時(shí)候,它就容易開始自我發(fā)揮,胡言亂語(yǔ),而一旦通過(guò)給這個(gè)Token找到圖像化的Voken實(shí)例,就可以真正理解這個(gè)詞的實(shí)際涵義。

現(xiàn)在,研究人員通過(guò)在MS COCO中創(chuàng)建的視覺(jué)和單詞嵌入方法來(lái)訓(xùn)練Vokenizer算法,在英語(yǔ)維基百科中已經(jīng)為40%的Token找到了Voken,盡管不到一半,但至少是30億單詞的數(shù)據(jù)集中的40%。

基于這一數(shù)據(jù)集,研究人員重新訓(xùn)練了谷歌開發(fā)的BERT模型,并且在6種不同的語(yǔ)言理解的測(cè)試中測(cè)試了這一新模型,結(jié)果顯示改進(jìn)后的BERT在幾個(gè)測(cè)試方面都表現(xiàn)良好。

Vokenization現(xiàn)在還只是處在研究階段,我們也只能從其論文的結(jié)果中窺探這一模型的效果,至于這項(xiàng)新的視覺(jué)語(yǔ)言化技術(shù)的應(yīng)用和展示,還有待后面我們進(jìn)一步追蹤觀察。

不敢怎樣,在無(wú)監(jiān)督學(xué)習(xí)幫助下的視覺(jué)語(yǔ)言模型,成為NLP領(lǐng)域剛剛閃現(xiàn)的一朵火花,為自然語(yǔ)言處理打開了新的思路,使得純粹的文本訓(xùn)練開始和圖像識(shí)別聯(lián)系起來(lái)。這就像讓一個(gè)博聞強(qiáng)記的機(jī)器人從“自顧自說(shuō)話”,變得可以聽見和看見外界的真實(shí)狀況,能夠成為那個(gè)“睜開眼睛看世界”的人工智能。

最后,讓我們重溫一個(gè)經(jīng)典的場(chǎng)景,在海倫凱勒的自傳中,她描述了自己如何學(xué)會(huì)“Water”這個(gè)單詞的含義。又盲又聾的海倫總是搞混“杯子”和“水”的指代,直到她的老師沙利文女士帶著她來(lái)到噴池邊,一邊感受著清涼的泉水,一邊感受著沙利文在她手心寫下的“Water”,她這才終于明白了“水”的真實(shí)指代和含義。

用她的話說(shuō)“不知怎么回事,語(yǔ)言的秘密突然被揭開了,我終于知道水就是流過(guò)我手心的一種物質(zhì)。這個(gè)叫“水”的字喚醒了我的靈魂……”

幸好,人類在失去光明和聽覺(jué)之后,僅能通過(guò)觸覺(jué)還能理解語(yǔ)言的奧秘,那么對(duì)于人工智能來(lái)說(shuō),擁有了強(qiáng)大的圖像識(shí)別能力,又有近乎無(wú)限的文本知識(shí),那么,未來(lái)AI將能否通向一條具有像人類在日常經(jīng)驗(yàn)中學(xué)習(xí)的常識(shí)之路嗎?

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2020-11-17
Vokenization:一種比GPT-3更有常識(shí)的視覺(jué)語(yǔ)言模型
這個(gè)思路很好理解,我們從來(lái)不是靠一種方式來(lái)認(rèn)識(shí)世界的,而把語(yǔ)言處理和機(jī)器視覺(jué)聯(lián)系起來(lái),才能更好地讓人工智能來(lái)接近人的認(rèn)識(shí)能力。

長(zhǎng)按掃碼 閱讀全文