国精品无码一区二区三区在线观看,Av无码天堂一区二区三区

原標(biāo)題：Vokenization：一種比GPT-3更有常識(shí)的視覺語(yǔ)言模型

學(xué)習(xí)人工智能，最好的辦法就是先考上大學(xué)，學(xué)好計(jì)算機(jī)和數(shù)學(xué)，其次就是生個(gè)孩子。

這可不是一個(gè)段子。有了孩子之后，你會(huì)能更好理解人工智能到底是如何發(fā)生的。

看著一個(gè)牙牙學(xué)語(yǔ)的小嬰兒開始對(duì)這個(gè)世界發(fā)生好奇，終于有一天開始指著一個(gè)毛茸茸的東西叫出“貓咪”的時(shí)候，你可能就會(huì)理解教會(huì)一個(gè)孩子說(shuō)話并不比教會(huì)人工智能認(rèn)出一只貓更容易。

人工智能靠大量的算力和數(shù)據(jù)，而人類靠著五感，還有我們那個(gè)低功率的大腦。不過(guò)，很快你就會(huì)對(duì)小孩子的學(xué)習(xí)能力驚訝不已，他會(huì)指著各種他不認(rèn)識(shí)的東西問(wèn)你“這是什么”，直到你不勝其煩。等到再長(zhǎng)大一些，小孩子就不會(huì)滿足于僅僅知道這些東西的名字，開始想你發(fā)問(wèn)“為什么會(huì)這樣”，再次把你問(wèn)到山窮水盡。

我們知道，現(xiàn)在人工智能領(lǐng)域，圖像識(shí)別和自然語(yǔ)言處理（NLP）正處在如日中天的發(fā)展階段。在眾多單項(xiàng)上面，圖像識(shí)別的能力要遠(yuǎn)遠(yuǎn)高于普通人，甚至比專家還好，NLP的翻譯、聽讀、寫作能力更是與專業(yè)人士不相上下，特別今年推出的GPT-3，更是以超大參數(shù)規(guī)模這種氪金方式來(lái)實(shí)現(xiàn)逆天的寫作能力。

但這又怎樣？盡管GPT-3可以編造出一大段看起來(lái)很真實(shí)的假新聞，但它仍然是靠著過(guò)去的文本經(jīng)驗(yàn)來(lái)認(rèn)知世界的，它會(huì)在很多常識(shí)性的問(wèn)題上犯下低級(jí)錯(cuò)誤，比如在回答“太陽(yáng)有幾只眼睛”的反常識(shí)問(wèn)題上，GPT-3照樣一本正經(jīng)的給出“太陽(yáng)有一只眼睛”的答案。

如果是一個(gè)人第一次碰到這種問(wèn)題，它往往并不是從文本里找答案，而是真的會(huì)去看一眼太陽(yáng)的。而這正是我們?nèi)祟愓莆照Z(yǔ)言、傳遞信息最常見的一種方式。

受此啟發(fā)，最近北卡羅來(lái)納大學(xué)教堂山分校的研究人員設(shè)計(jì)了一種新的AI模型來(lái)改變GPT-3的這種缺陷，他們把這一技術(shù)稱之為“Vokenization”，可以賦予像GPT-3這樣的語(yǔ)言模型以“看”的能力。

這個(gè)思路很好理解，我們從來(lái)不是靠一種方式來(lái)認(rèn)識(shí)世界的，而把語(yǔ)言處理和機(jī)器視覺聯(lián)系起來(lái)，才能更好地讓人工智能來(lái)接近人的認(rèn)識(shí)能力。那么這種“Voken”技術(shù)到底好不好用，正是本文要重點(diǎn)介紹的。

無(wú)所不能的GPT-3，卻“不知道自己在說(shuō)什么”

今年5月份正式出道的GPT-3，一度成為“無(wú)所不能”的代名詞，OpenAI推出的這個(gè)第三代NLP語(yǔ)言模型，包含1750億個(gè)參數(shù)，采用了英文維基百科、數(shù)字化圖書、互聯(lián)網(wǎng)網(wǎng)頁(yè)等超大規(guī)模語(yǔ)料進(jìn)行訓(xùn)練，是現(xiàn)有的規(guī)模最大、也最復(fù)雜的語(yǔ)言模型。

從GPT-3對(duì)外API接口開放之后，研究者就從GPT03的強(qiáng)大文本生成能力中挖掘出層出不窮的應(yīng)用，從答題、寫小說(shuō)、編新聞到寫代碼、做圖表等等。

但GPT-3也印證了“出道即巔峰”這句話，也是從一開始就爭(zhēng)議不斷。人們對(duì)其實(shí)際的應(yīng)用前景表示極大的懷疑。

我們復(fù)習(xí)下GPT-3的作用原理。GPT-3采用的是少示例（Few-shot）學(xué)習(xí)的方式，對(duì)于一個(gè)特定的語(yǔ)言任務(wù)，只需要給定任務(wù)描述，并給出幾個(gè)從輸入到輸出的映射示例，甚至只是給出一個(gè)開頭的文本，GPT-3就可以根據(jù)前景預(yù)設(shè)自動(dòng)生成相關(guān)下文，以此來(lái)完成對(duì)話、答題、翻譯和簡(jiǎn)單的數(shù)學(xué)計(jì)算等任務(wù)。GPT-3的優(yōu)勢(shì)就在于預(yù)訓(xùn)練模型不需要使用大量標(biāo)記的訓(xùn)練數(shù)據(jù)進(jìn)行微調(diào)，這種便利性為普通人進(jìn)行相關(guān)語(yǔ)言任務(wù)的使用上消除了障礙。

盡管GPT-3在很多領(lǐng)域的表現(xiàn)都令人折服，文本的質(zhì)量高到能騙過(guò)大多數(shù)人類（無(wú)法分辨到底是機(jī)器寫的還是人類寫的），但是GPT-3本身的缺陷仍然非常明顯。

事實(shí)上，GPT-3的訓(xùn)練方式?jīng)Q定了它并不是真正理解“語(yǔ)義”，而是能夠基于龐大的語(yǔ)料數(shù)據(jù)，進(jìn)行海量搜索，匹配相應(yīng)的答案。在這一過(guò)程中，GPT-3只是通過(guò)純粹統(tǒng)計(jì)學(xué)的方法“建立起聯(lián)系”，但是并沒有真正理解語(yǔ)義。比如在一個(gè)幫助患者減輕焦慮情緒的問(wèn)答中，“患者”表示感覺很糟，想要自殺的時(shí)候，GPT-3直接回復(fù)了“你可以”。

GPT-3的問(wèn)題就像是上世紀(jì)80年代John Searle提出的“中文屋實(shí)驗(yàn)”里的那個(gè)并不懂中文的翻譯者，GPT-3也只是手握著一本“無(wú)所不知”的百科全書，但是它并不清楚這個(gè)世界運(yùn)行的真實(shí)邏輯，更無(wú)法解決具體場(chǎng)景下的具體情況。

之前，紐約大學(xué)的兩位教授就聯(lián)名指出人們對(duì)GPT-3作用的高估，在《傲慢自大的 GPT-3：自己都不知道自己在說(shuō)什么》里提到，它（GPT-3）本身并不具有 “革命性” 的變化，也不能真正理解語(yǔ)義，如果某項(xiàng)工作的 “結(jié)果” 非常重要，那么你不能完全信任人工智能。

簡(jiǎn)單來(lái)說(shuō)就是，人工智能如果想要突破文本的統(tǒng)計(jì)意義而理解語(yǔ)義，那就必須要將文本和現(xiàn)實(shí)世界建立起聯(lián)系。顯然，這一點(diǎn)GPT-3還不能做到。

為了能夠讓語(yǔ)言文本和實(shí)際的世界建立起聯(lián)系，研究人員決定將語(yǔ)言模型和機(jī)器視覺結(jié)合起來(lái)，研究者們需要用一個(gè)包含文本和圖像的數(shù)據(jù)集從頭開始訓(xùn)練一個(gè)新模型，這就是被稱作“Vokenization”的視覺語(yǔ)言數(shù)據(jù)集模型。

Vokenization：如何成為既好用又夠用的數(shù)據(jù)集

我們首先如何來(lái)理解這兩種模型的差異呢？如果你問(wèn)一下GPT-3這樣一個(gè)問(wèn)題，“綿羊是什么顏色？”它的回答中出現(xiàn)“黑色”的可能和“白色”一樣多，因?yàn)樗茉诖罅课谋局锌吹健癇lack Sheep”（害群之馬）這個(gè)詞。而如果你問(wèn)一個(gè)圖像識(shí)別模型，它就不會(huì)從抽象的文本中學(xué)習(xí)，而是更直接從現(xiàn)實(shí)的圖像中學(xué)習(xí)，指出“這是一只白色綿羊”，而“這是一只黑色綿羊”。

我們既需要一個(gè)知識(shí)特別豐富的機(jī)器人，也需要一個(gè)能夠看懂現(xiàn)實(shí)狀況的機(jī)器人，只有把二者結(jié)合起來(lái)，才是人工智能更接近和人類交流合作的樣子。

但這個(gè)過(guò)程并不那么容易實(shí)現(xiàn)。實(shí)際上，我們常用的圖像描述是不適用的。比如下面這張圖，通常的描述，只能識(shí)別出物體“貓”，或者和貓常常一起出現(xiàn)的局部事物“水杯、毛線球、盒子和貓爪”，并沒有描述出這只貓的狀態(tài)和相互關(guān)系。

相比單純的對(duì)象標(biāo)注，Vokenization視覺語(yǔ)言數(shù)據(jù)集就需要對(duì)圖像進(jìn)行一組帶有描述性標(biāo)題的編輯。例如，下圖的標(biāo)題會(huì)是“一只坐在正在打包的行李箱中的橙色的貓”，這和典型的圖像數(shù)據(jù)集不同，它不僅是用一個(gè)名詞（例如：貓）來(lái)標(biāo)記主要對(duì)象，而是給AI模型標(biāo)注出了如何使用動(dòng)詞和介詞的相互關(guān)聯(lián)和作用。

但是這類視覺語(yǔ)言數(shù)據(jù)集的缺陷在于其數(shù)量實(shí)在太少，數(shù)據(jù)的生成和管理過(guò)程太久，相比較維基百科這種純文本包含近30億個(gè)單詞，這僅僅只占GPT-3數(shù)據(jù)集的0.6％的這樣的規(guī)模相比，像微軟的MS COCO（上下文通用對(duì)象）這樣的可視化語(yǔ)言數(shù)據(jù)集才包含700萬(wàn)個(gè)數(shù)據(jù)，對(duì)于訓(xùn)練一個(gè)成熟的AI模型來(lái)說(shuō)顯然是不夠的。

“Vokenization”的出現(xiàn)就是要解決這個(gè)問(wèn)題。像GPT-3是通過(guò)無(wú)監(jiān)督學(xué)習(xí)來(lái)訓(xùn)練的，這不需要手動(dòng)標(biāo)記數(shù)據(jù)，才使它極易去擴(kuò)展規(guī)模。Vokenization也采用了無(wú)監(jiān)督的學(xué)習(xí)方法，將MS COCO中的小數(shù)據(jù)量增加到英文維基百科的級(jí)別。

解決了數(shù)據(jù)源的數(shù)量差異問(wèn)題，Vokenination還要面臨第二個(gè)挑戰(zhàn)，就是解決視覺監(jiān)督和自然語(yǔ)言文本之間的聯(lián)接問(wèn)題。

Voken代替Token：讓文本“看懂”世界

一般來(lái)看，自然語(yǔ)言中的詞匯中很大一部分是沒有視覺特征的，這為視覺監(jiān)督提出了主要的挑戰(zhàn)。我們知道，在AI訓(xùn)練語(yǔ)言模型中的單詞被稱之為Token（標(biāo)記），而研究人員則把視覺語(yǔ)言模型中與每個(gè)Token相關(guān)的圖像稱之為Voken。而Vokenizer就代表為一個(gè)Token尋找一個(gè)Voken的算法，Vokenization就代表整個(gè)算法模型實(shí)現(xiàn)的過(guò)程。

Vokenization的過(guò)程，就不是從圖像數(shù)據(jù)集開始為圖像標(biāo)注標(biāo)題，而是從一個(gè)語(yǔ)言數(shù)據(jù)集開始，采用無(wú)監(jiān)督學(xué)習(xí)的方式，將每個(gè)單詞與圖像進(jìn)行匹配，實(shí)現(xiàn)一個(gè)高擴(kuò)展性，這就是解決第一個(gè)挑戰(zhàn)的具體思路。與此同時(shí)，研究者還要解決第二個(gè)挑戰(zhàn)的單詞和圖像的關(guān)聯(lián)性問(wèn)題。

GPT-3使用的是“單詞嵌入”的方式，基于上下文來(lái)創(chuàng)建每個(gè)單詞的數(shù)學(xué)表示，然后依賴這些嵌入把單詞變成句子，把句子組合成段落。Vokenization采取了一種并行的嵌入技術(shù)用于掃描圖像的視覺模式。研究者舉的一個(gè)案例是，將貓出現(xiàn)在床上的頻率和出現(xiàn)在樹上的頻率繪制成一個(gè)表格，并用這些信息創(chuàng)建一只“貓”的Voken。

研究者就在MS COCO數(shù)據(jù)集上同時(shí)采用了兩種嵌入技術(shù)，把圖像轉(zhuǎn)換成視覺嵌入，把字幕轉(zhuǎn)換成文字嵌入。這樣做的優(yōu)勢(shì)之處在于，這兩種嵌入可以在一個(gè)三維空間中繪制出來(lái)，并看到文字嵌入和視覺嵌入在圖形中的相互關(guān)聯(lián)，一只“貓”的視覺嵌入應(yīng)該會(huì)和文本中的“貓”的嵌入相重疊。

這能夠解決什么問(wèn)題呢？這給文本Token提供了一種圖像化的Voken匹配，使得它能夠有更加情景化的表示，對(duì)于一個(gè)抽象的詞來(lái)說(shuō)，也可以根據(jù)不同的上下文情境，具有了完全不同的意思。

比如，“Contact”這個(gè)詞，在下圖左側(cè)的Voken的匹配下，它就代表“聯(lián)系信息”的意思，在下圖右側(cè)的Voken的匹配下，就代表了“撫摸一只貓”的意思。

說(shuō)到這里，我們大概就能理解Voken的作用。當(dāng)GPT-3模型對(duì)于一些文本概念無(wú)法準(zhǔn)確理解其語(yǔ)境和相應(yīng)語(yǔ)義的時(shí)候，它就容易開始自我發(fā)揮，胡言亂語(yǔ)，而一旦通過(guò)給這個(gè)Token找到圖像化的Voken實(shí)例，就可以真正理解這個(gè)詞的實(shí)際涵義。

現(xiàn)在，研究人員通過(guò)在MS COCO中創(chuàng)建的視覺和單詞嵌入方法來(lái)訓(xùn)練Vokenizer算法，在英語(yǔ)維基百科中已經(jīng)為40%的Token找到了Voken，盡管不到一半，但至少是30億單詞的數(shù)據(jù)集中的40%。

基于這一數(shù)據(jù)集，研究人員重新訓(xùn)練了谷歌開發(fā)的BERT模型，并且在6種不同的語(yǔ)言理解的測(cè)試中測(cè)試了這一新模型，結(jié)果顯示改進(jìn)后的BERT在幾個(gè)測(cè)試方面都表現(xiàn)良好。

Vokenization現(xiàn)在還只是處在研究階段，我們也只能從其論文的結(jié)果中窺探這一模型的效果，至于這項(xiàng)新的視覺語(yǔ)言化技術(shù)的應(yīng)用和展示，還有待后面我們進(jìn)一步追蹤觀察。

不敢怎樣，在無(wú)監(jiān)督學(xué)習(xí)幫助下的視覺語(yǔ)言模型，成為NLP領(lǐng)域剛剛閃現(xiàn)的一朵火花，為自然語(yǔ)言處理打開了新的思路，使得純粹的文本訓(xùn)練開始和圖像識(shí)別聯(lián)系起來(lái)。這就像讓一個(gè)博聞強(qiáng)記的機(jī)器人從“自顧自說(shuō)話”，變得可以聽見和看見外界的真實(shí)狀況，能夠成為那個(gè)“睜開眼睛看世界”的人工智能。

最后，讓我們重溫一個(gè)經(jīng)典的場(chǎng)景，在海倫凱勒的自傳中，她描述了自己如何學(xué)會(huì)“Water”這個(gè)單詞的含義。又盲又聾的海倫總是搞混“杯子”和“水”的指代，直到她的老師沙利文女士帶著她來(lái)到噴池邊，一邊感受著清涼的泉水，一邊感受著沙利文在她手心寫下的“Water”，她這才終于明白了“水”的真實(shí)指代和含義。

用她的話說(shuō)“不知怎么回事，語(yǔ)言的秘密突然被揭開了，我終于知道水就是流過(guò)我手心的一種物質(zhì)。這個(gè)叫“水”的字喚醒了我的靈魂……”

幸好，人類在失去光明和聽覺之后，僅能通過(guò)觸覺還能理解語(yǔ)言的奧秘，那么對(duì)于人工智能來(lái)說(shuō)，擁有了強(qiáng)大的圖像識(shí)別能力，又有近乎無(wú)限的文本知識(shí)，那么，未來(lái)AI將能否通向一條具有像人類在日常經(jīng)驗(yàn)中學(xué)習(xí)的常識(shí)之路嗎？

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

Vokenization：一種比GPT-3更有常識(shí)的視覺語(yǔ)言模型

下一篇