量變引發(fā)質(zhì)變:AI科學(xué)家關(guān)注大型語(yǔ)言模型的“突現(xiàn)”能力

極客網(wǎng) ·人工智能8月25日 大型語(yǔ)言模型(LLM)如今成為媒體炒作和關(guān)注的焦點(diǎn),因?yàn)樗鼈兯坪蹙哂猩衿娴哪芰?,可以產(chǎn)生長(zhǎng)篇連貫的文本,并且可以做一些它們沒(méi)有接受過(guò)訓(xùn)練的事情,并在某種程度上參與被認(rèn)為是計(jì)算機(jī)禁區(qū)的話題。

image001.png

但是,關(guān)于大型語(yǔ)言模型的工作方式還有很多需要學(xué)習(xí)的地方。谷歌公司、斯坦福大學(xué)、DeepMind和北卡羅來(lái)納大學(xué)教堂山分校的研究人員最近進(jìn)行了一項(xiàng)研究,以探索隨著模型規(guī)模增長(zhǎng)和接受更多數(shù)據(jù)訓(xùn)練,大型語(yǔ)言模型可以完成的新任務(wù)。 

有關(guān)這一研究的論文揭示了大型語(yǔ)言模型的規(guī)模與其“突現(xiàn)(emergent)”能力之間的關(guān)系。 

什么是“突現(xiàn)”? 

這項(xiàng)研究的重點(diǎn)是物理學(xué)、生物學(xué)和計(jì)算機(jī)科學(xué)等領(lǐng)域長(zhǎng)期以來(lái)一直在討論“突現(xiàn)”的意義。諾貝爾獎(jiǎng)得主物理學(xué)家Philip Anderson曾在文章中討論了這種量變導(dǎo)致質(zhì)變并出現(xiàn)意想不到的現(xiàn)象。

受他的啟發(fā),加州大學(xué)伯克利分校教授Jacob Steinhardt將“突現(xiàn)”定義為“當(dāng)系統(tǒng)中的量變導(dǎo)致其行為發(fā)生質(zhì)變時(shí)出現(xiàn)的現(xiàn)象”。 

斯坦福大學(xué)博士生、該研究報(bào)告論文的合著者Rishi Bommasani說(shuō),“我們希望提供更精確的定義,我們將突現(xiàn)能力定義為‘不存在于較小模型中但存在于較大模型中’的能力?!?nbsp;

為了識(shí)別大型語(yǔ)言模型中的突現(xiàn)能力,研究人員致力尋找相變——在某個(gè)規(guī)模閾值以下,其模型性能接近隨機(jī);而超過(guò)該閾值,其性能遠(yuǎn)高于隨機(jī)。 

Bommasani說(shuō):“這將突現(xiàn)能力與隨著規(guī)模的擴(kuò)大而平穩(wěn)提高的能力區(qū)分開(kāi)來(lái)。預(yù)測(cè)何時(shí)會(huì)出現(xiàn)突現(xiàn)能力要困難得多?!?nbsp;

規(guī)??梢杂貌煌姆绞絹?lái)衡量,包括計(jì)算(FLOPs)、模型大?。▍?shù)數(shù)量)或數(shù)據(jù)大小。在他們的研究中,研究人員專注于計(jì)算和模型的大小。

大型語(yǔ)言模型中的“突現(xiàn)”能力

大型語(yǔ)言模型是一個(gè)特別有趣的案例研究,因?yàn)樗鼈円呀?jīng)顯示出非常明顯的突現(xiàn)跡象。大型語(yǔ)言模型通常采用數(shù)千億個(gè)參數(shù),并在數(shù)百GB的文本數(shù)據(jù)上進(jìn)行訓(xùn)練,其可用于廣泛的任務(wù),包括文本生成、回答問(wèn)題、文章摘要等。 

大型語(yǔ)言模型的有趣特征之一是它們的小樣本和零樣本學(xué)習(xí)能力,即執(zhí)行訓(xùn)練示例中未包含的任務(wù)的能力。隨著OpenAI的GPT-3在2020年的推出,大型語(yǔ)言模型中的小樣本學(xué)習(xí)引起了廣泛關(guān)注,此后研究人員對(duì)其范圍和局限性進(jìn)行了大量研究。 

在這一研究中,研究人員測(cè)試了幾個(gè)主流的大型語(yǔ)言模型,包括LaMDA、GPT-3、Gopher、Chinchilla和PaLM。他們從一個(gè)包含200多個(gè)任務(wù)的BIG-Bench基準(zhǔn)中選擇了幾個(gè)任務(wù)用于測(cè)試,這些任務(wù)被認(rèn)為超出了當(dāng)前語(yǔ)言模型的能力。同時(shí)還使用了來(lái)自TruthfulQA、MMLU、 WiC的挑戰(zhàn),這些都是旨在測(cè)試大型語(yǔ)言模型在處理復(fù)雜語(yǔ)言任務(wù)到達(dá)極限的基準(zhǔn)。此外研究人員還測(cè)試了大型語(yǔ)言模型的多步推理、指令跟蹤和多步計(jì)算能力。 

Bommasani說(shuō),“GPT-3具有標(biāo)志性意義,它引入了真正獨(dú)特的第一波突現(xiàn)能力,也就是現(xiàn)在眾所周知的少量提示/場(chǎng)景學(xué)習(xí)?!?nbsp;

研究結(jié)果表明,規(guī)模與突現(xiàn)的能力高度相關(guān)。每個(gè)大型語(yǔ)言模型系列都有不同的規(guī)模,在特定規(guī)模以下的任務(wù)上表現(xiàn)出隨機(jī)或低于隨機(jī)的性能。在那之后,他們發(fā)現(xiàn)準(zhǔn)確性突然提高,并隨著模型的變大而繼續(xù)提高。 

大型語(yǔ)言模型顯示出大規(guī)模的突現(xiàn)能力,其中任務(wù)的性能保持在隨機(jī)水平,直到模型的大小達(dá)到某個(gè)閾值。在此之后,隨著模型變大,性能會(huì)突然提高并繼續(xù)提高。

Bommasani說(shuō),“一個(gè)有趣的例子是Pilehvar和Camacho Collados(2019)場(chǎng)景中的WiC基準(zhǔn)測(cè)試,GPT-3和Chinchilla在其中基本上獲得了隨機(jī)的一次性性能,但最終顯示出的性能要高得多。”

大型語(yǔ)言模型產(chǎn)生“突現(xiàn)”能力的原因 

大型語(yǔ)言模型中存在突現(xiàn)能力表明,研究人員無(wú)法通過(guò)推斷較小的模型的性能來(lái)預(yù)測(cè)大型語(yǔ)言模型的能力。 

論文這樣寫(xiě)道,“突現(xiàn)的小樣本提示任務(wù)也是不可預(yù)測(cè)的,因?yàn)檫@些任務(wù)沒(méi)有明確包含在預(yù)訓(xùn)練中,而且我們可能不知道語(yǔ)言模型可以執(zhí)行的小樣本提示任務(wù)的整體范圍??傮w而言,進(jìn)一步擴(kuò)大規(guī)??赡軙?huì)賦予更大的語(yǔ)言模型新的突現(xiàn)能力?!?/p>

然而一個(gè)懸而未決的問(wèn)題是,這些模型是否真的在學(xué)習(xí)這些新興技能所需的知識(shí)。一些研究表明,當(dāng)神經(jīng)網(wǎng)絡(luò)提供正確的結(jié)果時(shí),它通常將輸入映射到輸出,而不需要學(xué)習(xí)因果關(guān)系、常識(shí)和其他作為學(xué)習(xí)技能基礎(chǔ)的知識(shí)。

Bommasani說(shuō),“總的來(lái)說(shuō),大型語(yǔ)言模型如何獲得能力、技能在概念層面上并沒(méi)有得到很好的理解。有證據(jù)表明,大型語(yǔ)言模型模型在某些方面隨著規(guī)模變大而變得更加穩(wěn)健,其實(shí)最好的模型在關(guān)鍵方面也并不是穩(wěn)定的。此外,穩(wěn)健性/穩(wěn)定性/因果關(guān)系與規(guī)模之間的總體關(guān)系尚不為人所知?!?/p>

在論文中,研究人員還討論了一些規(guī)模限制,其中包括硬件和數(shù)據(jù)瓶頸。此外,他們觀察到某些能力可能不會(huì)隨著規(guī)模的擴(kuò)大而出現(xiàn),包括遠(yuǎn)遠(yuǎn)超出模型訓(xùn)練數(shù)據(jù)集分布的任務(wù)。他們還警告說(shuō),一旦出現(xiàn)突現(xiàn)能力,并不能保證它會(huì)隨著規(guī)模的擴(kuò)大而繼續(xù)提高。

Bommasani說(shuō):“我并不期望所有的行為都是突現(xiàn)的,但我確實(shí)希望隨著規(guī)模擴(kuò)大,將會(huì)看到更多的突現(xiàn)行為。在更高的層面上,我預(yù)計(jì)我們將在一段時(shí)間內(nèi)繼續(xù)看到基礎(chǔ)模型范式中的重大驚喜?!?/p>

探索規(guī)?;奶娲桨?nbsp;

隨著機(jī)器學(xué)習(xí)社區(qū)朝著創(chuàng)建更大的語(yǔ)言模型邁進(jìn),人們?cè)絹?lái)越擔(dān)心大型語(yǔ)言模型的研究和開(kāi)發(fā)將集中在少數(shù)擁有資金和計(jì)算資源的機(jī)構(gòu)手中。通過(guò)發(fā)布開(kāi)源模型或降低訓(xùn)練和運(yùn)行的成本和技術(shù)開(kāi)銷,一些研究機(jī)構(gòu)想努力實(shí)現(xiàn)大型語(yǔ)言模型的普惠化。

在論文中,研究人員討論了一些規(guī)?;奶娲桨?,包括在特定任務(wù)數(shù)據(jù)集上微調(diào)較小的模型。論文中寫(xiě)道,“一旦發(fā)現(xiàn)了一種能力,進(jìn)一步的研究可能會(huì)使這種能力適用于更小規(guī)模的模型。隨著我們繼續(xù)訓(xùn)練規(guī)模越來(lái)越大的語(yǔ)言模型,降低突現(xiàn)能力的規(guī)模門(mén)檻將變得更加重要,因?yàn)檫@樣可以讓社區(qū)廣泛使用這些突現(xiàn)能力的研究結(jié)果?!?nbsp;

Bommasani說(shuō):“無(wú)論是否有突現(xiàn)能力,加大規(guī)模的好處都可能激勵(lì)人們拼資源,這將激發(fā)或加劇權(quán)力的集中化。從歷史上看,人工智能研究顯然會(huì)從具有開(kāi)放科學(xué)傳統(tǒng)的學(xué)術(shù)界和工業(yè)界的合作中受益匪淺。鑒于大模型規(guī)模的資源密集型性質(zhì),我認(rèn)為這些必須堅(jiān)持幾個(gè)互補(bǔ)的前進(jìn)道路:一是規(guī)范研究人員獲取現(xiàn)有模型,二是開(kāi)放式合作推進(jìn)普惠化,三是結(jié)構(gòu)化資源以提供必要的計(jì)算和數(shù)據(jù)?!?nbsp;

最后他指出,在可預(yù)見(jiàn)的未來(lái),大型語(yǔ)言模型仍將是機(jī)器學(xué)習(xí)研究的支柱。隨著它們進(jìn)入實(shí)際應(yīng)用,研究人員需要繼續(xù)研究它們的能力和局限性。


(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )

贊助商
2022-08-25
量變引發(fā)質(zhì)變:AI科學(xué)家關(guān)注大型語(yǔ)言模型的“突現(xiàn)”能力
大型語(yǔ)言模型是一個(gè)特別有趣的案例研究,因?yàn)樗鼈円呀?jīng)顯示出非常明顯的突現(xiàn)跡象。

長(zhǎng)按掃碼 閱讀全文