大型語言模型的“涌現(xiàn)”能力:幻覺還是現(xiàn)實?

斯坦福大學的研究指出,大型語言模型(LLM)的能力突增并非不可預測,而是我們衡量AI能力方式的結(jié)果。

兩年前,一個名為超越模仿游戲基準(BIG-bench)的項目中,450名研究人員編制了一個包含204個任務(wù)的列表,旨在測試大型語言模型的能力,這些模型是像ChatGPT這樣的聊天機器人的動力來源。在大多數(shù)任務(wù)中,隨著模型規(guī)模的擴大,性能的提高是可以預測和平穩(wěn)的——模型越大,性能越好。但是,對于其他任務(wù),能力的跳躍并不平穩(wěn)。性能在一段時間內(nèi)接近零,然后突然跳躍。其他研究也發(fā)現(xiàn)了類似的能力飛躍。

作者將此描述為“突破性”行為;其他研究人員將其比作物理學中的相變,就像液態(tài)水凍結(jié)成冰一樣。在2022年8月發(fā)表的一篇論文中,研究人員指出,這些行為不僅是令人驚訝的,而且是不可預測的,它們應該影響圍繞AI安全、潛力和風險的不斷發(fā)展的討論。他們稱這些能力為“涌現(xiàn)”,這個詞描述了只有當系統(tǒng)達到高水平復雜性時才會出現(xiàn)的集體行為。

但情況可能并不那么簡單。斯坦福大學的三位研究人員在一篇新論文中提出,這些能力的突然出現(xiàn)只是研究人員衡量LLM性能方式的結(jié)果。他們認為,這些能力既不不可預測,也不突然?!斑@種轉(zhuǎn)變比人們認為的要可預測得多,”斯坦福大學的計算機科學家兼論文的高級作者Sanmi Koyejo說?!皬娏业挠楷F(xiàn)主張與我們選擇的衡量方式有關(guān),而不僅僅是模型本身在做什么?!?/p>

我們之所以現(xiàn)在才開始看到并研究這種行為,是因為這些模型變得如此之大。大型語言模型通過分析大量的文本數(shù)據(jù)集進行訓練——來自包括書籍、網(wǎng)絡(luò)搜索和維基百科在內(nèi)的在線來源的單詞——并找到經(jīng)常出現(xiàn)在一起的單詞之間的聯(lián)系。模型的大小是以參數(shù)來衡量的,大致相當于單詞可以連接的所有方式。參數(shù)越多,LLM可以找到的連接就越多。GPT-2有15億個參數(shù),而GPT-3.5,即驅(qū)動ChatGPT的LLM,使用了3500億個參數(shù)。2023年3月首次亮相并現(xiàn)在支持微軟Copilot的GPT-4,據(jù)報道使用了1.75萬億個參數(shù)。

這種快速增長帶來了性能和效能的驚人提升,沒有人質(zhì)疑足夠大的LLM可以完成較小模型無法完成的任務(wù),包括它們未經(jīng)過訓練的任務(wù)。斯坦福的三人組將涌現(xiàn)視為一種“幻覺”,他們認識到LLM隨著規(guī)模的擴大而變得更加有效;事實上,更大模型的增加復雜性應該使其能夠更好地處理更困難和多樣化的問題。但他們認為,這種改進看起來是平穩(wěn)和可預測的,還是鋸齒狀和尖銳的,取決于選擇的度量標準——甚至是測試示例的缺乏——而不是模型的內(nèi)部運作。

三位數(shù)加法提供了一個例子。在2022年的BIG-bench研究中,研究人員報告說,參數(shù)較少的GPT-3和另一個名為LAMDA的LLM無法準確完成加法問題。然而,當GPT-3使用130億參數(shù)進行訓練時,它的能力就像開關(guān)一樣改變了。突然之間,它可以進行加法——LAMDA在680億參數(shù)時也可以。這表明加法能力在某個閾值時出現(xiàn)。

但斯坦福的研究人員指出,LLM只是根據(jù)準確性來判斷:要么它們能完美地做到,要么就做不到。所以即使LLM預測了大部分數(shù)字正確,它也失敗了。這似乎不對。如果你計算100加278,那么376似乎是一個比-9.34更準確的答案。

因此,Koyejo和他的合作者使用一種給予部分信用的度量標準來測試相同的任務(wù)?!拔覀兛梢詥枺核A測第一個數(shù)字有多準確?然后是第二個?然后是第三個?”他說。

Koyejo將這項新工作的想法歸功于他的研究生Rylan Schaeffer,他說他注意到LLM的性能似乎隨著其能力被衡量的方式而改變。與另一位斯坦福研究生Brando Miranda一起,他們選擇了新的度量標準,顯示隨著參數(shù)的增加,LLM在加法問題中預測的數(shù)字序列越來越正確。這表明加法能力不是涌現(xiàn)的——意味著它經(jīng)歷了一個突然的、不可預測的跳躍——而是漸進和可預測的。他們發(fā)現(xiàn),用不同的衡量標準,涌現(xiàn)就消失了。

但其他科學家指出,這項工作并沒有完全消除涌現(xiàn)的概念。例如,三位作者的論文沒有解釋如何預測何時度量標準,或者哪些度量標準會顯示出LLM的突然改進,東北大學的計算機科學家Tianshi Li說。“所以在這個意義上,這些能力仍然是不可預測的,”她說。其他人,如現(xiàn)在在OpenAI的計算機科學家Jason Wei,他編制了一份涌現(xiàn)能力的清單,并是BIG-bench論文的作者之一,認為早期關(guān)于涌現(xiàn)的報告是正確的,因為對于像算術(shù)這樣的能力,正確的答案確實很重要。

“AI創(chuàng)業(yè)公司Anthropic的研究科學家Alex Tamkin說:“這里肯定有一個有趣的對話。”新論文巧妙地分解了多步驟任務(wù),以識別各個組件的貢獻,他說。“但這并不是全部的故事。我們不能說所有的跳躍都是幻覺。我仍然認為文獻表明,即使當你有一個步驟的預測或使用連續(xù)的度量標準時,你仍然會看到不連續(xù)性,當你增加模型的大小時,你仍然可以看到它以跳躍的方式變得更好?!?/p>

即使今天的LLM中的涌現(xiàn)可以通過不同的測量工具來解釋,但對于明天更大、更復雜的LLM來說,可能不會是這樣?!爱斘覀儗LM發(fā)展到下一個水平時,它們不可避免地會從其他任務(wù)和其他模型中借鑒知識,”萊斯大學的計算機科學家Xia “Ben” Hu說。

這種對涌現(xiàn)的不斷發(fā)展的考慮并不僅僅是研究人員需要考慮的一個抽象問題。對于Tamkin來說,它直接關(guān)系到持續(xù)努力預測LLM將如何行為?!斑@些技術(shù)如此廣泛,如此適用,”他說?!拔蚁M鐓^(qū)將此作為一個起點,繼續(xù)強調(diào)為這些東西建立預測科學的重要性。我們?nèi)绾尾槐幌乱淮P退@訝?”

本文譯自WIRED,由 BALI 編輯發(fā)布。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2024-03-26
大型語言模型的“涌現(xiàn)”能力:幻覺還是現(xiàn)實?
斯坦福大學的研究指出,大型語言模型(LLM)的能力突增并非不可預測,而是我們衡量AI能力方式的結(jié)果。

長按掃碼 閱讀全文