<sub id="h0slb"><optgroup id="h0slb"></optgroup></sub>

<source id="h0slb"></source>

直播
榜單
7x24h快訊

極客網(wǎng) > 人工智能 >

大型語言模型的“涌現(xiàn)”能力：幻覺還是現(xiàn)實？

人閱讀

2024-03-26 07:01:00

來源：煎蛋
作者：BALI

相關(guān)關(guān)鍵詞

人工智能
AI

斯坦福大學的研究指出，大型語言模型(LLM)的能力突增并非不可預測，而是我們衡量AI能力方式的結(jié)果。
兩年前，一個名為超越模仿游戲基準(BIG-bench)的項目中，450名研究人員編制了一個包含204個任務(wù)的列表，旨在測試大型語言模型的能力，這些模型是像ChatGPT這樣的聊天機器人的動力來源。在大多數(shù)任務(wù)中，隨著模型規(guī)模的擴大，性能的提高是可以預測和平穩(wěn)的——模型越大，性能越好。但是，對于其他任務(wù)，能力的跳躍并不平穩(wěn)。性能在一段時間內(nèi)接近零，然后突然跳躍。其他研究也發(fā)現(xiàn)了類似的能力飛躍。
作者將此描述為“突破性”行為；其他研究人員將其比作物理學中的相變，就像液態(tài)水凍結(jié)成冰一樣。在2022年8月發(fā)表的一篇論文中，研究人員指出，這些行為不僅是令人驚訝的，而且是不可預測的，它們應該影響圍繞AI安全、潛力和風險的不斷發(fā)展的討論。他們稱這些能力為“涌現(xiàn)”，這個詞描述了只有當系統(tǒng)達到高水平復雜性時才會出現(xiàn)的集體行為。
但情況可能并不那么簡單。斯坦福大學的三位研究人員在一篇新論文中提出，這些能力的突然出現(xiàn)只是研究人員衡量LLM性能方式的結(jié)果。他們認為，這些能力既不不可預測，也不突然?！斑@種轉(zhuǎn)變比人們認為的要可預測得多，”斯坦福大學的計算機科學家兼論文的高級作者Sanmi Koyejo說?！皬娏业挠楷F(xiàn)主張與我們選擇的衡量方式有關(guān)，而不僅僅是模型本身在做什么?！?/p>
我們之所以現(xiàn)在才開始看到并研究這種行為，是因為這些模型變得如此之大。大型語言模型通過分析大量的文本數(shù)據(jù)集進行訓練——來自包括書籍、網(wǎng)絡(luò)搜索和維基百科在內(nèi)的在線來源的單詞——并找到經(jīng)常出現(xiàn)在一起的單詞之間的聯(lián)系。模型的大小是以參數(shù)來衡量的，大致相當于單詞可以連接的所有方式。參數(shù)越多，LLM可以找到的連接就越多。GPT-2有15億個參數(shù)，而GPT-3.5，即驅(qū)動ChatGPT的LLM，使用了3500億個參數(shù)。2023年3月首次亮相并現(xiàn)在支持微軟Copilot的GPT-4，據(jù)報道使用了1.75萬億個參數(shù)。
這種快速增長帶來了性能和效能的驚人提升，沒有人質(zhì)疑足夠大的LLM可以完成較小模型無法完成的任務(wù)，包括它們未經(jīng)過訓練的任務(wù)。斯坦福的三人組將涌現(xiàn)視為一種“幻覺”，他們認識到LLM隨著規(guī)模的擴大而變得更加有效；事實上，更大模型的增加復雜性應該使其能夠更好地處理更困難和多樣化的問題。但他們認為，這種改進看起來是平穩(wěn)和可預測的，還是鋸齒狀和尖銳的，取決于選擇的度量標準——甚至是測試示例的缺乏——而不是模型的內(nèi)部運作。
三位數(shù)加法提供了一個例子。在2022年的BIG-bench研究中，研究人員報告說，參數(shù)較少的GPT-3和另一個名為LAMDA的LLM無法準確完成加法問題。然而，當GPT-3使用130億參數(shù)進行訓練時，它的能力就像開關(guān)一樣改變了。突然之間，它可以進行加法——LAMDA在680億參數(shù)時也可以。這表明加法能力在某個閾值時出現(xiàn)。
但斯坦福的研究人員指出，LLM只是根據(jù)準確性來判斷：要么它們能完美地做到，要么就做不到。所以即使LLM預測了大部分數(shù)字正確，它也失敗了。這似乎不對。如果你計算100加278，那么376似乎是一個比-9.34更準確的答案。
因此，Koyejo和他的合作者使用一種給予部分信用的度量標準來測試相同的任務(wù)?！拔覀兛梢詥枺核A測第一個數(shù)字有多準確？然后是第二個？然后是第三個？”他說。
Koyejo將這項新工作的想法歸功于他的研究生Rylan Schaeffer，他說他注意到LLM的性能似乎隨著其能力被衡量的方式而改變。與另一位斯坦福研究生Brando Miranda一起，他們選擇了新的度量標準，顯示隨著參數(shù)的增加，LLM在加法問題中預測的數(shù)字序列越來越正確。這表明加法能力不是涌現(xiàn)的——意味著它經(jīng)歷了一個突然的、不可預測的跳躍——而是漸進和可預測的。他們發(fā)現(xiàn)，用不同的衡量標準，涌現(xiàn)就消失了。
但其他科學家指出，這項工作并沒有完全消除涌現(xiàn)的概念。例如，三位作者的論文沒有解釋如何預測何時度量標準，或者哪些度量標準會顯示出LLM的突然改進，東北大學的計算機科學家Tianshi Li說。“所以在這個意義上，這些能力仍然是不可預測的，”她說。其他人，如現(xiàn)在在OpenAI的計算機科學家Jason Wei，他編制了一份涌現(xiàn)能力的清單，并是BIG-bench論文的作者之一，認為早期關(guān)于涌現(xiàn)的報告是正確的，因為對于像算術(shù)這樣的能力，正確的答案確實很重要。
“AI創(chuàng)業(yè)公司Anthropic的研究科學家Alex Tamkin說：“這里肯定有一個有趣的對話。”新論文巧妙地分解了多步驟任務(wù)，以識別各個組件的貢獻，他說。“但這并不是全部的故事。我們不能說所有的跳躍都是幻覺。我仍然認為文獻表明，即使當你有一個步驟的預測或使用連續(xù)的度量標準時，你仍然會看到不連續(xù)性，當你增加模型的大小時，你仍然可以看到它以跳躍的方式變得更好?！?/p>
即使今天的LLM中的涌現(xiàn)可以通過不同的測量工具來解釋，但對于明天更大、更復雜的LLM來說，可能不會是這樣?！爱斘覀儗LM發(fā)展到下一個水平時，它們不可避免地會從其他任務(wù)和其他模型中借鑒知識，”萊斯大學的計算機科學家Xia “Ben” Hu說。
這種對涌現(xiàn)的不斷發(fā)展的考慮并不僅僅是研究人員需要考慮的一個抽象問題。對于Tamkin來說，它直接關(guān)系到持續(xù)努力預測LLM將如何行為?！斑@些技術(shù)如此廣泛，如此適用，”他說?！拔蚁Ｍ鐓^(qū)將此作為一個起點，繼續(xù)強調(diào)為這些東西建立預測科學的重要性。我們?nèi)绾尾槐幌乱淮Ｐ退@訝？”
本文譯自WIRED，由 BALI 編輯發(fā)布。

（免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

為您推薦

最新推薦

企業(yè)級IT

網(wǎng)絡(luò)通信

智能硬件

人工智能

創(chuàng)業(yè)創(chuàng)投

汽車科技

金融科技

零售電商

區(qū)塊鏈

美國法官裁定谷歌敗訴：必須為第三方商店開放Android系統(tǒng)

谷歌 Android系統(tǒng) GooglePlay 10-08

“純血”鴻蒙今天起開放公測，早前內(nèi)測反饋性能和流暢度顯著提升

純血鴻蒙純血鴻蒙公測鴻蒙公測 10-08

分析稱蘋果AI發(fā)揮效應還需兩三年，目前難以刺激iPhone 16銷量

蘋果AI AI AI手機 10-08

AI PC熱潮推動電池需求，平均售價持續(xù)上漲

AI PC AIPC 電池新普科技 10-08

MBBF 2024前瞻：在浪漫無盡的土耳其，見證5G-A×AI無限體驗

MBBF 5G-A AI 華為 09-30

“算力之光”照耀中原大地，超聚變智聚生態(tài)閃耀全場

超聚變 2024中國算力大會中國算力大會 09-29

增長800%！埃森哲2024財年GenAI業(yè)務(wù)收入飆升至9億美元

埃森哲埃森哲GenAI 埃森哲GenAI收入 09-29

華為數(shù)據(jù)存儲兩大新品齊發(fā)：全面閃存化，全面向AI

華為數(shù)據(jù)存儲全閃存 AI存儲 09-27

阿聯(lián)酋運營商e&與諾基亞貝爾實驗室合作，探索工業(yè)AI應用

阿聯(lián)酋運營商 e& 諾基亞貝爾實驗室工業(yè)AI應用 09-27

OpenAI功勛CTO為何離職？盈利派壓倒非盈利派

OpenAI OpenAI高管離職 OpenAI人事地震 09-27

極客觀察

MBBF 2024前瞻：在浪漫無盡的土耳其，見證5G-A×AI無限體驗

“算力之光”照耀中原大地，超聚變智聚生態(tài)閃耀全場

OpenAI功勛CTO為何離職？盈利派壓倒非盈利派

從“根技術(shù)”到“根生態(tài)”，華為云攜手開發(fā)者“智”啟新境

為加速5G創(chuàng)新和變現(xiàn)，愛立信聯(lián)合多家運營商成立網(wǎng)絡(luò)API公司

借AI PC東風推進多元化戰(zhàn)略，高通攻入英特爾和AMD的地盤

上海5G-A，“魔”力大綻放

中美企業(yè)聚焦AI眼鏡賽道，AI+AR大有可為

《黑神話：悟空》意外爆紅引品牌追捧，中國文化開始發(fā)光

谷歌AI搜索給網(wǎng)站的選擇：要么分享數(shù)據(jù)，要么死

欄目相關(guān)

分析稱蘋果AI發(fā)揮效應還需兩三年，目前難以刺激iPhone 16銷量

英偉達CEO黃仁勛個人身價達到1090億美元，超過英特爾公司的總市值

OpenAI官宣融資66億美元估值1570億美元

112718人在線學習！松鼠Ai挑戰(zhàn)吉尼斯世界紀錄成功

聯(lián)想YOGA Air 15 Aura AI元啟版與聯(lián)想YOGA Pro 14銳龍AI元啟版正式發(fā)布

TechWeb微晚報：國產(chǎn)特斯拉出口量達到100萬輛，ChatGPT訂閱費將漲至44美元

消息稱全球半導體廠商未來3年將花費4000億美元采購設(shè)備

增長800%！埃森哲2024財年GenAI業(yè)務(wù)收入飆升至9億美元

OpenAI預計今年虧損達50億美元擬將ChatGPT每月訂閱費逐步漲至44美元

消息稱蘋果在最后時刻退出OpenAI新一輪融資但不會影響雙方現(xiàn)有合作

贊助商

極客網(wǎng)熱搜關(guān)鍵詞

人工智能 AI 機器學習 ChatGPT OpenAI 生成式AI AI芯片 AIGC U-Mail 世界人工智能大會 AI大模型 AIoT AirPods Airbnb Rushmail 人工智能AI AI人工智能昇騰AI Akamai AIPC 生成式人工智能 Air AI技術(shù) 谷歌AI GenAI 科大訊飛AI學習機百度AI 蘋果AI CAICT 阿爾法蛋AI詞典筆T10 華為AI AI手機松鼠AI 微軟AI AIS Airdoc WAIC AI+ AITO 昇騰AI創(chuàng)新大賽京東AI 阿爾法蛋AI詞典筆智譜AI SoleusAir aigo SoleusAir舒樂氏 2019世界人工智能大會 LIFAair 人工智能大會 AI模型人工智能技術(shù) 浙大AIF Zain AI機器人 AI創(chuàng)企 AI醫(yī)療 AI人才人工智能芯片 AI應用 Airtag AI時代騰訊AI AI算力 AI算法 AI框架 Gmail 聯(lián)想AI 人工智能計算中心 BrainCo VAIO Chain AI賦能人工智能大賽 AI服務(wù)器 OPENAIGC開發(fā)者大賽谷歌人工智能 Airwheel AI投資 xAI Coremail 人工智能名片 Mirai AI教育 AI搜索 AI音樂 AI聊天機器人百度人工智能 AI計算 AIOps Airwallex空中云匯移動AI時代蘋果人工智能 AI原生應用人工智能+ 阿爾法蛋AI詞典筆T20 AI編程英偉達AI芯片阿里AI 昇騰AI開發(fā)者創(chuàng)享日 2021世界人工智能大會

上一篇

中國工程院院士唐志共：AI破解傳統(tǒng)氣動外形設(shè)計難題實現(xiàn)高效多樣化創(chuàng)新

下一篇

百度AI大模型生態(tài)全面賦能極越V1.4.0升級超過200項功能

簡版

原版

投稿

回頂部

2024-03-26

大型語言模型的“涌現(xiàn)”能力：幻覺還是現(xiàn)實？

斯坦福大學的研究指出，大型語言模型(LLM)的能力突增并非不可預測，而是我們衡量AI能力方式的結(jié)果。

長按掃碼閱讀全文

?Copyright 2012-2023 極客網(wǎng) 版權(quán)所有京ICP備14008826號-3

關(guān)于我們

贊助我們

加入我們

聯(lián)系我們

尋求展示

會員服務(wù)

友情鏈接

京公網(wǎng)安備 11010602130057號

感谢您访问我们的网站，您可能还对以下资源感兴趣：
欧美大香线蕉线伊人久久