極客網(wǎng)·極客觀察7月27日 最近有很多關(guān)于ChatGPT模型(例如GPT-3.5和GPT-4)的性能隨著時(shí)間的推移而下降的討論,OpenAI公開(kāi)否認(rèn)了這些說(shuō)法,真相到底是怎樣的呢?
斯坦福大學(xué)和加州大學(xué)伯克利分校(UCLA)研究人員的一項(xiàng)新研究提供了一些證據(jù),證明這些大型語(yǔ)言模型(LLM)的行為已經(jīng)具有“實(shí)質(zhì)性的漂移”——但并不一定等于能力退化。
這一發(fā)現(xiàn)對(duì)用戶在ChatGPT等黑盒人工智能系統(tǒng)上構(gòu)建應(yīng)用的風(fēng)險(xiǎn)提出了警告,即隨著時(shí)間的推移,這些應(yīng)用可能會(huì)產(chǎn)生不一致或不可預(yù)測(cè)的結(jié)果。背后原因在于:GPT等模型的訓(xùn)練和更新方式缺乏透明度,因此無(wú)法預(yù)測(cè)或解釋其性能的變化。
用戶抱怨ChatGPT性能退化
早在今年5月,就有用戶就在OpenAI論壇上抱怨GPT-4很難做到它以前做得很好的事情。一些用戶不僅對(duì)性能下降感到不滿,而且對(duì)OpenAI缺乏響應(yīng)和解釋感到不滿。
據(jù)《商業(yè)內(nèi)幕》在7月12日?qǐng)?bào)道,與之前的推理能力和其他輸出相比,用戶認(rèn)為GPT-4變得“更懶”或“更笨”。在OpenAI沒(méi)有做出回應(yīng)的情況下,行業(yè)專家開(kāi)始猜測(cè)或探索GPT-4性能下降的原因。
一些人認(rèn)為OpenAI在API背后使用了更小的模型,以降低運(yùn)行ChatGPT的成本。其他人推測(cè),該公司正在運(yùn)行一種混合專家(MOE)方法,采用幾個(gè)小型的專業(yè)模型取代一個(gè)通用的LLM。
面對(duì)種種質(zhì)疑,OpenAI否認(rèn)了故意讓GPT-4變笨的說(shuō)法。OpenAI產(chǎn)品副總裁Peter Welinder在推特上寫(xiě)道:“恰恰相反:我們讓每一個(gè)新版本都比之前的版本更加智能。目前的假設(shè)是:當(dāng)你大量使用它時(shí),你就會(huì)開(kāi)始注意到以前沒(méi)有看到的問(wèn)題?!?nbsp;
頂級(jí)大學(xué)測(cè)試ChatGPT表現(xiàn)
為了驗(yàn)證ChatGPT的行為如何隨著時(shí)間的推移而變化,斯坦福大學(xué)和UCLA的研究人員分別在2023年3月和6月測(cè)試了兩個(gè)版本的GPT-3.5和GPT-4。
他們?cè)谒膫€(gè)常見(jiàn)的基準(zhǔn)任務(wù)上評(píng)估了這些模型:數(shù)學(xué)問(wèn)題、回答敏感問(wèn)題、代碼生成和視覺(jué)推理。這些是評(píng)估LLM經(jīng)常使用的多樣化任務(wù),而且它們相對(duì)客觀,因此易于評(píng)估。
研究人員使用了兩組指標(biāo)來(lái)評(píng)估這兩個(gè)模型的性能。主要的指標(biāo)特定于任務(wù)(例如,數(shù)學(xué)的準(zhǔn)確性以及編碼的直接執(zhí)行)。他們還跟蹤了冗長(zhǎng)度(輸出的長(zhǎng)度)和重疊度(兩個(gè)LLM版本的答案之間的相似程度)。
3-6月ChatGPT表現(xiàn)確實(shí)在下滑
對(duì)于數(shù)學(xué)問(wèn)題,研究人員使用了“思維鏈”提示,通常用于激發(fā)LLM的推理能力。他們的發(fā)現(xiàn)顯示了模型性能的顯著變化:從3月到6月,GPT-4的準(zhǔn)確率從97.6%下降到2.4%,而其響應(yīng)冗長(zhǎng)度下降了90%以上。GPT-3.5表現(xiàn)出相反的趨勢(shì),準(zhǔn)確率從7.4%上升到86.8%,冗長(zhǎng)度增加了40%。
研究人員指出,“這一有趣的現(xiàn)象表明,由于LLM的性能漂移,采用相同的提示方法,即使是那些被廣泛采用的方法(例如思維鏈),也可能導(dǎo)致顯著不同的性能。”
在回答敏感問(wèn)題時(shí),對(duì)LLM進(jìn)行評(píng)估的標(biāo)準(zhǔn)是它們回答有爭(zhēng)議問(wèn)題的頻率。從3月到6月,GPT-4的直接回答率從21%下降到5%,這表明這個(gè)模型變得更加保守。與此同時(shí),GPT-3.5的直接回答率從2%上升到8%。與3月的版本相比,這兩種模型在6月份拒絕不恰當(dāng)?shù)膯?wèn)題時(shí)提供的解釋也更少。
研究人員寫(xiě)道:“這些LLM服務(wù)可能變得更加保守,但也減少了拒絕回答某些問(wèn)題的理由?!?nbsp;
在代碼生成過(guò)程中,研究人員通過(guò)將LLM的輸出提交給運(yùn)行和評(píng)估代碼的在線裁判來(lái)測(cè)試它們是否可直接執(zhí)行。結(jié)果發(fā)現(xiàn),在3月,5 0%以上的GPT-4輸出是可直接執(zhí)行的,但在6月只有10%。對(duì)于ChatGPT 3.5,可執(zhí)行輸出從3月的22%下降到6月的2%。6月的版本經(jīng)常在代碼片段周圍添加不可執(zhí)行的序列。
研究人員警告說(shuō):“當(dāng)LLM生成的代碼在更大的軟件管道中使用時(shí),要確定這一點(diǎn)尤其具有挑戰(zhàn)性。”
對(duì)于視覺(jué)推理,研究人員對(duì)來(lái)自抽象推理語(yǔ)料庫(kù)(ARC)數(shù)據(jù)集的示例子集的模型進(jìn)行了評(píng)估。ARC是一個(gè)視覺(jué)謎題的集合,用于測(cè)試模型推斷抽象規(guī)則的能力。他們注意到GPT-4和GPT-3.5的性能都有輕微的改善。但總體性能仍然較低,GPT-4為27.4%,GPT-3.5為12.2%。然而,6月版本的GPT-4在3月正確回答的一些問(wèn)題上出現(xiàn)了錯(cuò)誤。
研究人員寫(xiě)道:“這凸顯了細(xì)粒度漂移監(jiān)測(cè)的必要性,特別是在關(guān)鍵應(yīng)用中?!?/p>
ChatGPT性能退化可能存在誤解
在這篇論文發(fā)表之后,普林斯頓大學(xué)的計(jì)算機(jī)科學(xué)家、教授Arvind Narayanan和計(jì)算機(jī)科學(xué)家Sayash Kapoor認(rèn)為,一些媒體誤解了這一論文的結(jié)果,他們認(rèn)為GPT-4已經(jīng)變得更糟。
兩人在一篇文章中指出,“不幸的是,這是媒體對(duì)于論文結(jié)果的過(guò)度簡(jiǎn)化。雖然研究結(jié)果很有趣,但其中一些方法值得懷疑?!?/p>
例如,評(píng)估中使用的所有500個(gè)數(shù)學(xué)問(wèn)題都是“數(shù)字X是質(zhì)數(shù)嗎?”而數(shù)據(jù)集中的所有的數(shù)字都是質(zhì)數(shù)。3月版本的GPT-4幾乎總是猜測(cè)這個(gè)數(shù)是質(zhì)數(shù),而6月的版本幾乎總是猜測(cè)它是合數(shù)。
Narayanan和Kapoor在文中寫(xiě)道:“論文的作者將這種情況解釋為性能的大幅下降,因?yàn)樗麄冎粶y(cè)試了質(zhì)數(shù)。當(dāng)GPT-4在500個(gè)合數(shù)進(jìn)行測(cè)試時(shí),這種性能的下降就消失了?!?nbsp;
總而言之,Narayanan和Kapoor認(rèn)為,ChatGPT的行為會(huì)改變,但這并不一定意味著它的能力下降了。
ChatGPT類AI應(yīng)用還能信任嗎?
雖然這篇論文的發(fā)現(xiàn)并不一定表明這些模型變得更糟,但確實(shí)證實(shí)了它們的行為已經(jīng)改變。
研究人員據(jù)此得出結(jié)論,GPT-3.5和GPT-4行為的變化凸顯了持續(xù)評(píng)估和評(píng)估LLM在生產(chǎn)應(yīng)用中的行為的必要性。當(dāng)我們構(gòu)建使用LLM作為組件的軟件系統(tǒng)時(shí),需要開(kāi)發(fā)新的開(kāi)發(fā)實(shí)踐和工作流程來(lái)確??煽啃院拓?zé)任。
通過(guò)公共API使用LLM需要新的軟件開(kāi)發(fā)實(shí)踐和工作流程。對(duì)于使用LLM服務(wù)作為其持續(xù)工作流程組成部分的用戶和公司,研究人員建議他們應(yīng)該實(shí)施持續(xù)的監(jiān)控分析。
這一研究結(jié)果還強(qiáng)調(diào),在訓(xùn)練和調(diào)整LLM的數(shù)據(jù)和方法方面需要提高透明度。如果沒(méi)有這樣的透明性,在它們之上構(gòu)建穩(wěn)定的應(yīng)用就會(huì)變得非常困難。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 美媒:一些中國(guó)大模型已經(jīng)追平甚至超越美國(guó)產(chǎn)品
- 透過(guò)這場(chǎng)開(kāi)發(fā)者圈的“年度盛典”,窺見(jiàn)華為開(kāi)發(fā)者生態(tài)構(gòu)建之道
- 谷歌Willow量子芯片有進(jìn)步 但離實(shí)用還很遙遠(yuǎn)
- LLM很難變成AGI?科學(xué)家:創(chuàng)造AGI理論上可行
- PON在園區(qū)網(wǎng)絡(luò)的“先天不足”,無(wú)源以太全光來(lái)拯救!
- 英特爾CEO黯然退場(chǎng)背后:芯片制造陷泥潭,AI起大早趕晚集
- 開(kāi)源5年樹(shù)立新里程 openEuler以智能 致世界
- 華為推出Mate 70手機(jī)引發(fā)高度關(guān)注 看外媒是如何評(píng)價(jià)的?
- 5G-A終端規(guī)模鋪開(kāi)響應(yīng)“以舊換新”,湖北移動(dòng)“機(jī)網(wǎng)套”協(xié)同刺激內(nèi)需
- 六載華為開(kāi)發(fā)者大賽,“賽”出云上開(kāi)發(fā)新生態(tài)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。