語言模型能作為基于文本的世界模擬器嗎

摘要
虛擬環(huán)境在復(fù)雜規(guī)劃和決策任務(wù)中至關(guān)重要,但手動(dòng)構(gòu)建代價(jià)高昂且復(fù)雜。本文探討當(dāng)前語言模型能否作為世界模擬器,準(zhǔn)確預(yù)測行動(dòng)對(duì)不同世界狀態(tài)的改變,從而省去大量手動(dòng)編碼。我們提出了一個(gè)名為ByteSized32-State-Prediction的新基準(zhǔn),包含文本游戲狀態(tài)轉(zhuǎn)換數(shù)據(jù)集及相關(guān)任務(wù),用以量化語言模型作為文本世界模擬器的能力。測試結(jié)果顯示,盡管GPT-4表現(xiàn)優(yōu)異,但在沒有進(jìn)一步創(chuàng)新的情況下,仍難以成為可靠的世界模擬器。本文不僅提供了對(duì)當(dāng)前語言模型能力和弱點(diǎn)的新見解,還提出了一個(gè)追蹤未來進(jìn)展的新基準(zhǔn)。

結(jié)果

預(yù)測由動(dòng)作驅(qū)動(dòng)的狀態(tài)轉(zhuǎn)換比環(huán)境驅(qū)動(dòng)的狀態(tài)轉(zhuǎn)換更容易:

GPT-4能正確模擬77.1%的動(dòng)態(tài)動(dòng)作驅(qū)動(dòng)的轉(zhuǎn)換,而對(duì)動(dòng)態(tài)環(huán)境驅(qū)動(dòng)的轉(zhuǎn)換則最多能正確模擬49.7%。這表明模擬底層環(huán)境動(dòng)態(tài)可能是LLM-Sim任務(wù)中最具挑戰(zhàn)的部分。

預(yù)測靜態(tài)轉(zhuǎn)換比動(dòng)態(tài)轉(zhuǎn)換更容易:

在大多數(shù)情況下,模擬靜態(tài)轉(zhuǎn)換比動(dòng)態(tài)轉(zhuǎn)換容易得多。雖然LLM需要確定給定初始狀態(tài)和動(dòng)作是否會(huì)導(dǎo)致狀態(tài)變化,但動(dòng)態(tài)轉(zhuǎn)換還需利用上下文信息模擬與底層游戲引擎完全相同的動(dòng)態(tài)。

預(yù)測完整游戲狀態(tài)對(duì)動(dòng)態(tài)狀態(tài)更容易,而預(yù)測狀態(tài)差異對(duì)靜態(tài)狀態(tài)更容易:

對(duì)動(dòng)態(tài)狀態(tài)的狀態(tài)差異預(yù)測顯著提高了模擬靜態(tài)轉(zhuǎn)換的性能(>10%),但在模擬動(dòng)態(tài)轉(zhuǎn)換時(shí)則會(huì)降低性能。這可能是因?yàn)闋顟B(tài)差異預(yù)測旨在減少潛在的格式錯(cuò)誤。然而,GPT-4在大多數(shù)情況下能夠正確輸出響應(yīng)格式,而引入狀態(tài)差異增加了任務(wù)輸出格式的復(fù)雜性。

游戲規(guī)則重要,LLMs能夠生成足夠好的游戲規(guī)則:

在上下文信息中沒有提供游戲規(guī)則時(shí),GPT-4在所有三種模擬任務(wù)中的表現(xiàn)都會(huì)下降。然而,我們未發(fā)現(xiàn)人類專家生成的游戲規(guī)則與LLMs生成的游戲規(guī)則之間有明顯的性能差異。

GPT-4能夠在大多數(shù)情況下預(yù)測游戲進(jìn)展:

在上下文信息中有游戲規(guī)則時(shí),GPT-4能在92.1%的測試用例中正確預(yù)測游戲進(jìn)展。這表明規(guī)則的存在至關(guān)重要:沒有它們,GPT-4的預(yù)測準(zhǔn)確率降至61.5%。

人類在LLM-Sim任務(wù)上的表現(xiàn)優(yōu)于GPT-4:

我們對(duì)LLM-Sim任務(wù)進(jìn)行了初步的人類研究。在GPT-4表現(xiàn)最差的5個(gè)ByteSized32-SP數(shù)據(jù)集游戲中,每個(gè)游戲隨機(jī)抽取20個(gè)游戲以平衡動(dòng)態(tài)和靜態(tài)轉(zhuǎn)換的比例。4位作者作為人類注釋者使用人類生成的規(guī)則進(jìn)行完整游戲狀態(tài)預(yù)測,結(jié)果顯示人類準(zhǔn)確率為80%,而GPT-4的準(zhǔn)確率為50%。這表明盡管該任務(wù)對(duì)人類來說相對(duì)簡單,但LLMs仍有很大改進(jìn)空間。

需要算術(shù)、常識(shí)或科學(xué)知識(shí)時(shí),GPT-4更容易出錯(cuò):

大多數(shù)錯(cuò)誤發(fā)生在模擬動(dòng)態(tài)轉(zhuǎn)換時(shí),我們進(jìn)一步分析了GPT-4在這一設(shè)置下的錯(cuò)誤模式。結(jié)果顯示,GPT-4能處理大多數(shù)簡單的布爾值屬性,但在需要算術(shù)(如溫度)、常識(shí)(如光圈)或科學(xué)知識(shí)(如焦點(diǎn))時(shí)錯(cuò)誤較多。當(dāng)同時(shí)預(yù)測動(dòng)作驅(qū)動(dòng)和環(huán)境驅(qū)動(dòng)的轉(zhuǎn)換時(shí),GPT-4更傾向于動(dòng)作驅(qū)動(dòng)的轉(zhuǎn)換,導(dǎo)致在僅模擬環(huán)境驅(qū)動(dòng)的轉(zhuǎn)換時(shí),未更改的值錯(cuò)誤更多。

結(jié)論
我們提出了ByteSized32-State-Prediction基準(zhǔn),用于測試LLMs作為模擬器的能力。我們?cè)谶@一任務(wù)上評(píng)估了GPT-4,結(jié)果表明,在涉及非平凡變化的狀態(tài)轉(zhuǎn)換中,最佳表現(xiàn)為59.9%。模擬錯(cuò)誤會(huì)在多個(gè)步驟中累積,因此單步準(zhǔn)確率有限的模擬器在實(shí)際應(yīng)用中的效用有限。我們的結(jié)果表明,LLMs尚不能可靠地充當(dāng)文本世界模擬器。進(jìn)一步的錯(cuò)誤分析顯示,雖然LLMs在模擬用戶操作結(jié)果方面更好,但處理環(huán)境驅(qū)動(dòng)的轉(zhuǎn)換以及需要算術(shù)、常識(shí)或科學(xué)知識(shí)的轉(zhuǎn)換仍然困難。

限制與倫理問題

限制
我們只考慮了GPT-3.5和GPT-4兩種強(qiáng)大的上下文學(xué)習(xí)語言模型,盡管它們?cè)诙喾N基準(zhǔn)測試中表現(xiàn)優(yōu)異,但我們未全面評(píng)估所有大型語言模型,其他模型可能表現(xiàn)更好。我們提出這一基準(zhǔn)用于評(píng)估現(xiàn)有和未來模型在準(zhǔn)確模擬狀態(tài)空間轉(zhuǎn)換任務(wù)上的表現(xiàn)。

我們提出了兩種狀態(tài)空間表示形式,一種包括完整狀態(tài)空間,另一種關(guān)注狀態(tài)差異,均使用JSON對(duì)象表示。這些表示形式基于其流行性和與大多數(shù)LLM預(yù)訓(xùn)練數(shù)據(jù)輸入輸出格式的兼容性,盡管其他表示格式在模擬任務(wù)上可能表現(xiàn)更好。

最終,我們的狀態(tài)空間集中在常識(shí)和早期(小學(xué))科學(xué)推理領(lǐng)域,如打開容器或激活設(shè)備。雖然本文涉及了一些較不常見的動(dòng)作和屬性,但未討論LLMs在高度專業(yè)領(lǐng)域(如物理或醫(yī)學(xué)模擬)中的應(yīng)用。我們希望這一工作能推動(dòng)語言模型在高影響力領(lǐng)域中的應(yīng)用,并視其為開發(fā)更強(qiáng)大語言模型模擬器的基石。

倫理問題
我們不預(yù)見我們的工作會(huì)立即產(chǎn)生倫理或社會(huì)影響。然而,作為LLM應(yīng)用,所提出的LLM-Sim任務(wù)可能會(huì)受到所選LLM引入的錯(cuò)誤信息和幻覺的影響。我們的工作強(qiáng)調(diào)了使用LLMs作為基于文本的世界模擬器的問題。在下游任務(wù)(如游戲模擬)中,LLMs可能生成誤導(dǎo)或不真實(shí)的信息。例如,如果模擬器建議用燒房子的方式來燒水,我們的工作并未阻止此類情況,也未評(píng)估此類潛在危險(xiǎn)建議的倫理影響。因此,我們認(rèn)為這些應(yīng)用不適合也不安全在與人類,特別是兒童,直接互動(dòng)的環(huán)境中使用。我們呼吁研究人員和從業(yè)者在使用我們提出的任務(wù)和數(shù)據(jù)集時(shí)保持謹(jǐn)慎。

本文譯自 arxiv.org,由 BALI 編輯發(fā)布。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2024-06-17
語言模型能作為基于文本的世界模擬器嗎
摘要虛擬環(huán)境在復(fù)雜規(guī)劃和決策任務(wù)中至關(guān)重要,但手動(dòng)構(gòu)建代價(jià)高昂且復(fù)雜。本文探討當(dāng)前語言模型能否作為世界模擬器,準(zhǔn)確預(yù)測行動(dòng)對(duì)不同世界狀態(tài)的改變,從而省去大量手動(dòng)編碼。

長按掃碼 閱讀全文