用語(yǔ)義熵在大模型中檢測(cè)幻覺(jué)

大語(yǔ)言模型(LLM)如ChatGPT和Gemini,盡管在推理和問(wèn)答方面表現(xiàn)出色,但經(jīng)常會(huì)產(chǎn)生虛假和無(wú)根據(jù)的輸出。這不僅影響其在法律、新聞和醫(yī)療等領(lǐng)域的應(yīng)用,還可能危及生命。通過(guò)統(tǒng)計(jì)學(xué)方法,我們提出了一種基于熵的不確定性估計(jì)器,以檢測(cè)這些幻覺(jué)中的一部分——虛構(gòu)內(nèi)容。該方法無(wú)需特定任務(wù)數(shù)據(jù),能夠適用于新任務(wù),幫助用戶在使用LLM時(shí)更加謹(jǐn)慎。

幻覺(jué)是使用大語(yǔ)言模型(LLM)進(jìn)行自然語(yǔ)言生成系統(tǒng)中的一個(gè)關(guān)鍵問(wèn)題,因?yàn)橛脩魺o(wú)法信任任何給定的輸出是否正確?;糜X(jué)通常被定義為L(zhǎng)LM生成的“無(wú)意義或不忠實(shí)于提供的源內(nèi)容”的內(nèi)容,但事實(shí)上,它涵蓋了忠實(shí)性和真實(shí)性方面的廣泛失敗。我們專注于幻覺(jué)中的一個(gè)子集,稱之為“虛構(gòu)”,即LLM流利地提出既錯(cuò)誤又任意的主張。例如,當(dāng)被問(wèn)到“索托拉西布的靶點(diǎn)是什么?”時(shí),LLM有時(shí)回答KRASG12 'C'(正確),有時(shí)回答KRASG12 'D'(錯(cuò)誤),盡管指令相同。

我們的方法通過(guò)開(kāi)發(fā)一種定量測(cè)量輸入是否可能導(dǎo)致LLM生成任意和無(wú)根據(jù)回答的方法來(lái)檢測(cè)虛構(gòu)。檢測(cè)虛構(gòu)允許基于LLM的系統(tǒng)避免回答可能導(dǎo)致虛構(gòu)的問(wèn)題,提醒用戶注意某個(gè)問(wèn)題的回答不可靠,或用更扎實(shí)的搜索或檢索來(lái)補(bǔ)充LLM。這對(duì)于自由生成領(lǐng)域尤其重要,因?yàn)楹?jiǎn)單的方法在封閉詞匯和多選題中適用,但在自由生成中失敗。過(guò)去對(duì)LLM不確定性的研究主要集中在更簡(jiǎn)單的設(shè)置上,如分類器和回歸器,而LLM最令人興奮的應(yīng)用在于自由生成。

為了檢測(cè)虛構(gòu),我們使用概率工具來(lái)定義并測(cè)量LLM生成的“語(yǔ)義”熵——一種基于句子意義計(jì)算的熵。高熵對(duì)應(yīng)高不確定性,因此語(yǔ)義熵是一種估計(jì)語(yǔ)義不確定性的方法。語(yǔ)義不確定性是我們引入的一個(gè)更廣泛的度量類別,可以用其他不確定性度量(如互信息)來(lái)實(shí)現(xiàn)。自由生成中的熵通常難以測(cè)量,因?yàn)榧词勾鸢敢馑枷嗤?語(yǔ)義等價(jià)),表達(dá)方式也可能不同(句法或詞匯不同)。這導(dǎo)致對(duì)熵或其他詞匯變異分?jǐn)?shù)的簡(jiǎn)單估計(jì)在答案可以用多種方式書寫而不改變其意義時(shí)誤導(dǎo)性地高。

相比之下,我們的語(yǔ)義熵傾向于估計(jì)自由生成答案的意義分布的熵,而不是LLM本質(zhì)上表示的“tokens”(詞或詞片)的分布。這可以看作是一種針對(duì)隨機(jī)種子變化的語(yǔ)義一致性檢查。我們的方法通過(guò)對(duì)每個(gè)問(wèn)題采樣多個(gè)可能的答案,并將它們算法性地聚類到具有相似意義的答案中來(lái)工作。我們通過(guò)雙向蘊(yùn)含來(lái)確定答案是否在同一個(gè)語(yǔ)義簇中。即,如果句子A意味著句子B為真,反之亦然,我們認(rèn)為它們?cè)谕粋€(gè)語(yǔ)義簇中。我們使用通用LLM和專門開(kāi)發(fā)的自然語(yǔ)言推理(NLI)工具來(lái)測(cè)量蘊(yùn)含。

語(yǔ)義熵在不同語(yǔ)言模型和領(lǐng)域的自由文本生成中檢測(cè)到虛構(gòu),無(wú)需先前的領(lǐng)域知識(shí)。我們的評(píng)估涵蓋了知識(shí)問(wèn)答、生命科學(xué)、開(kāi)放域自然問(wèn)題、數(shù)學(xué)詞題和傳記生成數(shù)據(jù)集。我們的虛構(gòu)檢測(cè)方法比那些從示例演示中“學(xué)習(xí)”如何檢測(cè)虛構(gòu)的方法更穩(wěn)健,因?yàn)槲覀兊姆椒ㄊ菬o(wú)監(jiān)督的,不需要虛構(gòu)的標(biāo)記示例。

虛構(gòu)對(duì)LLM給出的錯(cuò)誤答案貢獻(xiàn)很大。我們展示了語(yǔ)義熵可以預(yù)測(cè)許多錯(cuò)誤的模型答案,并通過(guò)拒絕回答模型不確定的問(wèn)題來(lái)提高問(wèn)答準(zhǔn)確性。我們?cè)u(píng)估了兩種主要指標(biāo):接收者操作特性曲線下的面積(AUROC)和拒絕準(zhǔn)確率曲線下的面積(AURAC)。

我們的概率方法通過(guò)考慮語(yǔ)義等價(jià)性,檢測(cè)了由LLM知識(shí)不足引起的重要幻覺(jué)類別。這些幻覺(jué)在當(dāng)前失敗中占相當(dāng)大比例,并將在模型能力增長(zhǎng)時(shí)繼續(xù)存在,因?yàn)槿祟悷o(wú)法可靠監(jiān)督的情況和案例仍將持續(xù)。虛構(gòu)是問(wèn)答中的一個(gè)重要挑戰(zhàn),因?yàn)樗粌H影響回答的準(zhǔn)確性,還可能對(duì)用戶產(chǎn)生誤導(dǎo)。隨著大語(yǔ)言模型(LLM)的能力不斷增強(qiáng),如何有效地檢測(cè)和避免虛構(gòu)變得愈發(fā)重要。我們的研究表明,通過(guò)語(yǔ)義熵方法,可以有效地預(yù)測(cè)和檢測(cè)出許多虛構(gòu)的回答。

這項(xiàng)研究的一個(gè)關(guān)鍵貢獻(xiàn)是引入了語(yǔ)義熵作為評(píng)估LLM輸出不確定性的新方法。與傳統(tǒng)的基于詞匯變異的方法不同,語(yǔ)義熵考慮了答案的語(yǔ)義等價(jià)性,從而能夠更準(zhǔn)確地反映自由生成答案的真正不確定性。這不僅提高了虛構(gòu)檢測(cè)的準(zhǔn)確性,還能夠幫助開(kāi)發(fā)者和用戶更好地理解和利用LLM的輸出。

本文譯自 Nature,由 BALI 編輯發(fā)布。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )

贊助商
2024-06-25
用語(yǔ)義熵在大模型中檢測(cè)幻覺(jué)
大語(yǔ)言模型(LLM)如ChatGPT和Gemini,盡管在推理和問(wèn)答方面表現(xiàn)出色,但經(jīng)常會(huì)產(chǎn)生虛假和無(wú)根據(jù)的輸出。這不僅影響其在法律、新聞和醫(yī)療等領(lǐng)域的應(yīng)用,還可能危及生命。

長(zhǎng)按掃碼 閱讀全文