婷婷开心色四房播播久久,99久久精品午夜一区二区,免费一级在线观看

用語義熵在大模型中檢測幻覺

人閱讀

2024-06-25 07:01:00

來源：煎蛋
作者：BALI
相關(guān)關(guān)鍵詞
- 人工智能
- AI

大語言模型(LLM)如ChatGPT和Gemini，盡管在推理和問答方面表現(xiàn)出色，但經(jīng)常會產(chǎn)生虛假和無根據(jù)的輸出。這不僅影響其在法律、新聞和醫(yī)療等領(lǐng)域的應用，還可能危及生命。通過統(tǒng)計學方法，我們提出了一種基于熵的不確定性估計器，以檢測這些幻覺中的一部分——虛構(gòu)內(nèi)容。該方法無需特定任務數(shù)據(jù)，能夠適用于新任務，幫助用戶在使用LLM時更加謹慎。

幻覺是使用大語言模型(LLM)進行自然語言生成系統(tǒng)中的一個關(guān)鍵問題，因為用戶無法信任任何給定的輸出是否正確?；糜X通常被定義為LLM生成的“無意義或不忠實于提供的源內(nèi)容”的內(nèi)容，但事實上，它涵蓋了忠實性和真實性方面的廣泛失敗。我們專注于幻覺中的一個子集，稱之為“虛構(gòu)”，即LLM流利地提出既錯誤又任意的主張。例如，當被問到“索托拉西布的靶點是什么？”時，LLM有時回答KRASG12 'C'(正確)，有時回答KRASG12 'D'(錯誤)，盡管指令相同。

我們的方法通過開發(fā)一種定量測量輸入是否可能導致LLM生成任意和無根據(jù)回答的方法來檢測虛構(gòu)。檢測虛構(gòu)允許基于LLM的系統(tǒng)避免回答可能導致虛構(gòu)的問題，提醒用戶注意某個問題的回答不可靠，或用更扎實的搜索或檢索來補充LLM。這對于自由生成領(lǐng)域尤其重要，因為簡單的方法在封閉詞匯和多選題中適用，但在自由生成中失敗。過去對LLM不確定性的研究主要集中在更簡單的設置上，如分類器和回歸器，而LLM最令人興奮的應用在于自由生成。

為了檢測虛構(gòu)，我們使用概率工具來定義并測量LLM生成的“語義”熵——一種基于句子意義計算的熵。高熵對應高不確定性，因此語義熵是一種估計語義不確定性的方法。語義不確定性是我們引入的一個更廣泛的度量類別，可以用其他不確定性度量(如互信息)來實現(xiàn)。自由生成中的熵通常難以測量，因為即使答案意思相同(語義等價)，表達方式也可能不同(句法或詞匯不同)。這導致對熵或其他詞匯變異分數(shù)的簡單估計在答案可以用多種方式書寫而不改變其意義時誤導性地高。

相比之下，我們的語義熵傾向于估計自由生成答案的意義分布的熵，而不是LLM本質(zhì)上表示的“tokens”(詞或詞片)的分布。這可以看作是一種針對隨機種子變化的語義一致性檢查。我們的方法通過對每個問題采樣多個可能的答案，并將它們算法性地聚類到具有相似意義的答案中來工作。我們通過雙向蘊含來確定答案是否在同一個語義簇中。即，如果句子A意味著句子B為真，反之亦然，我們認為它們在同一個語義簇中。我們使用通用LLM和專門開發(fā)的自然語言推理(NLI)工具來測量蘊含。

語義熵在不同語言模型和領(lǐng)域的自由文本生成中檢測到虛構(gòu)，無需先前的領(lǐng)域知識。我們的評估涵蓋了知識問答、生命科學、開放域自然問題、數(shù)學詞題和傳記生成數(shù)據(jù)集。我們的虛構(gòu)檢測方法比那些從示例演示中“學習”如何檢測虛構(gòu)的方法更穩(wěn)健，因為我們的方法是無監(jiān)督的，不需要虛構(gòu)的標記示例。

虛構(gòu)對LLM給出的錯誤答案貢獻很大。我們展示了語義熵可以預測許多錯誤的模型答案，并通過拒絕回答模型不確定的問題來提高問答準確性。我們評估了兩種主要指標：接收者操作特性曲線下的面積(AUROC)和拒絕準確率曲線下的面積(AURAC)。

我們的概率方法通過考慮語義等價性，檢測了由LLM知識不足引起的重要幻覺類別。這些幻覺在當前失敗中占相當大比例，并將在模型能力增長時繼續(xù)存在，因為人類無法可靠監(jiān)督的情況和案例仍將持續(xù)。虛構(gòu)是問答中的一個重要挑戰(zhàn)，因為它不僅影響回答的準確性，還可能對用戶產(chǎn)生誤導。隨著大語言模型(LLM)的能力不斷增強，如何有效地檢測和避免虛構(gòu)變得愈發(fā)重要。我們的研究表明，通過語義熵方法，可以有效地預測和檢測出許多虛構(gòu)的回答。

這項研究的一個關(guān)鍵貢獻是引入了語義熵作為評估LLM輸出不確定性的新方法。與傳統(tǒng)的基于詞匯變異的方法不同，語義熵考慮了答案的語義等價性，從而能夠更準確地反映自由生成答案的真正不確定性。這不僅提高了虛構(gòu)檢測的準確性，還能夠幫助開發(fā)者和用戶更好地理解和利用LLM的輸出。

本文譯自 Nature，由 BALI 編輯發(fā)布。

（免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）