谷歌發(fā)布 AI 基準(zhǔn):揭秘大語言模型“真相”,Gemini、GPT-4o、Claude 接受挑戰(zhàn)

揭秘大語言模型“真相”:谷歌發(fā)布AI基準(zhǔn)測試

隨著人工智能技術(shù)的快速發(fā)展,大型語言模型(LLMs)在自然語言處理領(lǐng)域的應(yīng)用越來越廣泛。然而,這些模型在處理真實世界數(shù)據(jù)時,也面臨著一些挑戰(zhàn),如事實準(zhǔn)確性、避免“幻覺”等問題。為了解決這些問題,谷歌DeepMind團(tuán)隊于近日發(fā)布了一項新的AI基準(zhǔn)測試——FACTS Grounding基準(zhǔn)測試。該測試旨在評估LLMs根據(jù)給定材料準(zhǔn)確作答的能力,并提升LLMs的事實準(zhǔn)確性,增強(qiáng)用戶信任度,并拓展其應(yīng)用范圍。

一、數(shù)據(jù)集介紹

在數(shù)據(jù)集方面,F(xiàn)ACTS Grounding基準(zhǔn)測試采用了ACTSGrounding數(shù)據(jù)集。該數(shù)據(jù)集包含1719個示例,涵蓋金融、科技、零售、醫(yī)療和法律等多個領(lǐng)域。每個示例包含一篇文檔、一條要求LLM基于文檔的系統(tǒng)指令和隨附的提示詞。示例文檔長度不一,最長可達(dá)32000個token(約20000字)。這些示例旨在涵蓋各種真實世界任務(wù),如摘要生成、問答生成和改寫等。

數(shù)據(jù)集分為860個“公共”示例和859個“私有”示例。目前已發(fā)布公共數(shù)據(jù)集供評估使用,私有數(shù)據(jù)集則用于排行榜評分,以防止基準(zhǔn)污染和排行榜作弊。

二、評估方案

在評估方案上,F(xiàn)ACTSGrounding基準(zhǔn)測試采用了Gemini 1.5 Pro、GPT-4o和Claude 3.5 Sonnet 3款模型作為評委,評估答案的充分性、事實準(zhǔn)確性和文檔支持性。評估分為兩個階段:首先評估響應(yīng)是否符合資格,即是否充分回答了用戶請求;然后評估響應(yīng)的事實準(zhǔn)確性,即是否完全基于所提供的文檔,有沒有出現(xiàn)“幻覺”。最終根據(jù)該模型在所有示例上的平均得分進(jìn)行排名。

值得一提的是,在FACTSGrounding基準(zhǔn)測試中,谷歌的Gemini模型在事實準(zhǔn)確的文本生成方面取得了最高分。這一成績不僅體現(xiàn)了Gemini模型在處理真實世界數(shù)據(jù)方面的優(yōu)勢,也反映了FACTSGrounding基準(zhǔn)測試對于評估LLM事實準(zhǔn)確性方面的有效性。

三、主題延伸

FACTSGrounding基準(zhǔn)測試的推出,不僅為LLM的開發(fā)者和研究者提供了一個新的評估工具,也為公眾揭示了LLM在處理真實世界數(shù)據(jù)時的局限性和挑戰(zhàn)。隨著LLM技術(shù)的不斷發(fā)展,我們有必要對它們進(jìn)行更嚴(yán)格的評估和監(jiān)督。

一方面,我們需要關(guān)注LLM在處理真實世界數(shù)據(jù)時的準(zhǔn)確性問題。由于LLM的訓(xùn)練數(shù)據(jù)主要來源于互聯(lián)網(wǎng),其中包含大量的虛假信息和主觀觀點。因此,LLM在生成回答時可能會出現(xiàn)“幻覺”和錯誤信息,影響其事實準(zhǔn)確性。FACTSGrounding基準(zhǔn)測試正是針對這一問題而推出的評估工具。

另一方面,我們需要警惕LLM可能對現(xiàn)實世界造成的負(fù)面影響。由于LLM的技術(shù)尚未完全成熟,其生成的回答和決策可能會對社會產(chǎn)生誤導(dǎo)和危害。因此,我們需要加強(qiáng)監(jiān)管,確保LLM的應(yīng)用符合道德和法律標(biāo)準(zhǔn)。

總之,谷歌DeepMind團(tuán)隊推出的FACTSGrounding基準(zhǔn)測試為評估LLM提供了新的視角和方法。通過這一測試,我們可以更好地了解LLM在處理真實世界數(shù)據(jù)時的表現(xiàn)和能力,從而為未來的技術(shù)發(fā)展提供指導(dǎo)。同時,我們也需要關(guān)注和應(yīng)對LLM可能帶來的挑戰(zhàn)和風(fēng)險。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2024-12-18
谷歌發(fā)布 AI 基準(zhǔn):揭秘大語言模型“真相”,Gemini、GPT-4o、Claude 接受挑戰(zhàn)
谷歌發(fā)布AI基準(zhǔn)測試,評估大型語言模型在真實世界數(shù)據(jù)中的準(zhǔn)確性,以提升用戶信任度和應(yīng)用范圍。該測試采用ACTSGrounding數(shù)據(jù)集,涵蓋多個領(lǐng)域,并采用Gemini模型進(jìn)行評估。

長按掃碼 閱讀全文