AI生成的垃圾內(nèi)容充斥網(wǎng)絡,影響模型質(zhì)量,導致性能下降。
隨著由AI撰寫的垃圾網(wǎng)頁泛濫,依賴這些數(shù)據(jù)的模型將受到影響。
AI模型通過從互聯(lián)網(wǎng)上訓練大量數(shù)據(jù)來工作。但隨著AI越來越多地用于生成充滿垃圾內(nèi)容的網(wǎng)頁,這一過程正面臨被破壞的危險。
發(fā)表在《Nature》上的新研究表明,當AI在AI生成的數(shù)據(jù)上訓練時,模型輸出的質(zhì)量會逐漸下降。當后續(xù)模型產(chǎn)生的輸出被用作未來模型的訓練數(shù)據(jù)時,這種影響會加劇。
牛津大學的計算機科學家Ilia Shumailov領導了這項研究,他將這個過程比作拍照片的照片。“如果你拍一張照片,然后掃描它,再打印出來,再重復這個過程,基本上噪音會淹沒整個過程,”他說?!澳阕罱K只會得到一個黑方塊?!睂τ贏I來說,這個等同于黑方塊的現(xiàn)象被稱為“模型崩潰”,這意味著模型只會生成無意義的垃圾。
這項研究可能對當今最大的AI模型產(chǎn)生嚴重影響,因為它們使用互聯(lián)網(wǎng)作為數(shù)據(jù)庫。例如,GPT-3部分數(shù)據(jù)來自Common Crawl,這是一個包含超過30億個網(wǎng)頁的在線存儲庫。隨著越來越多的AI生成垃圾網(wǎng)站開始充斥互聯(lián)網(wǎng),這個問題可能會變得更糟。
Shumailov說,當前的AI模型不會立即崩潰,但可能會有實質(zhì)性的影響:改進速度會減慢,性能可能會受到影響。
為了確定對性能的潛在影響,Shumailov和他的同事們在一組來自維基百科的數(shù)據(jù)上微調(diào)了一個大型語言模型(LLM),然后在其自身輸出上進行了九代微調(diào)。團隊通過“困惑度得分”測量了輸出的荒謬程度,困惑度得分衡量AI模型在預測序列下一個部分的能力方面的信心;得分越高,模型越不準確。
在其他模型輸出上訓練的模型有更高的困惑度得分。例如,對于每一代,團隊要求模型在以下輸入后生成下一句:
“1360年之前的一些建筑通常由一個主石匠和一小隊流動石匠完成,由當?shù)亟虆^(qū)工人補充,Poyntz Wright說道。但其他作者否認這種模式,認為著名建筑師根據(jù)早期的垂直風格例子設計了教區(qū)教堂塔樓?!?br />在第九代時,模型返回如下輸出:
“建筑學。除了是世界上一些最大的黑尾野兔、白尾野兔、藍尾野兔、紅尾野兔、黃尾野兔的棲息地之外?!?/p>
Shumailov用這個類比來解釋他認為發(fā)生的情況:想象你試圖找到學校里最不可能的學生名字。你可以遍歷每個學生的名字,但這會花費太長時間。相反,你可以查看1000個名字中的100個。你會得到一個相當不錯的估計,但可能不是正確答案?,F(xiàn)在,假設另一個人基于你的100個名字做出估計,但只選擇了50個。這第二個人的估計會更不準確。
“你可以想象同樣的事情發(fā)生在機器學習模型上,”他說?!八匀绻谝粋€模型看到了互聯(lián)網(wǎng)的一半,那么第二個模型可能不會要求看到互聯(lián)網(wǎng)的一半,而是實際上抓取最新的10萬個推文,并在其上訓練模型?!?br />此外,互聯(lián)網(wǎng)并不是無限量的數(shù)據(jù)。為了滿足他們對更多數(shù)據(jù)的需求,未來的AI模型可能需要在合成數(shù)據(jù)上進行訓練——即由AI生成的數(shù)據(jù)。
麻省理工學院媒體實驗室的Shayne Longpre研究LLM的訓練方法,他沒有參與這項研究。他說:“基礎模型確實依賴于數(shù)據(jù)的規(guī)模來表現(xiàn)良好?!?“他們正在尋找在受控環(huán)境中使用合成數(shù)據(jù)作為解決方案。因為如果他們繼續(xù)抓取互聯(lián)網(wǎng)上更多的數(shù)據(jù),回報將會遞減?!?/p>
斯坦福大學的AI研究員Matthias Gerstgrasser撰寫了一篇探討模型崩潰的不同論文,他表示,將合成數(shù)據(jù)添加到真實世界數(shù)據(jù)中而不是替代它不會造成任何重大問題。但他補充說:“所有模型崩潰文獻都達成的一個結論是,高質(zhì)量和多樣化的訓練數(shù)據(jù)很重要?!?/p>
這種隨時間推移的退化的另一個影響是,影響少數(shù)群體的信息在模型中被嚴重扭曲,因為它往往過度關注訓練數(shù)據(jù)中更普遍的樣本。
麻省理工學院媒體實驗室研究計算法的Robert Mahari(他沒有參與這項研究)說,在當前模型中,這可能會影響到需要更多合成(AI生成)數(shù)據(jù)集的非主流語言。
一個可能有助于避免退化的想法是確保模型更重視原始的人工生成數(shù)據(jù)。Shumailov的研究還允許后代模型從原始數(shù)據(jù)集中抽樣10%,這減輕了一些負面影響。
這將需要從原始人工生成數(shù)據(jù)到后代模型的數(shù)據(jù)溯源。
但溯源需要某種方式來過濾互聯(lián)網(wǎng)中的人工生成和AI生成內(nèi)容,這一點尚未解決。盡管現(xiàn)在有許多工具旨在確定文本是否由AI生成,但它們通常不準確。
“遺憾的是,我們有更多的問題而不是答案,”Shumailov說?!暗苊黠@,知道你的數(shù)據(jù)來源以及你能多大程度上信任它來捕捉你正在處理的數(shù)據(jù)的代表性樣本,這一點很重要?!?/p>
本文譯自 MIT Technology Review,由 BALI 編輯發(fā)布。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )