91精品国产91久久久久福利,亚洲精品白浆高清久久久久久

如果將美國(guó)憲法輸入某些AI寫作檢測(cè)工具，它會(huì)說這很可能是AI生成的。但這不可能是事實(shí)。為什么AI寫作檢測(cè)工具會(huì)產(chǎn)生錯(cuò)誤的結(jié)果？

在新聞報(bào)道中，過于熱心的教授因?yàn)閼岩蓪W(xué)生使用AI寫作工具而讓整個(gè)班級(jí)不及格，以及孩子們被誤認(rèn)為使用了ChatGPT，這讓教育界感到震驚。一些人認(rèn)為這代表了一種生存危機(jī)。盡管可以依賴AI工具來檢測(cè)AI生成的文本，但目前的證據(jù)表明它們不可靠。由于錯(cuò)誤的警報(bào)，AI寫作檢測(cè)器如GPTZero、ZeroGPT和OpenAI的文本分類器不能被信任來檢測(cè)由大型語言模型(LLM)如ChatGPT編寫的文本。

為了解釋為什么這些工具會(huì)犯這樣明顯的錯(cuò)誤，我們需要理解AI檢測(cè)背后的概念。

不同的 AI 寫作檢測(cè)器使用略有不同的檢測(cè)方法，但基本原理是相同的：有一個(gè) AI 模型，它已經(jīng)在一個(gè)大型文本庫(包含數(shù)百萬個(gè)寫作示例)上進(jìn)行訓(xùn)練，并有一組推測(cè)規(guī)則來確定寫作是更有可能由人類或 AI 生成的。

例如，GPTZero 的核心是一個(gè)神經(jīng)網(wǎng)絡(luò)，它在“一個(gè)大型、多樣化的人類寫作和 AI 生成文本語料庫上進(jìn)行訓(xùn)練，重點(diǎn)是英語散文”，根據(jù)該服務(wù)的常見問題解答。接下來，系統(tǒng)使用屬性如“困惑度”和“爆發(fā)性”來評(píng)估文本并進(jìn)行分類。

在機(jī)器學(xué)習(xí)中，困惑度是衡量一段文本與 AI 模型在訓(xùn)練期間學(xué)到的程度相差多少的度量。因此，測(cè)量困惑度的思路是，當(dāng) AI 模型(如 ChatGPT)寫文本時(shí)，它們會(huì)自然而然地求助于它們最了解的東西，這來自它們的訓(xùn)練數(shù)據(jù)。輸出越接近訓(xùn)練數(shù)據(jù)，困惑度評(píng)分就越低。人類是更加混沌的寫作者，但人類也可以用低困惑度寫作，尤其是在模仿法律或某些類型的學(xué)術(shù)寫作中使用的正式風(fēng)格。此外，我們使用的許多短語都出乎意料地常見。

例如，假設(shè)我們正在猜測(cè)短語“我想要一杯 _____”的下一個(gè)詞。大多數(shù)人會(huì)填寫“水”、“咖啡”或“茶”。一個(gè)在大量英語文本上進(jìn)行訓(xùn)練的語言模型也會(huì)這樣做，因?yàn)檫@些短語在英語寫作中很常見。任何這三種結(jié)果的困惑度都將非常低，因?yàn)轭A(yù)測(cè)是相當(dāng)可靠的。

現(xiàn)在考慮一個(gè)不那么常見的補(bǔ)充：“我想要一杯蜘蛛。” 人類和訓(xùn)練有素的語言模型都會(huì)對(duì)這句話感到非常驚訝(或“困惑”)，所以它的困惑度會(huì)很高。

如果一段文本中的語言根據(jù)模型的訓(xùn)練沒有令人驚訝，那么困惑度就會(huì)很低，因此 AI 檢測(cè)器會(huì)更有可能將該文本分類為 AI 生成的。這將我們引出美國(guó)憲法這個(gè)有趣的案例。本質(zhì)上，憲法語言在這些模型中根深蒂固，以至于它們將其歸類為 AI 生成，從而產(chǎn)生了假陽性。

GPTZero 的創(chuàng)建者 Edward Tian說：“美國(guó)憲法是一篇被反復(fù)輸入到許多大型語言模型的訓(xùn)練數(shù)據(jù)中。因此，許多這些大型語言模型都被訓(xùn)練生成類似于憲法和其他常用訓(xùn)練文本的文本。GPTZero 預(yù)測(cè)可能由大型語言模型生成的文本，因此發(fā)生了這種奇妙的現(xiàn)象。”

問題在于，人類作者也可能創(chuàng)建低困惑度的內(nèi)容，這極大地?fù)p害了 AI 寫作檢測(cè)器的可靠性。

GPTZero 還測(cè)量文本的另一個(gè)屬性是“爆發(fā)性”，它指的是某些詞或短語在一段文本中以快速的序列或“爆發(fā)”出現(xiàn)的現(xiàn)象。本質(zhì)上，爆發(fā)性評(píng)估了一段文本中句子長(zhǎng)度和結(jié)構(gòu)的變化程度。

人類作者通常會(huì)采用動(dòng)態(tài)的寫作風(fēng)格，導(dǎo)致文本具有可變的句子長(zhǎng)度和結(jié)構(gòu)。例如，我們可能會(huì)寫一個(gè)長(zhǎng)而復(fù)雜的句子，然后是一個(gè)短而簡(jiǎn)單的句子，或者我們可能會(huì)在一個(gè)句子中使用一連串的形容詞，而在另一個(gè)句子中沒有任何形容詞。這種可變性是人類創(chuàng)造力和即興發(fā)揮的自然結(jié)果。

鑒于 AI 寫作檢測(cè)器的錯(cuò)誤報(bào)警率很高，并且可能會(huì)不公平地懲罰非母語英語使用者，很明顯，檢測(cè) AI 生成文本的技術(shù)還遠(yuǎn)非萬無一失——而且可能永遠(yuǎn)不會(huì)是。人類可以像機(jī)器一樣寫作，機(jī)器也可以像人類一樣寫作。一個(gè)更有幫助的問題可能是：使用機(jī)器輔助寫作的人類是否理解他們?cè)谡f什么？如果有人在使用 AI 工具來填寫他們不理解的事實(shí)內(nèi)容，那么一個(gè)有能力的讀者或老師應(yīng)該很容易就發(fā)現(xiàn)了。

如果老師也是該學(xué)科的專家，他們可以對(duì)學(xué)生的寫作進(jìn)行測(cè)試，以了解他們是否真正理解其中的內(nèi)容。寫作不僅僅是知識(shí)的展示，也是一個(gè)人聲譽(yù)的體現(xiàn)。如果作者不能為寫作中包含的所有事實(shí)負(fù)責(zé)，那么 AI 輔助就沒有被正確使用。

像任何工具一樣，語言模型可以被使用得好或使用得不好。而這種技能也取決于上下文：你可以用畫筆畫滿一整面墻，也可以畫出蒙娜麗莎。這兩種場(chǎng)景都是合適的工具使用方法，但每一種都需要不同水平的人類注意力和創(chuàng)造力。同樣，一些重復(fù)性的寫作任務(wù)(例如生成標(biāo)準(zhǔn)化的天氣預(yù)報(bào))可以通過 AI 適當(dāng)?shù)丶铀?，而更?fù)雜的任務(wù)則需要更多的人力和關(guān)注。沒有簡(jiǎn)單的黑白答案。

本文譯自 Ars Technica，由 bali 編輯發(fā)布。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）