科學(xué)家正試圖破解現(xiàn)代AI之謎

AI研究如同研究大腦,挑戰(zhàn)重重??茖W(xué)家們探索AI模型內(nèi)的知識表征,以期改善其行為。

這就像研究大腦:非常非常難。但他們?nèi)栽谂Α?/p>

5月23日,AI研究員Jide Alaga向科技初創(chuàng)公司Anthropic創(chuàng)建的AI助手Claude詢問如何友好地與女友分手。

“首先肯定你們關(guān)系的美好和歷史,”Claude回答說?!疤嵝阉痖T大橋?qū)δ銈兊闹匾饬x。然后說些類似‘不幸的是,霧氣籠罩,我們的道路必須分開’的話。”

Alaga并不是唯一一個遇到如此“金門大橋”中心的Claude的用戶。不論用戶問什么問題,這個聊天機器人總是繞回到舊金山和Marin縣之間的連接。煎餅食譜需要雞蛋、面粉和一次跨橋散步。治療腹瀉則需要金門大橋巡邏人員的幫助。

但幾周后,當(dāng)我問Claude是否記得那天對橋的怪異表現(xiàn)時,它否認(rèn)了一切。

金門Claude是Anthropic創(chuàng)建的限時AI助手,作為一個更大項目的一部分,用于研究Claude知道什么以及這些知識在模型內(nèi)部的表示——這是研究人員首次能夠?qū)θ绱她嫶蟮哪P瓦M行這種研究。(在研究中使用的Claude 3.0 Sonnet AI估計有700億個參數(shù))通過弄清“金門大橋”之類的概念如何在模型內(nèi)部存儲,開發(fā)人員可以修改模型對這些概念的解釋,以引導(dǎo)其行為。

這樣做可能會使模型變得滑稽——增加“金門大橋”的特性對用戶并沒有多大幫助,除了在Reddit上產(chǎn)生一些有趣的內(nèi)容。但Anthropic團隊發(fā)現(xiàn),像“欺騙”和“阿諛奉承”等特性也存在。了解模型如何表示這些使其偏見、誤導(dǎo)或危險的特性,希望能幫助開發(fā)人員引導(dǎo)AI朝著更好的行為發(fā)展。兩周后,OpenAI發(fā)布了其對GPT-4的類似分析結(jié)果。(披露:Vox Media是與OpenAI簽署合作協(xié)議的幾家出版商之一。我們的報道仍然保持編輯獨立性。)

計算機科學(xué)領(lǐng)域,尤其是軟件方面,歷來涉及更多的是“工程”而非“科學(xué)”。直到大約十年前,人類還通過編寫代碼來創(chuàng)建軟件。如果一個人類構(gòu)建的程序表現(xiàn)異常,可以理論上逐行查看代碼,找出問題所在。

“但在機器學(xué)習(xí)中,你有這些系統(tǒng),擁有數(shù)十億的連接——相當(dāng)于數(shù)百萬行代碼——由訓(xùn)練過程創(chuàng)建,而不是由人創(chuàng)建,”東北大學(xué)計算機科學(xué)教授David Bau說。

像OpenAI的ChatGPT 3.5和Anthropic的Claude 3.5這樣的AI助手是由大型語言模型(LLMs)提供支持的,開發(fā)人員通過從互聯(lián)網(wǎng)上抓取的大量文本來訓(xùn)練這些模型,以理解和生成語音。這些模型更像是植物或?qū)嶒炇遗囵B(yǎng)的組織,而不是軟件。人類搭建框架,添加數(shù)據(jù),啟動訓(xùn)練過程。之后,模型自行生長和演變。經(jīng)過數(shù)百萬次訓(xùn)練模型預(yù)測單詞完成句子和回答問題的迭代,它開始以復(fù)雜且常常非常人性化的方式回應(yīng)。

“這種奇怪且晦澀的過程竟然非常有效,”Google Deepmind的研究工程師Neel Nanda說。

LLMs和其他AI系統(tǒng)的設(shè)計初衷并不是讓人類輕易理解它們的內(nèi)在機制——它們是為了工作而設(shè)計的。但幾乎沒有人預(yù)料到它們會如此迅速地進步。Bau說,突然之間,“我們面臨一種新型的軟件,它比我們預(yù)期的工作得更好,卻沒有任何程序員能夠向我們解釋它是如何工作的?!?/p>

對此,一些計算機科學(xué)家建立了一個全新的研究領(lǐng)域:AI可解釋性,即研究驅(qū)動AI的算法。由于這個領(lǐng)域還處于起步階段,“目前人們在嘗試各種方法,”布朗大學(xué)計算機科學(xué)和語言學(xué)教授、Google Deepmind研究科學(xué)家Ellie Pavlick說。

幸運的是,AI研究人員不需要完全從頭開始實驗。他們可以借鑒在生物學(xué)和神經(jīng)科學(xué)領(lǐng)域長期試圖解開人腦奧秘的同行們的經(jīng)驗。

早在20世紀(jì)40年代,最早的機器學(xué)習(xí)算法就受到了腦神經(jīng)元連接的啟發(fā)——今天,許多AI模型仍被稱為“人工神經(jīng)網(wǎng)絡(luò)”。如果我們能弄清楚大腦,那么我們應(yīng)該能夠理解AI。人類大腦可能擁有超過GPT-4參數(shù)(可調(diào)變量,如旋鈕)的100倍的突觸連接數(shù)量??紤]到這些數(shù)量,Anthropic研究員Josh Batson說,“如果你認(rèn)為神經(jīng)科學(xué)值得嘗試,那么你應(yīng)該對模型的可解釋性非常樂觀。”

解碼AI模型的內(nèi)部運作是一個令人眼花繚亂的挑戰(zhàn),但值得一試。隨著我們在醫(yī)療、教育和法律系統(tǒng)中越來越多地交給大型、晦澀的AI系統(tǒng),弄清楚它們是如何工作的需求——而不僅僅是如何訓(xùn)練它們——變得更加緊迫。如果AI出錯,人類至少應(yīng)該能夠詢問原因。

本文譯自 Vox,由 BALI 編輯發(fā)布。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2024-07-29
科學(xué)家正試圖破解現(xiàn)代AI之謎
AI研究如同研究大腦,挑戰(zhàn)重重??茖W(xué)家們探索AI模型內(nèi)的知識表征,以期改善其行為。這就像研究大腦:非常非常難。但他們?nèi)栽谂Α?/div>

長按掃碼 閱讀全文