財(cái)聯(lián)社4月20日訊(編輯 史正丞)在過去半年不到的時(shí)間里,許多地球上的人類已經(jīng)接觸到AI聊天機(jī)器人的魅力和魔力。但歸根結(jié)底,目前并沒有AI已經(jīng)產(chǎn)生像人類一樣的自我意識(shí),它們能夠模仿人類講話,主要原因是算法“吸收”了大量的文本——大部分是從互聯(lián)網(wǎng)上抓取的。
互聯(lián)網(wǎng)上蘊(yùn)含著大量有用、有益的經(jīng)驗(yàn)和知識(shí),但數(shù)字時(shí)代的網(wǎng)民們也不得不承認(rèn),在煙波浩渺的互聯(lián)網(wǎng)信息叢林中,也蘊(yùn)含著大量偏見、歧視、有害,以及侵犯名譽(yù)和隱私的內(nèi)容。種種跡象顯示,這些“人類的禁忌知識(shí)”也被大模型照單全收了。
當(dāng)?shù)貢r(shí)間周三,《華盛頓郵報(bào)》發(fā)表了與艾倫人工智能研究院合作進(jìn)行的調(diào)查結(jié)果,他們拆解了谷歌的C4數(shù)據(jù)集,這也是許多知名英語AI大模型的訓(xùn)練材料,例如谷歌的T5和Facebook的LLaMA。中國投資者更關(guān)注的OpenAI并沒有公布訓(xùn)練ChatGPT所用的數(shù)據(jù)集,所以這也是目前窺得AI數(shù)據(jù)黑箱的最便利解決方案。
AI數(shù)據(jù)集黑箱揭秘
值得一提的是,調(diào)查人員使用了SimilarWeb的網(wǎng)站分類數(shù)據(jù),由于C4數(shù)據(jù)集中有三分之一的網(wǎng)站已經(jīng)不存在這個(gè)世界上了,所以實(shí)際統(tǒng)計(jì)的數(shù)據(jù)大約為1000萬個(gè)網(wǎng)站。
根據(jù)研究,囊括全球?qū)@畔⒌墓雀鑼@W(wǎng)、維基百科和訂閱制數(shù)字圖書館scribd的資料權(quán)重位列整個(gè)數(shù)據(jù)集前三。但隨著列表往下翻,一系列意想不到的名字開始出現(xiàn)。
已經(jīng)被美國司法部查封的盜版電子書網(wǎng)站b-ok.org高居第190位,類似這樣因?yàn)榍址赴鏅?quán)被美國查封的網(wǎng)站還在數(shù)據(jù)集中出現(xiàn)至少27次。
(b-ok.org現(xiàn)在是這個(gè)樣子的,來源:網(wǎng)站)
此外,《魔獸世界》玩家論壇wowhead也高居第181位,《赫芬頓郵報(bào)》創(chuàng)始人阿里安娜·赫芬頓辦的行為轉(zhuǎn)變課程網(wǎng)站thriveglobal也位居175位。令人意外的是,有兩個(gè)美國投票人數(shù)據(jù)庫網(wǎng)站也位列前100位。雖然投票人的數(shù)據(jù)本身是公開的,但大模型可能會(huì)把這些個(gè)人數(shù)據(jù)用在哪里,又有誰能說清楚呢?
接下來的數(shù)據(jù)則顯示,AI大模型潛在的侵權(quán)問題,可能要比想象中更加嚴(yán)重。商業(yè)和行業(yè)網(wǎng)站是數(shù)據(jù)集中比重最大的分類,創(chuàng)意產(chǎn)品眾籌網(wǎng)站kickstarter(25位)也出現(xiàn)在榜單里非常高的位置。這里就引出了一個(gè)新的問題,AI向用戶提供的許多創(chuàng)意和市場營銷答案,很有可能本身就是現(xiàn)成的作品。
研究人員也發(fā)現(xiàn),超過50萬的個(gè)人博客被收錄進(jìn)C4訓(xùn)練集中,這些作者顯然沒有因此得到過任何報(bào)酬。
作為AI訓(xùn)練的“富礦”,每天都大量生產(chǎn)經(jīng)過審校內(nèi)容的媒體也是訓(xùn)練集的最愛,紐約時(shí)報(bào)、洛杉磯時(shí)報(bào)、衛(wèi)報(bào)、福布斯和赫芬頓郵報(bào)均擠進(jìn)數(shù)據(jù)庫比重前十。與許多藝術(shù)家一樣,不少媒體目前也在向AI產(chǎn)業(yè)聲索維權(quán)。由于美國媒體行業(yè)的復(fù)雜性,所以訓(xùn)練集中也能找到以極右翼、白人至上主義內(nèi)容為主基調(diào)的網(wǎng)站。
事實(shí)上,谷歌在構(gòu)建數(shù)據(jù)庫的時(shí)候,已經(jīng)意識(shí)到網(wǎng)絡(luò)信息污染的問題,所以除了刪除毫無意義和重復(fù)的語句外,特意用開源的“臟話過濾器”篩過一遍,但似乎有數(shù)量非常龐大的漏網(wǎng)之魚鉆了過去。研究人員就在訓(xùn)練集中找到至少7.2萬個(gè)德國納粹的標(biāo)志性符號(hào)。
更令人擔(dān)憂的是,訓(xùn)練集中也能找到宣揚(yáng)種族主義、極右翼陰謀論(QAnon)的網(wǎng)頁,而以組織網(wǎng)絡(luò)暴力聞名的4Chan匿名聊天網(wǎng)站也出現(xiàn)在訓(xùn)練集中。
比起數(shù)據(jù)臟 處理數(shù)據(jù)的態(tài)度更迷離
雖然C4訓(xùn)練集的數(shù)據(jù)已經(jīng)非常龐大,但用于訓(xùn)練OpenAI GPT-3的網(wǎng)絡(luò)爬蟲數(shù)據(jù)集,從一開始就要比C4大40倍,背后的問題自然也會(huì)被同步放大。
但在GPT-3的論文中,OpenAI也公開討論了一個(gè)細(xì)節(jié):在防止測試數(shù)據(jù)被放進(jìn)訓(xùn)練數(shù)據(jù)導(dǎo)致污染的過程中發(fā)現(xiàn)了一個(gè)BUG,但由于重新訓(xùn)練模型太貴、公司又沒錢,所這個(gè)問題就放著不去管它了。
一些業(yè)內(nèi)人士也透露,許多科技公司在內(nèi)部都不會(huì)記錄訓(xùn)練數(shù)據(jù)的來源,因?yàn)閾?dān)心會(huì)發(fā)現(xiàn)個(gè)人信息數(shù)據(jù),以及未經(jīng)授權(quán)的材料或其他數(shù)據(jù)。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )