網(wǎng)站與爬蟲的博弈:小小的robots.txt還能守住數(shù)據(jù)嗎?

三十多年來,一個簡單的文本文件robots.txt一直維持著網(wǎng)絡秩序,控制網(wǎng)絡爬蟲的行為。但隨著AI公司的崛起,它們?yōu)榱擞柧毮P投罅坎杉瘮?shù)據(jù),使得網(wǎng)絡的“社交契約”面臨崩潰。網(wǎng)站擁有者和AI公司之間展開博弈,robots.txt的未來也變得撲朔迷離。

幾十年來,一個微小的文本文件默默守護著網(wǎng)絡的秩序。它沒有法律或技術權威,甚至也沒有復雜的技術含量。它代表了互聯(lián)網(wǎng)早期先驅(qū)們的一項“握手協(xié)議”,旨在互相尊重彼此的意愿,共同建設一個對 everyone 有益的網(wǎng)絡。它可以說是互聯(lián)網(wǎng)的一部微型憲法,用代碼寫成。

它叫作 robots.txt,通常位于你的網(wǎng)站根目錄下。這個文件允許任何網(wǎng)站所有者——無論大小,是烹飪博客還是跨國公司——告訴互聯(lián)網(wǎng)誰可以進入誰不可以。哪些搜索引擎可以索引你的網(wǎng)站?哪些檔案項目可以抓取你的頁面并保存?競爭對手是否可以監(jiān)控你的頁面以供他們自己使用?你可以做出決定并通知網(wǎng)絡。

這不是一個完美的系統(tǒng),但它曾經(jīng)運作良好。至少以前是這樣。幾十年來,robots.txt 的主要關注點是搜索引擎;你允許它們抓取你的網(wǎng)站,作為交換,它們承諾將人們發(fā)送回你那里?,F(xiàn)在,AI 改變了這個公式:網(wǎng)絡上的公司正在使用你的網(wǎng)站及其數(shù)據(jù)來構建大量訓練數(shù)據(jù)集,以便構建可能根本不會承認你存在的模型和產(chǎn)品。

robots.txt 規(guī)定了一種交換關系;對許多人來說,AI 感覺只索取不付出。但現(xiàn)在,AI 領域的資金如此龐大,技術水平變化如此之快,許多網(wǎng)站所有者都無法跟上。而 robots.txt 背后的基本協(xié)議,以及整個網(wǎng)絡——長久以來一直是“每個人都保持冷靜”——也可能無法跟上步伐。

在互聯(lián)網(wǎng)早期,機器人有很多名字:蜘蛛(spider)、爬蟲(crawler)、蠕蟲(worm)、WebAnt、網(wǎng)絡爬蟲。大多數(shù)情況下,它們都是出于善意而建造的。通常是開發(fā)人員試圖建立一個酷炫的新網(wǎng)站目錄,確保他們自己的網(wǎng)站正常運行,或者建立研究數(shù)據(jù)庫——這是大約 1993 年的事,當時搜索引擎還沒有普及,你可以在計算機硬盤上容納大部分互聯(lián)網(wǎng)。

當時唯一真正的問題是流量:訪問互聯(lián)網(wǎng)對于看到網(wǎng)站的人和托管網(wǎng)站的人來說都慢且昂貴。如果你像許多人一樣將你的網(wǎng)站托管在你的計算機上,或者通過你的家庭互聯(lián)網(wǎng)連接運行匆忙構建的服務器軟件,那么只需要幾個機器人過分熱心地下載你的頁面,事情就會崩潰,電話賬單也會飆升。

在 1994 年的幾個月里,軟件工程師和開發(fā)人員 Martijn Koster 與其他網(wǎng)絡管理員和開發(fā)人員一起提出了一種解決方案,他們稱之為機器人排除協(xié)議 (Robots Exclusion Protocol)。該提案相當簡單:它要求網(wǎng)絡開發(fā)人員在其域中添加一個純文本文件,指定哪些機器人不允許在其網(wǎng)站上搜索,或列出所有機器人都不允許訪問的頁面。(再次,當時你可以維護一份存在的每個機器人的列表——Koster 和其他幾個人幫助做了這件事。) 對于機器人制造商來說,這筆交易更簡單:尊重文本文件的愿望。

從一開始,Koster 就明確表示他不討厭機器人,也不打算擺脫它們?!皺C器人是網(wǎng)絡上少數(shù)幾個造成運營問題和讓人心煩的方面之一,”他在 1994 年初發(fā)送給名為 WWW-Talk 的郵件列表(其中包括網(wǎng)絡早期先驅(qū)者,如 Tim Berners-Lee 和 Marc Andreessen)的初始電子郵件中說?!巴瑫r,它們確實提供有用的服務?!盞oster 警告不要爭論機器人是好是壞——因為這并不重要,它們已經(jīng)存在了,不會消失。他只是試圖設計一個“最小化問題并可能最大化收益”的系統(tǒng)。

“機器人是網(wǎng)絡上少數(shù)幾個造成運營問題和讓人心煩的方面之一。同時,它們確實提供有用的服務?!?/p>

到那年的夏天,他的提議已成為一個標準——不是官方標準,而是更或多或少被普遍接受的標準。Koster 在 6 月再次致電 WWW-Talk 小組進行更新?!昂喍灾且环N通過在服務器上提供一個簡單的文本文件將機器人引導遠離網(wǎng)絡服務器 URL 空間中某些區(qū)域的方法,”他寫道。“如果你擁有大型存檔、具有大量 URL 子樹的 CGI 腳本、臨時信息,或者只是不想為機器人服務,這特別方便?!彼⒘艘粋€主題特定的郵件列表,其成員同意了一些基本語法和結構用于那些文本文件,將文件名稱從 RobotsNotWanted.txt 更改為簡單的 robots.txt,并且?guī)缀跛腥硕纪庵С炙?/p>

在接下來的 30 年里,這工作得很好。

但互聯(lián)網(wǎng)不再能裝在硬盤上了,機器人也變得更加強大。谷歌使用它們抓取和索引整個網(wǎng)絡以供其搜索引擎使用,而搜索引擎已成為互聯(lián)網(wǎng)的接口,每年為該公司帶來數(shù)十億美元的收入。Bing 的爬蟲也做了同樣的事情,微軟將其數(shù)據(jù)庫授權給其他搜索引擎和公司?;ヂ?lián)網(wǎng)檔案使用爬蟲來存儲網(wǎng)頁以供后世使用。亞馬遜的爬蟲在網(wǎng)絡上搜尋產(chǎn)品信息,根據(jù)最近的一項反壟斷訴訟,該公司使用這些信息來懲罰在亞馬遜以外提供更好交易的賣家。像 OpenAI 這樣的 AI 公司正在抓取網(wǎng)絡以訓練大型語言模型,這些模型可能會再次從根本上改變我們訪問和共享信息的方式。

下載、存儲、組織和查詢現(xiàn)代互聯(lián)網(wǎng)的能力使任何公司或開發(fā)人員都能使用世界上積累的知識。在過去的一年左右,像 ChatGPT 這樣的 AI 產(chǎn)品的興起,以及它們背后的大型語言模型,使得高質(zhì)量的訓練數(shù)據(jù)成為互聯(lián)網(wǎng)上最有價值的商品之一。這導致各種互聯(lián)網(wǎng)提供商重新考慮其服務器上的數(shù)據(jù)的價值,并重新考慮誰可以訪問什么。過于寬松可能會讓你的網(wǎng)站失去所有價值;過于嚴格可能會讓你變得隱形。你必須始終根據(jù)新的公司、新的合作伙伴和新的利益相關者做出選擇。

互聯(lián)網(wǎng)機器人有幾種類型。你可以構建一個完全無害的機器人來四處爬行并確保你的所有頁面鏈接仍然指向其他實時頁面;你可以發(fā)送一個更粗略的機器人繞著網(wǎng)絡收集你能找到的每個電子郵件地址或電話號碼。但最常見、目前最具爭議的是簡單的網(wǎng)絡爬蟲。它的工作是盡可能多地查找和下載互聯(lián)網(wǎng)上的內(nèi)容。

網(wǎng)絡爬蟲通常相當簡單。它們從一個眾所周知的網(wǎng)站開始,例如 cnn.com 或 wikipedia.org 或 health.gov。(如果你正在運行通用搜索引擎,你將從不同主題的大量高質(zhì)量域名開始;如果你只關心體育或汽車,你將只從汽車網(wǎng)站開始。)爬蟲下載該第一個頁面并將其存儲在某處,然后自動單擊該頁面上的每個鏈接,下載所有這些鏈接,單擊每個鏈接,并在網(wǎng)絡上傳播。有足夠的時間和足夠的計算資源,爬蟲最終會找到并下載數(shù)十億個網(wǎng)頁。

權衡取舍相當簡單:如果 Google 可以抓取你的頁面,它可以將其編入索引并在搜索結果中顯示它。

谷歌在 2019 年估計,超過 5 億個網(wǎng)站擁有一個 robots.txt 頁面,指示這些爬蟲是否可以訪問以及可以訪問什么。這些頁面的結構通常大致相同:它命名了一個“User-agent”,指的是爬蟲在向服務器標識自己時使用的名稱。谷歌的代理是 Googlebot;亞馬遜的是 Amazonbot;Bing 是 Bingbot;OpenAI 的是 GPTBot。Pinterest、LinkedIn、Twitter 和許多其他網(wǎng)站和服務都有自己的機器人,并非所有機器人都會在每個頁面上提及。(維基百科和 Facebook 是兩個機器人特別詳細的平臺。)在下面,robots.txt 頁面列出了給定代理不允許訪問的站點部分或頁面,以及允許的特定例外。如果該行只寫著“Disallow: /”,則爬蟲完全不受歡迎。

對于大多數(shù)人來說,“服務器過載”已經(jīng)不再是他們真正關心的事情了?!叭缃瘢@通常與網(wǎng)站上使用的資源無關,而更多與個人喜好有關,”谷歌搜索倡導者 John Mueller 說?!澳阆胱屇男﹥?nèi)容被抓取和索引等等?”

歷史上,大多數(shù)網(wǎng)站所有者必須回答的最大問題是是否允許 Googlebot 抓取他們的網(wǎng)站。權衡取舍相當簡單:如果 Google 可以抓取你的頁面,它可以將其編入索引并在搜索結果中顯示它。任何你希望 Google 可以搜索的頁面,Googlebot 都需要看到。(當然,Google 実際に搜索結果中顯示該頁面的方式和位置是完全不同的問題。)問題是你是否愿意讓 Google 消耗一些你的帶寬并下載你的網(wǎng)站副本以換取搜索帶來的可見性。

對于大多數(shù)網(wǎng)站來說,這是一個簡單的交易?!癎oogle 是我們最重要的蜘蛛,”Medium 首席執(zhí)行官 Tony Stubblebine 說。Google 可以下載 Medium 的所有頁面,“作為交換,我們獲得了大量流量。這是雙贏。每個人都這么認為?!边@是 Google 與整個互聯(lián)網(wǎng)達成的協(xié)議,以通過出售搜索結果中的廣告來為其他網(wǎng)站引流。根據(jù)所有人的說法,Google 一直是 robots.txt 的模范公民?!皫缀跛兄乃阉饕娑甲袷厮?,”谷歌的 Mueller 說?!八麄兒芨吲d能夠抓取網(wǎng)絡,但他們不想以此惹惱人們……這只是讓每個人都更輕松?!?/p>

然而,在過去的一年左右,人工智能的興起顛覆了這一等式。對于許多出版商和平臺來說,讓他們的數(shù)據(jù)被抓取以訓練數(shù)據(jù)感覺更像是偷竊而不是交易?!拔覀兒芸彀l(fā)現(xiàn),與人工智能公司合作,”Stubblebine 說,“不僅不是價值交換,我們也一無所獲。真的零?!比ツ昵锾?,當 Stubblebine 宣布 Medium 將阻止人工智能爬蟲時,他寫道“人工智能公司已經(jīng)從作家那里榨取了價值,以便向互聯(lián)網(wǎng)讀者發(fā)送垃圾郵件?!?/p>

去年,媒體行業(yè)的大部分人士都表達了與 Stubblebine 相同的觀點?!拔覀儾徽J為未經(jīng)我們許可‘抓取’BBC 數(shù)據(jù)以訓練通用人工智能模型符合公共利益,”BBC 全國總監(jiān) Rhodri Talfan Davies 去年秋天寫道,并宣布 BBC 也將阻止 OpenAI 的爬蟲。紐約時報也屏蔽了 GPTBot,幾個月前它起訴 OpenAI 稱 OpenAI 的模型“是通過復制和使用紐約時報的數(shù)百萬篇版權新聞文章、深度調(diào)查、觀點文章、評論、操作指南等構建的?!甭吠干缧侣剳镁庉?Ben Welsh 的一項研究發(fā)現(xiàn),在接受調(diào)查的 1,156 家出版商中,有 606 家在其 robots.txt 文件中屏蔽了 GPTBot。

這不僅僅是出版商。亞馬遜、Facebook、Pinterest、WikiHow、WebMD 和許多其他平臺明確阻止 GPTBot 訪問其部分或全部網(wǎng)站。在大多數(shù)這些 robots.txt 頁面上,OpenAI 的 GPTBot 是唯一明確和完全不允許的爬蟲。但還有許多其他以人工智能為目標的機器人開始在網(wǎng)絡上爬行,例如 Anthropic 的 anthropic-ai 和谷歌的新 Google-Extended。根據(jù) Originality.AI 去年秋天的一項研究,網(wǎng)絡上排名前 1,000 的網(wǎng)站中有 306 個屏蔽了 GPTBot,但只有 85 個屏蔽了 Google-Extended,28 個屏蔽了 anthropic-ai。

還有一些爬蟲用于網(wǎng)絡搜索和人工智能。CCBot 由 Common Crawl 組織運營,出于搜索引擎目的搜尋網(wǎng)絡,但其數(shù)據(jù)也由 OpenAI、Google 和其他公司用于訓練其模型。微軟的 Bingbot 既是搜索爬蟲又是人工智能爬蟲。這些只是識別自身的爬蟲——許多其他爬蟲試圖在相對秘密的環(huán)境中運作,使得很難阻止甚至在其他網(wǎng)絡流量中找到它們。對于任何足夠受歡迎的網(wǎng)站來說,找到一個偷偷摸摸的爬蟲就像大海撈針。

在很大程度上,GPTBot 已成為 robots.txt 的主要反派,因為 OpenAI 允許這種情況發(fā)生。該公司發(fā)布并宣傳了一頁關于如何阻止 GPTBot 的信息,并構建了其爬蟲,使其在每次接近網(wǎng)站時都會大聲識別自己。當然,它在訓練出使其如此強大的底層模型之后才做所有這些事情,并且只是在它成為技術生態(tài)系統(tǒng)的重要組成部分之后才做所有這些事情。但 OpenAI 的首席戰(zhàn)略官 Jason Kwon 說,這正是重點?!拔覀兪巧鷳B(tài)系統(tǒng)中的參與者,”他說。“如果你想以開放的方式參與這個生態(tài)系統(tǒng),那么這就是每個人都感興趣的互惠交易?!彼f,沒有這筆交易,網(wǎng)絡就會開始萎縮、關閉——這對 OpenAI 和所有人來說都是壞事。“我們做這一切都是為了讓網(wǎng)絡保持開放。”

默認情況下,機器人排除協(xié)議一直是允許的。它相信,就像 Koster 30 年前所做的那樣,大多數(shù)機器人都是好的,由好人制造,因此默認允許它們??偟膩碚f,這是正確的決定?!拔艺J為互聯(lián)網(wǎng)從根本上是一種社會生物,”O(jiān)penAI 的 Kwon 說,“而這種持續(xù)了數(shù)十年的握手似乎奏效了?!彼f,OpenAI 在維持這一協(xié)議方面發(fā)揮的作用包括讓 ChatGPT 對大多數(shù)用戶免費,從而將價值返還給他們,并遵守機器人規(guī)則。

但 robots.txt 不是法律文件——在其創(chuàng)建 30 年后,它仍然依賴于所有相關方的善意。在你的 robots.txt 頁面上禁止機器人就像在你的樹屋上貼上“女孩禁止入內(nèi)”的標語一樣——它會發(fā)送一條消息,但它不會在法庭上站得住腳。任何想要忽略 robots.txt 的爬蟲都可以簡單地這樣做,而幾乎不必擔心后果。(盡管圍繞網(wǎng)絡抓取有一些法律先例,但即使這些先例也可能很復雜,并且主要落在允許抓取和抓取上。)例如,互聯(lián)網(wǎng)檔案在 2017 年宣布它不再遵守 robots.txt 的規(guī)則?!半S著時間的推移,我們觀察到,面向搜索引擎爬蟲的 robots.txt 文件不一定符合我們的存檔目的,”互聯(lián)網(wǎng)檔案 Wayback Machine 主任 Mark Graham 當時寫道。就這樣結束了。

隨著人工智能公司的不斷涌現(xiàn),以及它們的爬蟲變得越來越不擇手段,任何想要觀望或等待人工智能接管的人都要進行一場永無止境的打地鼠游戲。他們必須單獨阻止每個機器人和爬蟲,如果這甚至可能的話,同時還要考慮副作用。如果人工智能確實是搜索的未來,正如谷歌和其他公司所預測的那樣,那么阻止人工智能爬蟲可能是短期的勝利,但卻是長期的災難。

雙方都有人認為我們需要更好、更強大、更嚴格的工具來管理爬蟲。他們爭辯說,涉及的資金太多,新的和不受監(jiān)管的用例太多,無法依靠每個人都同意做正確的事情?!半m然許多參與者制定了一些規(guī)則來規(guī)范他們使用爬蟲的行為,”兩位專注于技術的律師在 2019 年關于網(wǎng)絡爬蟲合法性的論文中寫道,“但總體而言,這些規(guī)則過于薄弱,追究他們的責任太困難?!?/p>

一些出版商希望對被抓取的內(nèi)容以及用于何處進行更詳細的控制,而不是 robots.txt 的全面允許或拒絕權限。谷歌幾年前曾努力使機器人排除協(xié)議成為正式的官方標準,也推動弱化 robots.txt 的地位,理由是它是一個過時的標準,太多網(wǎng)站不予理會。“我們認識到現(xiàn)有的網(wǎng)絡發(fā)布者控制是在新的 AI 和研究用例出現(xiàn)之前開發(fā)的,”谷歌信任副總裁 Danielle Romain 去年寫道?!拔覀兿嘈?,網(wǎng)絡和人工智能社區(qū)是時候探索額外的機器可讀手段,以實現(xiàn)網(wǎng)絡發(fā)布者對新興人工智能和研究用例的選擇和控制?!?/p>

即使人工智能公司在如何構建和訓練模型方面面臨監(jiān)管和法律問題,這些模型仍在不斷改進,新公司似乎每天都在涌現(xiàn)。大小網(wǎng)站都面臨著一個決定:屈服于人工智能革命或堅持反對它。對于那些選擇退出的人來說,他們最強大的武器是三十年前由網(wǎng)絡上最早和最樂觀的真正信徒達成的協(xié)議。他們相信互聯(lián)網(wǎng)是一個美好的地方,充滿了善良的人,他們最希望互聯(lián)網(wǎng)成為一件美好的事情。在那個世界和那個互聯(lián)網(wǎng)上,在一個文本文件中解釋你的愿望應該足夠了。

本文譯自The Verge,由 超載雞 編輯發(fā)布。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )

贊助商
2024-02-20
網(wǎng)站與爬蟲的博弈:小小的robots.txt還能守住數(shù)據(jù)嗎?
三十多年來,一個簡單的文本文件robots.txt一直維持著網(wǎng)絡秩序,控制網(wǎng)絡爬蟲的行為。但隨著AI公司的崛起,它們?yōu)榱擞柧毮P投罅坎杉瘮?shù)據(jù),使得網(wǎng)絡的“社交契約”面臨崩潰。

長按掃碼 閱讀全文