精品国产丝袜自在线拍国语,护士裸体毛茸茸,2020国内精品自在自线

三十多年來，一個簡單的文本文件robots.txt一直維持著網(wǎng)絡(luò)秩序，控制網(wǎng)絡(luò)爬蟲的行為。但隨著AI公司的崛起，它們?yōu)榱擞?xùn)練模型而大量采集數(shù)據(jù)，使得網(wǎng)絡(luò)的“社交契約”面臨崩潰。網(wǎng)站擁有者和AI公司之間展開博弈，robots.txt的未來也變得撲朔迷離。

幾十年來，一個微小的文本文件默默守護(hù)著網(wǎng)絡(luò)的秩序。它沒有法律或技術(shù)權(quán)威，甚至也沒有復(fù)雜的技術(shù)含量。它代表了互聯(lián)網(wǎng)早期先驅(qū)們的一項“握手協(xié)議”，旨在互相尊重彼此的意愿，共同建設(shè)一個對 everyone 有益的網(wǎng)絡(luò)。它可以說是互聯(lián)網(wǎng)的一部微型憲法，用代碼寫成。

它叫作 robots.txt，通常位于你的網(wǎng)站根目錄下。這個文件允許任何網(wǎng)站所有者——無論大小，是烹飪博客還是跨國公司——告訴互聯(lián)網(wǎng)誰可以進(jìn)入誰不可以。哪些搜索引擎可以索引你的網(wǎng)站？哪些檔案項目可以抓取你的頁面并保存？競爭對手是否可以監(jiān)控你的頁面以供他們自己使用？你可以做出決定并通知網(wǎng)絡(luò)。

這不是一個完美的系統(tǒng)，但它曾經(jīng)運(yùn)作良好。至少以前是這樣。幾十年來，robots.txt 的主要關(guān)注點是搜索引擎；你允許它們抓取你的網(wǎng)站，作為交換，它們承諾將人們發(fā)送回你那里?，F(xiàn)在，AI 改變了這個公式：網(wǎng)絡(luò)上的公司正在使用你的網(wǎng)站及其數(shù)據(jù)來構(gòu)建大量訓(xùn)練數(shù)據(jù)集，以便構(gòu)建可能根本不會承認(rèn)你存在的模型和產(chǎn)品。

robots.txt 規(guī)定了一種交換關(guān)系；對許多人來說，AI 感覺只索取不付出。但現(xiàn)在，AI 領(lǐng)域的資金如此龐大，技術(shù)水平變化如此之快，許多網(wǎng)站所有者都無法跟上。而 robots.txt 背后的基本協(xié)議，以及整個網(wǎng)絡(luò)——長久以來一直是“每個人都保持冷靜”——也可能無法跟上步伐。

在互聯(lián)網(wǎng)早期，機(jī)器人有很多名字：蜘蛛(spider)、爬蟲(crawler)、蠕蟲(worm)、WebAnt、網(wǎng)絡(luò)爬蟲。大多數(shù)情況下，它們都是出于善意而建造的。通常是開發(fā)人員試圖建立一個酷炫的新網(wǎng)站目錄，確保他們自己的網(wǎng)站正常運(yùn)行，或者建立研究數(shù)據(jù)庫——這是大約 1993 年的事，當(dāng)時搜索引擎還沒有普及，你可以在計算機(jī)硬盤上容納大部分互聯(lián)網(wǎng)。

當(dāng)時唯一真正的問題是流量：訪問互聯(lián)網(wǎng)對于看到網(wǎng)站的人和托管網(wǎng)站的人來說都慢且昂貴。如果你像許多人一樣將你的網(wǎng)站托管在你的計算機(jī)上，或者通過你的家庭互聯(lián)網(wǎng)連接運(yùn)行匆忙構(gòu)建的服務(wù)器軟件，那么只需要幾個機(jī)器人過分熱心地下載你的頁面，事情就會崩潰，電話賬單也會飆升。

在 1994 年的幾個月里，軟件工程師和開發(fā)人員 Martijn Koster 與其他網(wǎng)絡(luò)管理員和開發(fā)人員一起提出了一種解決方案，他們稱之為機(jī)器人排除協(xié)議 (Robots Exclusion Protocol)。該提案相當(dāng)簡單：它要求網(wǎng)絡(luò)開發(fā)人員在其域中添加一個純文本文件，指定哪些機(jī)器人不允許在其網(wǎng)站上搜索，或列出所有機(jī)器人都不允許訪問的頁面。(再次，當(dāng)時你可以維護(hù)一份存在的每個機(jī)器人的列表——Koster 和其他幾個人幫助做了這件事。) 對于機(jī)器人制造商來說，這筆交易更簡單：尊重文本文件的愿望。

從一開始，Koster 就明確表示他不討厭機(jī)器人，也不打算擺脫它們?！皺C(jī)器人是網(wǎng)絡(luò)上少數(shù)幾個造成運(yùn)營問題和讓人心煩的方面之一，”他在 1994 年初發(fā)送給名為 WWW-Talk 的郵件列表(其中包括網(wǎng)絡(luò)早期先驅(qū)者，如 Tim Berners-Lee 和 Marc Andreessen)的初始電子郵件中說。“同時，它們確實提供有用的服務(wù)。”Koster 警告不要爭論機(jī)器人是好是壞——因為這并不重要，它們已經(jīng)存在了，不會消失。他只是試圖設(shè)計一個“最小化問題并可能最大化收益”的系統(tǒng)。

“機(jī)器人是網(wǎng)絡(luò)上少數(shù)幾個造成運(yùn)營問題和讓人心煩的方面之一。同時，它們確實提供有用的服務(wù)?！?/p>

到那年的夏天，他的提議已成為一個標(biāo)準(zhǔn)——不是官方標(biāo)準(zhǔn)，而是更或多或少被普遍接受的標(biāo)準(zhǔn)。Koster 在 6 月再次致電 WWW-Talk 小組進(jìn)行更新。“簡而言之，它是一種通過在服務(wù)器上提供一個簡單的文本文件將機(jī)器人引導(dǎo)遠(yuǎn)離網(wǎng)絡(luò)服務(wù)器 URL 空間中某些區(qū)域的方法，”他寫道。“如果你擁有大型存檔、具有大量 URL 子樹的 CGI 腳本、臨時信息，或者只是不想為機(jī)器人服務(wù)，這特別方便。”他建立了一個主題特定的郵件列表，其成員同意了一些基本語法和結(jié)構(gòu)用于那些文本文件，將文件名稱從 RobotsNotWanted.txt 更改為簡單的 robots.txt，并且?guī)缀跛腥硕纪庵С炙?/p>

在接下來的 30 年里，這工作得很好。

但互聯(lián)網(wǎng)不再能裝在硬盤上了，機(jī)器人也變得更加強(qiáng)大。谷歌使用它們抓取和索引整個網(wǎng)絡(luò)以供其搜索引擎使用，而搜索引擎已成為互聯(lián)網(wǎng)的接口，每年為該公司帶來數(shù)十億美元的收入。Bing 的爬蟲也做了同樣的事情，微軟將其數(shù)據(jù)庫授權(quán)給其他搜索引擎和公司?；ヂ?lián)網(wǎng)檔案使用爬蟲來存儲網(wǎng)頁以供后世使用。亞馬遜的爬蟲在網(wǎng)絡(luò)上搜尋產(chǎn)品信息，根據(jù)最近的一項反壟斷訴訟，該公司使用這些信息來懲罰在亞馬遜以外提供更好交易的賣家。像 OpenAI 這樣的 AI 公司正在抓取網(wǎng)絡(luò)以訓(xùn)練大型語言模型，這些模型可能會再次從根本上改變我們訪問和共享信息的方式。

下載、存儲、組織和查詢現(xiàn)代互聯(lián)網(wǎng)的能力使任何公司或開發(fā)人員都能使用世界上積累的知識。在過去的一年左右，像 ChatGPT 這樣的 AI 產(chǎn)品的興起，以及它們背后的大型語言模型，使得高質(zhì)量的訓(xùn)練數(shù)據(jù)成為互聯(lián)網(wǎng)上最有價值的商品之一。這導(dǎo)致各種互聯(lián)網(wǎng)提供商重新考慮其服務(wù)器上的數(shù)據(jù)的價值，并重新考慮誰可以訪問什么。過于寬松可能會讓你的網(wǎng)站失去所有價值；過于嚴(yán)格可能會讓你變得隱形。你必須始終根據(jù)新的公司、新的合作伙伴和新的利益相關(guān)者做出選擇。

互聯(lián)網(wǎng)機(jī)器人有幾種類型。你可以構(gòu)建一個完全無害的機(jī)器人來四處爬行并確保你的所有頁面鏈接仍然指向其他實時頁面；你可以發(fā)送一個更粗略的機(jī)器人繞著網(wǎng)絡(luò)收集你能找到的每個電子郵件地址或電話號碼。但最常見、目前最具爭議的是簡單的網(wǎng)絡(luò)爬蟲。它的工作是盡可能多地查找和下載互聯(lián)網(wǎng)上的內(nèi)容。

網(wǎng)絡(luò)爬蟲通常相當(dāng)簡單。它們從一個眾所周知的網(wǎng)站開始，例如 cnn.com 或 wikipedia.org 或 health.gov。(如果你正在運(yùn)行通用搜索引擎，你將從不同主題的大量高質(zhì)量域名開始；如果你只關(guān)心體育或汽車，你將只從汽車網(wǎng)站開始。)爬蟲下載該第一個頁面并將其存儲在某處，然后自動單擊該頁面上的每個鏈接，下載所有這些鏈接，單擊每個鏈接，并在網(wǎng)絡(luò)上傳播。有足夠的時間和足夠的計算資源，爬蟲最終會找到并下載數(shù)十億個網(wǎng)頁。

權(quán)衡取舍相當(dāng)簡單：如果 Google 可以抓取你的頁面，它可以將其編入索引并在搜索結(jié)果中顯示它。

谷歌在 2019 年估計，超過 5 億個網(wǎng)站擁有一個 robots.txt 頁面，指示這些爬蟲是否可以訪問以及可以訪問什么。這些頁面的結(jié)構(gòu)通常大致相同：它命名了一個“User-agent”，指的是爬蟲在向服務(wù)器標(biāo)識自己時使用的名稱。谷歌的代理是 Googlebot；亞馬遜的是 Amazonbot；Bing 是 Bingbot；OpenAI 的是 GPTBot。Pinterest、LinkedIn、Twitter 和許多其他網(wǎng)站和服務(wù)都有自己的機(jī)器人，并非所有機(jī)器人都會在每個頁面上提及。(維基百科和 Facebook 是兩個機(jī)器人特別詳細(xì)的平臺。)在下面，robots.txt 頁面列出了給定代理不允許訪問的站點部分或頁面，以及允許的特定例外。如果該行只寫著“Disallow: /”，則爬蟲完全不受歡迎。

對于大多數(shù)人來說，“服務(wù)器過載”已經(jīng)不再是他們真正關(guān)心的事情了?！叭缃?，這通常與網(wǎng)站上使用的資源無關(guān)，而更多與個人喜好有關(guān)，”谷歌搜索倡導(dǎo)者 John Mueller 說?！澳阆胱屇男﹥?nèi)容被抓取和索引等等？”

歷史上，大多數(shù)網(wǎng)站所有者必須回答的最大問題是是否允許 Googlebot 抓取他們的網(wǎng)站。權(quán)衡取舍相當(dāng)簡單：如果 Google 可以抓取你的頁面，它可以將其編入索引并在搜索結(jié)果中顯示它。任何你希望 Google 可以搜索的頁面，Googlebot 都需要看到。(當(dāng)然，Google 実際に搜索結(jié)果中顯示該頁面的方式和位置是完全不同的問題。)問題是你是否愿意讓 Google 消耗一些你的帶寬并下載你的網(wǎng)站副本以換取搜索帶來的可見性。

對于大多數(shù)網(wǎng)站來說，這是一個簡單的交易?！癎oogle 是我們最重要的蜘蛛，”Medium 首席執(zhí)行官 Tony Stubblebine 說。Google 可以下載 Medium 的所有頁面，“作為交換，我們獲得了大量流量。這是雙贏。每個人都這么認(rèn)為?！边@是 Google 與整個互聯(lián)網(wǎng)達(dá)成的協(xié)議，以通過出售搜索結(jié)果中的廣告來為其他網(wǎng)站引流。根據(jù)所有人的說法，Google 一直是 robots.txt 的模范公民。“幾乎所有知名的搜索引擎都遵守它，”谷歌的 Mueller 說。“他們很高興能夠抓取網(wǎng)絡(luò)，但他們不想以此惹惱人們……這只是讓每個人都更輕松。”

然而，在過去的一年左右，人工智能的興起顛覆了這一等式。對于許多出版商和平臺來說，讓他們的數(shù)據(jù)被抓取以訓(xùn)練數(shù)據(jù)感覺更像是偷竊而不是交易?！拔覀兒芸彀l(fā)現(xiàn)，與人工智能公司合作，”Stubblebine 說，“不僅不是價值交換，我們也一無所獲。真的零?！比ツ昵锾?，當(dāng) Stubblebine 宣布 Medium 將阻止人工智能爬蟲時，他寫道“人工智能公司已經(jīng)從作家那里榨取了價值，以便向互聯(lián)網(wǎng)讀者發(fā)送垃圾郵件。”

去年，媒體行業(yè)的大部分人士都表達(dá)了與 Stubblebine 相同的觀點?！拔覀儾徽J(rèn)為未經(jīng)我們許可‘抓取’BBC 數(shù)據(jù)以訓(xùn)練通用人工智能模型符合公共利益，”BBC 全國總監(jiān) Rhodri Talfan Davies 去年秋天寫道，并宣布 BBC 也將阻止 OpenAI 的爬蟲。紐約時報也屏蔽了 GPTBot，幾個月前它起訴 OpenAI 稱 OpenAI 的模型“是通過復(fù)制和使用紐約時報的數(shù)百萬篇版權(quán)新聞文章、深度調(diào)查、觀點文章、評論、操作指南等構(gòu)建的?！甭吠干缧侣剳?yīng)用編輯 Ben Welsh 的一項研究發(fā)現(xiàn)，在接受調(diào)查的 1,156 家出版商中，有 606 家在其 robots.txt 文件中屏蔽了 GPTBot。

這不僅僅是出版商。亞馬遜、Facebook、Pinterest、WikiHow、WebMD 和許多其他平臺明確阻止 GPTBot 訪問其部分或全部網(wǎng)站。在大多數(shù)這些 robots.txt 頁面上，OpenAI 的 GPTBot 是唯一明確和完全不允許的爬蟲。但還有許多其他以人工智能為目標(biāo)的機(jī)器人開始在網(wǎng)絡(luò)上爬行，例如 Anthropic 的 anthropic-ai 和谷歌的新 Google-Extended。根據(jù) Originality.AI 去年秋天的一項研究，網(wǎng)絡(luò)上排名前 1,000 的網(wǎng)站中有 306 個屏蔽了 GPTBot，但只有 85 個屏蔽了 Google-Extended，28 個屏蔽了 anthropic-ai。

還有一些爬蟲用于網(wǎng)絡(luò)搜索和人工智能。CCBot 由 Common Crawl 組織運(yùn)營，出于搜索引擎目的搜尋網(wǎng)絡(luò)，但其數(shù)據(jù)也由 OpenAI、Google 和其他公司用于訓(xùn)練其模型。微軟的 Bingbot 既是搜索爬蟲又是人工智能爬蟲。這些只是識別自身的爬蟲——許多其他爬蟲試圖在相對秘密的環(huán)境中運(yùn)作，使得很難阻止甚至在其他網(wǎng)絡(luò)流量中找到它們。對于任何足夠受歡迎的網(wǎng)站來說，找到一個偷偷摸摸的爬蟲就像大海撈針。

在很大程度上，GPTBot 已成為 robots.txt 的主要反派，因為 OpenAI 允許這種情況發(fā)生。該公司發(fā)布并宣傳了一頁關(guān)于如何阻止 GPTBot 的信息，并構(gòu)建了其爬蟲，使其在每次接近網(wǎng)站時都會大聲識別自己。當(dāng)然，它在訓(xùn)練出使其如此強(qiáng)大的底層模型之后才做所有這些事情，并且只是在它成為技術(shù)生態(tài)系統(tǒng)的重要組成部分之后才做所有這些事情。但 OpenAI 的首席戰(zhàn)略官 Jason Kwon 說，這正是重點?！拔覀兪巧鷳B(tài)系統(tǒng)中的參與者，”他說?！叭绻阆胍蚤_放的方式參與這個生態(tài)系統(tǒng)，那么這就是每個人都感興趣的互惠交易?！彼f，沒有這筆交易，網(wǎng)絡(luò)就會開始萎縮、關(guān)閉——這對 OpenAI 和所有人來說都是壞事。“我們做這一切都是為了讓網(wǎng)絡(luò)保持開放?！?/p>

默認(rèn)情況下，機(jī)器人排除協(xié)議一直是允許的。它相信，就像 Koster 30 年前所做的那樣，大多數(shù)機(jī)器人都是好的，由好人制造，因此默認(rèn)允許它們?？偟膩碚f，這是正確的決定?！拔艺J(rèn)為互聯(lián)網(wǎng)從根本上是一種社會生物，”O(jiān)penAI 的 Kwon 說，“而這種持續(xù)了數(shù)十年的握手似乎奏效了?！彼f，OpenAI 在維持這一協(xié)議方面發(fā)揮的作用包括讓 ChatGPT 對大多數(shù)用戶免費(fèi)，從而將價值返還給他們，并遵守機(jī)器人規(guī)則。

但 robots.txt 不是法律文件——在其創(chuàng)建 30 年后，它仍然依賴于所有相關(guān)方的善意。在你的 robots.txt 頁面上禁止機(jī)器人就像在你的樹屋上貼上“女孩禁止入內(nèi)”的標(biāo)語一樣——它會發(fā)送一條消息，但它不會在法庭上站得住腳。任何想要忽略 robots.txt 的爬蟲都可以簡單地這樣做，而幾乎不必?fù)?dān)心后果。(盡管圍繞網(wǎng)絡(luò)抓取有一些法律先例，但即使這些先例也可能很復(fù)雜，并且主要落在允許抓取和抓取上。)例如，互聯(lián)網(wǎng)檔案在 2017 年宣布它不再遵守 robots.txt 的規(guī)則?！半S著時間的推移，我們觀察到，面向搜索引擎爬蟲的 robots.txt 文件不一定符合我們的存檔目的，”互聯(lián)網(wǎng)檔案 Wayback Machine 主任 Mark Graham 當(dāng)時寫道。就這樣結(jié)束了。

隨著人工智能公司的不斷涌現(xiàn)，以及它們的爬蟲變得越來越不擇手段，任何想要觀望或等待人工智能接管的人都要進(jìn)行一場永無止境的打地鼠游戲。他們必須單獨(dú)阻止每個機(jī)器人和爬蟲，如果這甚至可能的話，同時還要考慮副作用。如果人工智能確實是搜索的未來，正如谷歌和其他公司所預(yù)測的那樣，那么阻止人工智能爬蟲可能是短期的勝利，但卻是長期的災(zāi)難。

雙方都有人認(rèn)為我們需要更好、更強(qiáng)大、更嚴(yán)格的工具來管理爬蟲。他們爭辯說，涉及的資金太多，新的和不受監(jiān)管的用例太多，無法依靠每個人都同意做正確的事情?！半m然許多參與者制定了一些規(guī)則來規(guī)范他們使用爬蟲的行為，”兩位專注于技術(shù)的律師在 2019 年關(guān)于網(wǎng)絡(luò)爬蟲合法性的論文中寫道，“但總體而言，這些規(guī)則過于薄弱，追究他們的責(zé)任太困難。”

一些出版商希望對被抓取的內(nèi)容以及用于何處進(jìn)行更詳細(xì)的控制，而不是 robots.txt 的全面允許或拒絕權(quán)限。谷歌幾年前曾努力使機(jī)器人排除協(xié)議成為正式的官方標(biāo)準(zhǔn)，也推動弱化 robots.txt 的地位，理由是它是一個過時的標(biāo)準(zhǔn)，太多網(wǎng)站不予理會。“我們認(rèn)識到現(xiàn)有的網(wǎng)絡(luò)發(fā)布者控制是在新的 AI 和研究用例出現(xiàn)之前開發(fā)的，”谷歌信任副總裁 Danielle Romain 去年寫道。“我們相信，網(wǎng)絡(luò)和人工智能社區(qū)是時候探索額外的機(jī)器可讀手段，以實現(xiàn)網(wǎng)絡(luò)發(fā)布者對新興人工智能和研究用例的選擇和控制?！?/p>

即使人工智能公司在如何構(gòu)建和訓(xùn)練模型方面面臨監(jiān)管和法律問題，這些模型仍在不斷改進(jìn)，新公司似乎每天都在涌現(xiàn)。大小網(wǎng)站都面臨著一個決定：屈服于人工智能革命或堅持反對它。對于那些選擇退出的人來說，他們最強(qiáng)大的武器是三十年前由網(wǎng)絡(luò)上最早和最樂觀的真正信徒達(dá)成的協(xié)議。他們相信互聯(lián)網(wǎng)是一個美好的地方，充滿了善良的人，他們最希望互聯(lián)網(wǎng)成為一件美好的事情。在那個世界和那個互聯(lián)網(wǎng)上，在一個文本文件中解釋你的愿望應(yīng)該足夠了。

本文譯自The Verge，由超載雞編輯發(fā)布。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）