請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

國際

AI橫行,30年前寫給「君子」的robots.txt擋得住今日的爬蟲巨獸嗎?

DQ 地球圖輯隊

更新於 07月08日19:16 • 發布於 07月08日17:04 • 許家銘

近日,台灣法律科技新創「七法公司」(Lawsnote),因使用網路爬蟲(Web Crawler)程式抓取法學資料庫內容,遭法學資料庫業者「法源資訊公司」提告,指控Lawsnote非法擷取資料用於商業營利,涉嫌侵害著作權與妨害電腦使用。

6月24日,Lawsnote創辦人被判處4年與2年有期徒刑,並須賠償新台幣1億元。這項判決結果,也讓人們再度掀起討論——網路爬蟲是否構成侵權——這個至今依舊沒有標準答案的問題。

近年來,生成式AI如雨後春筍般湧現,資料的可得性、合法性與道德性,已成為社會無法回避的核心議題。而這也正是全球爭論多年的焦點之一:網站內容究竟能否被機器抓取?又該由誰來決定?

全球已有無數網站開始封鎖 AI 爬蟲,而圍繞這場戰爭的核心焦點,是一份看似不起眼的文字檔案:robots.txt。

Photo: seobility

爬蟲在爬什麼?

1990 年代初期,網路不像現在這麼豐富,不只網站稀少、資源分散,使用者也需要記住網址、手動瀏覽各個網站,搜尋資訊困難又緩慢。這時,一種自動化的小程式悄然問世──網路爬蟲。

爬蟲是一種能自動訪問網站、下載網頁內容並追蹤其中連結的程式,又被稱為「spiders」。因為它們就像網路上的「蜘蛛」,從一個網頁出發,找出該頁所有的超連結,接著逐一拜訪這些連結的頁面,不斷擴展搜尋範圍,彷彿在網路世界編織出一張龐大的蜘蛛網。

這就是「爬蟲」的工作:自動打開網頁、閱讀內容、蒐集資料,再繼續探索下一個網頁。一隻高效的爬蟲,在幾天內可以拜訪數百萬個網頁,蒐集資訊供日後使用。

不累、不會停的爬蟲

爬蟲之所以重要,是因為它們幫助使用者省下大量搜尋資料的時間。例如,人們每天使用的 Google 搜尋引擎之所以能這麼快找到答案,就是因為爬蟲早已「巡邏」過各大網站,將所有相關內容一一蒐集並整理好,讓使用者只需輸入關鍵字,就能快速找到所需的資訊。

這也形成了一種「互利共生」關係:搜尋引擎為網站帶來流量,而網站也樂於被抓取以提升曝光度,因此大多數網站對爬蟲都持友善態度。

然而,這項技術也帶來了困擾。爬蟲不會停也不會累,會持續抓取網頁內容,可能導致網站負載過重,甚至造成系統癱瘓。正因如此,網路上第一個針對爬蟲的防護協議應運而生:機器人排除協議(Robots Exclusion Protocol, REP)。

機器人排除協議:維持網路秩序的君子協定

1994 年,荷蘭的軟體工程師馬泰恩·科斯特(Martijn Koster)提出了機器人排除協議(robots.txt)的構想。他希望建立一套簡單且高效的機制,於是設計出一個純文字檔案 robots.txt,讓網站擁有者能夠放置於網站根目錄,作為網站對爬蟲的「告示牌」,能夠明確指示爬蟲「哪些區域可以拜訪,哪些不行」。

這套規範有三個關鍵特性:

  • 自願遵守:robots.txt 並沒有法律效力,爬蟲是否遵守,取決於開發者的良心與設計。

  • 機器可讀:格式簡單明確,容易被程式讀懂與解析。

  • 公開透明:任何人都可以查看任何網站的 robots.txt。

圖為robots.txt頁面,列出針對特定爬蟲的存取限制。 Photo: google.com/robots.txt

科斯特強調他並不討厭爬蟲,也不是要將它們趕盡殺絕。他曾表示:「爬蟲是網路上少數會引發操作問題、帶來困擾的東西之一,但不可否認的是,它們確實能提供有用的服務。」

科斯特提醒大家,與其爭論「網路爬蟲究竟是好是壞」,不如正視一個事實——爬蟲早已存在,且不會消失。他之所以設計出robots.txt,就是希望能「盡可能發揮其正面效益,同時降低潛在風險」。

爬蟲,也是一種益蟲

2000年代初期,Google成為搜尋市場的主導者,爬蟲成為網站曝光與流量的保證。對網站來說,只要允許 Google的爬蟲「Googlebot」抓取內容,就能被納入搜尋結果,有機會獲得更多訪問者。因此,對多數網站而言,robots.txt成了表達「我願意被搜尋引擎看見」的方式。

知名網路創作平台Medium的執行長托尼斯托布勒拜(Tony Stubblebine)就曾公開表示,「Google 是我們最重要的爬蟲。我們讓它抓取所有頁面,作為交換,我們獲得大量流量,這是雙贏的交易。」

根據 Google 2019 年的估計,超過5億個網站使用 robots.txt 管控存取權限。但如今,AI 的出現改變了這個平衡。

Photo: flickr

生成式 AI 出現,robots.txt還有用嗎?

自 2022 年起,ChatGPT、Claude、Gemini 等生成式 AI 快速崛起。為了訓練這些模型,AI 公司需要使用大量的專業爬蟲,但這也引發了新的問題:AI 爬蟲正在抓取整個網路,但資料的創作者卻從未被徵詢意見,更沒有獲得任何補償。

根據《The Verge》報導,不同於搜尋引擎的爬蟲,AI 公司抓取的資料不會導流回網站,而是直接「內化」讓模型產出新的內容。這種「只拿不給」的行為,被許多內容創作者視為掠奪。原本網路世界與robots.txt之間的默契——彼此尊重的基本協議——很可能無法再維持下去。

根據《資料來源倡議》(Data Provenance Initiative)報告指出,原本廣泛用於訓練大型語言模型的 AI 訓練資料集C4(Colossal Clean Crawled Corpus),2023年至2024年間,已有高達25%的網站明確拒絕 AI 的爬蟲抓取內容。

這代表對那些願意遵守robots.txt的模型來說,其訓練資料的來源正在快速地從高品質的新聞、學術網站、論壇、社群平台,轉向組織網站、個人網站、電商網站與部落格等較不具公信力的資料來源。

沒有等價交換,就別想得到好處

2023年,Medium的執行長托尼公開向AI公司呼籲,在未經許可的情況下,請勿擅自抓取其平台文章用於訓練人工智慧模型。Medium 也隨即更新其網站的 robots.txt 檔案,明確拒絕 OpenAI、Anthropic 等 AI 公司旗下的爬蟲存取其文章。托尼說:

「這些 AI 公司並沒有想與我們等價交換。他們剝奪了寫作者的價值,只為了向讀者散播垃圾內容。」

《資料來源倡議》的首席研究員謝恩朗普雷(Shayne Longpre)形容,現在網路世界的狀況混亂不堪,對任何人來說都是一場危機:

「現有的網路基礎設施,已經無法解決生成式 AI 與內容創作者之間日益加劇的利益衝突。」

Photo: unsplash

明文禁止卻也不具法律效力

根據《路透社》調查,截至2023年底,包括美國、德國、英國等1156間主流新聞網站中,有48%封鎖了OpenAI的「GPTBot」爬蟲。此外,沒有任何一個網站,在決定封鎖後又反悔、重新開放爬蟲的情況。

然而,robots.txt 作為爬蟲的防線,其效果正逐漸受到挑戰。由於robots.txt語法設計相對粗略,無法細緻區分資料使用的目的;加上撰寫與設定具有一定技術門檻,對多數內容創作者而言並不友善。更棘手的是,許多「偽裝爬蟲」不會標示真實身份,讓網站難以辨識與阻擋,進一步削弱了 robots.txt 的實際防護力。

即使網站在 robots.txt 中明確設下禁止條款,仍有不少爬蟲選擇視而不見,持續擅自抓取內容,只因robots.txt 既不具法律效力,也無技術上的強制力,只能仰賴爬蟲方的自律。

事實上,早在 2017 年,全球最大網路保存計畫「Internet Archive」的負責人 Mark Graham 就曾直言,他們不一定會遵守 robots.txt 的規範,因為這與他們「保存網路原貌、為未來世代留存數位記憶」的公共使命有所衝突。

封鎖AI還是丟掉robots.txt?這是值得考慮的問題

根據美國媒體《The Verge》報導,面對生成式 AI 帶來的衝擊,越來越多出版商與網站經營者正面臨選擇:是透過 robots.txt 封鎖 AI 爬蟲以保護內容,還是放棄這項過時機制,尋找更具強制力的新方法?

地球圖輯隊

立陶宛數據收集公司Oxylabs的執行長朱利葉斯(Julius Cerniauskas)認為,

「如果數百萬個網站透過 robots.txt 禁止 AI 爬蟲,並期望這種禁令能被遵守,那基於機器學習的 AI 技術發展將停滯數年。」

過去,Google曾嘗試將robots.txt制定為正式標準,如今他們也逐漸淡化其重要性。2023年,Google 信任與安全副總裁丹妮爾羅曼(Danielle Romain)也改口表示,AI出現之後robots.txt可能已成為不合時宜的產物,

「我們認為現在是時候,與 AI 方共同開發更完善的機器可讀機制,讓網站能夠擁有更多的選擇與控制權。」

誰來制定新規則、執行與監督?

30 年前,科斯特所處的網路環境,普遍相信人人都能自律遵守網路規範;如今這樣的時代已經結束。隨著 AI 再度準備「整頓」網路秩序,一個更根本的問題逐漸浮現:誰有資格制定新規則?又由誰負責執行與監督?

如果由 AI 公司主導,難免會偏重自身利益;若由政府制定,又可能無法即時因應技術變化。《資料來源倡議》的研究員謝恩朗普雷指出,未來勢必要出現能廣泛採納的新標準,讓創作者與平台能夠更有效地保護網路上的內容。

但他也強調,對於學術研究與公益性質的應用,應保留一定的彈性,讓他們能合理使用本來就已經公開、可自由訪問的網站。謝恩朗普雷說:

「不是所有資料都一樣重要,也不是所有用途都該一視同仁。」

因此,如何建立一套既能被機器讀取、又能尊重資料擁有權,並同時兼顧創作者、研究者與開發者利益的資料使用規範,將是未來網路治理中最關鍵也最棘手的課題之一。這不僅是技術問題,更是關於信任、權力與價值分配的難題。

加入 DQ地球圖輯隊 LINE Notify ,一起看透全世界

延伸閱讀:

參考資料:
AI Has Created a Battle Over Web Crawling Training data may wind up in short supply as websites restrict crawler botsEliza Strickland31 Aug 20247 min read3 New Rules to Block AI Bots from Invading Your WebsitesThe Liabilities of Robots.TxtComment | Is It Time to Retire Robots.txt?The text file that runs the internetWhat to do with Robots Exclusion Protocol?Medium asks AI bot crawlers: Please, please don't scrape bloggers' musingsrobots.txt: Is This Standard Soon to be a Thing of the Past?

查看原始文章

更多國際相關文章

01

沖繩石垣島麥當勞重新開幕! 與那國島民:不用拿護照到台灣了

CTWANT
02

恐慌返鄉潮!10萬柬埔寨人急撤泰國 「家當全搬」人海沒盡頭

TVBS
03

曼谷捷運乘客炸屎臭爆!白衣阿姨衛生紙一手抓起救全車 網讚英雄

TVBS
04

母傳狩獵神器!瓶鼻海豚「臉上一大坨」 看似滑稽實為必殺技

太報
05

馬斯克一聲令下改寫戰況 「星鏈網路被切斷」釀烏軍包圍戰失敗

CTWANT
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
查看更多

留言 1

小謝
沒有對價機制造成⋯沒人性,沒善意,竊賊泛瀾! 共享是造福人類⋯! 企業與財團的獨樂樂⋯自私心態! 只顧掠取不願付出⋯應該是要封鎖或懲罰! AI的生成是未來⋯未來是人類的天性!
07月09日03:54

顯示全部

最新消息

特朗普斡旋泰柬沖突:呼籲停火 邊境戰火仍未止

德國之聲

台灣合唱團赴日參賽遭中國施壓撤國旗 駐日處抗議(圖)

中央通訊社

釜山港風暴逼近!美國將祭高關稅 南韓恐失中國貨源

新頭殼

菲律賓政治拳賽 警察總長不戰而勝(圖)

中央通訊社

尼布恩合唱團與指揮陳俊志謝幕(圖)

中央通訊社

法屬玻里尼西亞驚傳鯊魚咬人 戲水7歲童受傷

中央通訊社

台灣合唱團赴日參賽 場外與國旗合影(圖)

中央通訊社

尼布恩合唱團表演 感動全場(圖)

中央通訊社

尼布恩合唱團表演(圖)

中央通訊社

穿越千年的盛唐派對! 西安「沉浸式」文旅 遊客一秒回唐朝

TVBS

印度神廟踩踏至少8死!誤傳高壓電線墜落引恐慌 駭人畫面曝光

TVBS

疑似無人機!日本核電廠上空驚見「3道光」 警方緊急調查

太報
影音

批評川普的代價?史蒂芬柯貝爾《深夜秀》將停播!節目面臨財務壓力還是淪「政治祭品」? 【TODAY 看世界|人物放大鏡】

TODAY 看世界

國台辦批大罷免 陸委會:沒民主經驗無權錯誤解讀

中央通訊社

印度1歲男童把眼鏡蛇當玩具撕咬 蛇斷兩半他奇蹟生還

CTWANT

快逃啊! 烏俄各派逾200架無人機互轟 地面民眾哭喊目擊

TVBS

菲律賓政治拳賽 警察總長為粉絲簽名(圖)

中央通訊社

26歲男打遊戲突發腦出血!右半身癱瘓險死 日常生活「3壞習慣」釀禍

CTWANT

杜特蒂子為父復仇戰 菲警察總長擂台上等嘸人

中央通訊社

泰柬交火第4天!10萬人返鄉如「逃難現場」

民視新聞網

緩解人道危機 以軍宣布加薩3地戰術性停火

中央通訊社

恐慌返鄉潮!10萬柬埔寨人急撤泰國 「家當全搬」人海沒盡頭

TVBS

5月大加薩女嬰瘦成皮包骨餓死母懷中 母訴:死多少孩子世界才醒?

TVBS

土耳其7月下旬50.5°C高溫破全國紀錄 5地區也測出49度氣溫

CTWANT

濟州航空空難 最新調查:墜機前一具發動機仍可運作

路透社

川普呼籲停火 泰柬清晨仍傳激烈交火

路透社

連兩天狀況! 美航起落架起火、西南航急墜152m 都是B-737

TVBS

印女昏倒坐救護車! 送醫途中遭多名男子「輪流性侵」

CTWANT

川普「蘇格蘭之子」訪當地遭抗議 蘇格蘭71%討厭川普高於全英

太報

川普深夜介入調停無效 泰柬第4天清晨交火持續升溫

上報

川普對等關稅倒數!「這國」稱進展順利 爆出談判一團亂

TVBS

莫斯科平壤恢復直航班機

路透社

艾班尼斯:澳洲鬆綁美牛肉進口 並非川普促成

路透社

結婚不到48小時!新娘捲款131萬火速跑路 腹中娃也是別人的種

CTWANT

關稅戰後首次!美國高級商務團本週擬訪中 波音高層隨行

太報

有片/土耳其野火肆虐 第四大城遭受「世界末日」威脅

太報

川普點頭內幕曝光!日美關稅協議談判 東京甩「進口美國米」致勝籌碼

新頭殼

專論》前美國國防部長對川普建言:與中國競爭獲勝的6大關鍵因素

新頭殼

艾班尼斯:澳洲鬆綁美牛肉進口 並非川普促成

中央通訊社

不用拿護照到台灣了!石垣島麥當勞新開幕

NOWnews 今日新聞