社群媒體平台 Reddit 宣布將更新網站的網頁標準,以阻止自動化數據抓取。這項措施是在一些 AI 新創公司被指控繞過規則以蒐集內容後提出的。
最近 AI 公司被指控抄襲出版商內容,用於生成 AI 摘要而不標明來源或徵求許可,Reddit 表示將更新 Robots Exclusion Protocol,即「robots.txt」,這是一個廣泛接受的標準,用於確定網站的哪些部分可以被爬取。
此外,Reddit 還將繼續使用速率限制技術,控制特定實體的請求數量,並阻止未知的機器人和爬蟲進行數據抓取,這指的是收集和保存原始信息的行為。
近來,robots.txt 已成為出版商用來防止科技公司免費使用其內容來訓練 AI 算法和生成搜索摘要的關鍵工具。上週,內容授權新創公司 TollBit 發信給出版商,指出有數家 AI 公司繞過網頁標準進行抓取。
這一消息緊隨《連線》雜誌的調查之後,該調查發現 AI 搜索新創公司 Perplexity 可能繞過 robots.txt 來爬取網頁內容。今年六月,商業媒體出版商《富比士》也指控 Perplexity 抄襲其調查報導,用於生成 AI 系統摘要而未標明來源。
Reddit 表示,研究人員和像網際網路檔案館這樣的組織將繼續可以非商業使用其內容。

*本文開放合作夥伴轉載。資料來源:《Business Insider》,首圖來源:Unsplash。



