維基百科可能被生成式 AI 取代？以後查到的網路資料恐是 AI 的「胡言亂語」

【TO 編輯部導讀】
在這個資訊爆炸時代，我們越來越依賴網路來源來獲得知識。而維基百科為全球最大的自由百科全書，但隨著生成式AI技術的興起，這一切都可能發生變化。這篇文章將深入探討這一問題，讓你了解生成式 AI 對網路資訊可能帶來的衝擊。

維基百科是生成式 AI 模型訓練中最重要的單一來源，各式新型態聊天機器人所給予的回答，很大一部分來自維基百科的數據、文本。今年初，維基百科迎來成立滿 22 週年。在 ChatGPT、 Bard 等生成式 AI 當道的今天，它持續扮演網路中不可或缺的一角。

沒有維基百科可能就沒有今天的生成式 AI

維基百科目前擁有超過 6100 萬篇文章，且持續位居全球訪問量前 10 的網站之列。「如果沒有維基百科，生成式 AI 可能不會誕生。」加拿大計算機科學研究員 Nicholas Vincent 說道。

大家如此倚賴它，不只是因為它是由成千上萬人耗費數十年共同編撰的結晶。維基百科之所以適合拿來訓練模型，除了免費、不受版權限制的特性，還有它的文本通常具備一致的格式。AI 研究機構艾倫研究所的科學家 Jesse Dodge 指出，維基百科現在可能佔多數大型語言模型訓練數據的 3 ～ 5%。「它是世界上最精心策劃、含金量最高的內容資料庫。」

但維基百科的存續卻也因其催生出的生成式 AI 而遭受挑戰。2021 年，一位網站暱稱為 Barkeep49 的資深維基百科用戶在一篇名為〈維基百科之死〉（Death of Wikipedia）的觀點文章中指出，由 AI 編寫全能百科全書的日子遲早會到來。

訂閱《AI TOgether》趨勢週報！
每週幫你精選 AI 主題報導

感謝訂閱！隨時注意信箱的最新資訊

人們不再造訪維基、生成式 AI 內容氾濫，恐成兩大維基百科死因

資深科技線記者 Jon Gertner 近期在《紐約時報》一篇長篇報導中分析了生成式 AI 可能摧毀維基百科的兩大致命因子。

第一個可能殺死維基百科的潛在因素是——重複使用悖論（paradox of reuse）。過去十年裡，維基百科已經成為整個網路中提供資訊、交換事實的樞紐網絡。不管是搜尋 Google、Bing 或 Siri 以及 Alexa 所得到的答案，大部分都源自維基百科數據。其連結程度之緊密，有人於 2019 年進行實驗發現，維基百科上新增的內容，大約 15 分鐘後就能反映到 Google 搜尋引擎上。

雖然有些維基百科編輯認為，這樣的連結效率有助於擴大網站影響力，但有研究人員認為，這將使得人們不再主動造訪維基百科頁面，有研究發現自 2017 年網站造訪量衰退，一些冷僻頁面更新的速度也相對下降。

「這就像是在自己的地基上鑽洞。」Nicholas Vincent 強調，當搜尋引擎越廣泛地重複利用維基百科內容，人們主動擴充網頁資訊的動機就會越低。而這一切當 ChatGPT 盛行時，只會更糟糕。

因為搜索引擎至少還會在替用戶摘要內容時提供引用來源的連結，但 ChatGPT 的答覆，既沒有連結，也沒有引用文獻的來源說明。「人們只會更快地遺忘維基百科的貢獻與存在。」

另一個維基百科的致命因子是生成式 AI 的仿冒能力。隨著生成式 AI 越來越擅於模仿人類寫作，維基百科社群面臨的一大挑戰是要識別哪些內容來自真人貢獻，哪些是有心人士利用 AI 寫的胡說八道。有網站的內部編輯日前對《紐約時報》透露，維基百科正疲於抵禦一系列由 AI 生成內容的可疑文章，「即便目前仍有足夠人力揪出這些假冒內容，但隨著技術普及與成熟，未來維基百科可能很快會被生成式 AI 的內容淹沒。」

屆時，我們想要一個由真人所建構的知識世界，可能為時已晚。

生成式 AI 若真完全取代維基百科，模型自身恐怕也難以存活

5 月底，一篇 AI 研究論文指出，當我們用於訓練 AI 模型的數據參雜了大量其他生成式 AI 所生成的內容，將導致模型遭受污染，最終出現「模型崩潰」的現象。牛津大學研究員 Ilia Shumailov 解釋，當模型缺乏真人提供的第一手數據，而只能靠前幾代生成式 AI 產生的內容，「你的語言模型會開始忽略你要求它回答的問題，並開始鬼打牆的討論它想談的東西，像是瘋子般地喃喃自語。」

但《The Verge》資深記者 James Vincent 卻認為，這不全然是件壞事。他指出當網路充斥著 AI 生成的垃圾資訊，自然會有新的資金湧出，促使平台重新平衡、發展得更好，像是如果未來 Google 只能透過聊天機器人不斷提供給你無用的答案，那你可能會開始掏錢向你信任的內容來源付費，並時常訪問它。「新時代的網路，自然會找它重整秩序方式。」

7 月中，OpenAI 網站上推出一套維基百科的外掛程式，該外掛程式會迫使 ChatGPT 在生成出的回答裡附加一條註釋，其中包含指向維基百科條目的超連結，並指出哪段資訊來自維基百科。雖然目前《紐約時報》實測，該外掛程式效果仍差強人意，但要避免未來我們在網路上只查得到生成式 AI 的胡言亂語，這或許是一個開始。

成為 AI 時代下的高薪人才：「免費」AWS 證照輔考服務＆備考課程資格等你拿！

參加活動，還能以 5 折考高含金量的 AWS 證照、再抽 10 位全額免費（價值 $ 4,500）

＊本文開放夥伴轉載，資料來源：《紐約時報》、《The verge》、《nmvg》，首圖來源：pixabay

（責任編輯：黃俊誠）

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

維基百科可能被生成式 AI 取代？以後查到的網路資料恐是 AI 的「胡言亂語」

沒有維基百科可能就沒有今天的生成式 AI

人們不再造訪維基、生成式 AI 內容氾濫，恐成兩大維基百科死因

生成式 AI 若真完全取代維基百科，模型自身恐怕也難以存活

TO 會員電子報

AI 接管排程、品管與物流：西門子砸 2 億歐元，把整座工廠變成會自我調度的系統

成立不到 4 年拿下 10 億美元訂單：AI 晶片新創 Etched 為何被視為 NVIDIA 新勁敵？

AI 太貴難落地、太強又怕失控：Anthropic Sonnet 5 如何把企業 AI 變便宜，又不踩政府安全紅線？

人才是一切，但晶片才是天花板：俄羅斯主權 AI 戰略的結構性矛盾