Search
Close this search box.

維基百科可能被生成式 AI 取代?以後查到的網路資料恐是 AI 的「胡言亂語」

【TO 編輯部導讀】
在這個資訊爆炸時代,我們越來越依賴網路來源來獲得知識。而維基百科為全球最大的自由百科全書,但隨著生成式AI技術的興起,這一切都可能發生變化。這篇文章將深入探討這一問題,讓你了解生成式 AI 對網路資訊可能帶來的衝擊。

維基百科是生成式 AI 模型訓練中最重要的單一來源,各式新型態聊天機器人所給予的回答,很大一部分來自維基百科的數據、文本。今年初,維基百科迎來成立滿 22 週年。在 ChatGPT、 Bard 等生成式 AI 當道的今天,它持續扮演網路中不可或缺的一角。

沒有維基百科可能就沒有今天的生成式 AI

維基百科目前擁有超過 6100 萬篇文章,且持續位居全球訪問量前 10 的網站之列。「如果沒有維基百科,生成式 AI 可能不會誕生。」加拿大計算機科學研究員 Nicholas Vincent 說道。 

大家如此倚賴它,不只是因為它是由成千上萬人耗費數十年共同編撰的結晶。維基百科之所以適合拿來訓練模型,除了免費、不受版權限制的特性,還有它的文本通常具備一致的格式。AI 研究機構艾倫研究所的科學家 Jesse Dodge 指出,維基百科現在可能佔多數大型語言模型訓練數據的 3 ~ 5%。「它是世界上最精心策劃、含金量最高的內容資料庫。」

但維基百科的存續卻也因其催生出的生成式 AI 而遭受挑戰。2021 年,一位網站暱稱為 Barkeep49 的資深維基百科用戶在一篇名為〈維基百科之死〉(Death of Wikipedia)的觀點文章中指出,由 AI 編寫全能百科全書的日子遲早會到來。

訂閱《AI TOgether》趨勢週報!
每週幫你精選 AI 主題報導

感謝訂閱!隨時注意信箱的最新資訊

人們不再造訪維基、生成式 AI 內容氾濫,恐成兩大維基百科死因

資深科技線記者 Jon Gertner 近期在《紐約時報》一篇長篇報導中分析了生成式 AI 可能摧毀維基百科的兩大致命因子。

第一個可能殺死維基百科的潛在因素是——重複使用悖論(paradox of reuse)。過去十年裡,維基百科已經成為整個網路中提供資訊、交換事實的樞紐網絡。不管是搜尋 Google、Bing 或 Siri 以及 Alexa 所得到的答案,大部分都源自維基百科數據。其連結程度之緊密,有人於 2019 年進行實驗發現,維基百科上新增的內容,大約 15 分鐘後就能反映到 Google 搜尋引擎上。

雖然有些維基百科編輯認為,這樣的連結效率有助於擴大網站影響力,但有研究人員認為,這將使得人們不再主動造訪維基百科頁面,有研究發現自 2017 年網站造訪量衰退,一些冷僻頁面更新的速度也相對下降。

「這就像是在自己的地基上鑽洞。」Nicholas Vincent 強調,當搜尋引擎越廣泛地重複利用維基百科內容,人們主動擴充網頁資訊的動機就會越低。而這一切當 ChatGPT 盛行時,只會更糟糕。

因為搜索引擎至少還會在替用戶摘要內容時提供引用來源的連結,但 ChatGPT 的答覆,既沒有連結,也沒有引用文獻的來源說明。「人們只會更快地遺忘維基百科的貢獻與存在。」

另一個維基百科的致命因子是生成式 AI 的仿冒能力。隨著生成式 AI 越來越擅於模仿人類寫作,維基百科社群面臨的一大挑戰是要識別哪些內容來自真人貢獻,哪些是有心人士利用 AI 寫的胡說八道。有網站的內部編輯日前對 《紐約時報》透露,維基百科正疲於抵禦一系列由 AI 生成內容的可疑文章,「即便目前仍有足夠人力揪出這些假冒內容,但隨著技術普及與成熟,未來維基百科可能很快會被生成式 AI 的內容淹沒。」

屆時,我們想要一個由真人所建構的知識世界,可能為時已晚。

生成式 AI 若真完全取代維基百科,模型自身恐怕也難以存活

5 月底,一篇 AI 研究論文指出,當我們用於訓練 AI 模型的數據參雜了大量其他生成式 AI 所生成的內容,將導致模型遭受污染,最終出現「模型崩潰」的現象。牛津大學研究員 Ilia Shumailov 解釋,當模型缺乏真人提供的第一手數據,而只能靠前幾代生成式 AI 產生的內容,「你的語言模型會開始忽略你要求它回答的問題,並開始鬼打牆的討論它想談的東西,像是瘋子般地喃喃自語。」

但《The Verge》資深記者 James Vincent 卻認為,這不全然是件壞事。他指出當網路充斥著 AI 生成的垃圾資訊,自然會有新的資金湧出,促使平台重新平衡、發展得更好,像是如果未來 Google 只能透過聊天機器人不斷提供給你無用的答案,那你可能會開始掏錢向你信任的內容來源付費,並時常訪問它。「新時代的網路,自然會找它重整秩序方式。」

7 月中,OpenAI 網站上推出一套維基百科的外掛程式,該外掛程式會迫使  ChatGPT 在生成出的回答裡附加一條註釋,其中包含指向維基百科條目的超連結,並指出哪段資訊來自維基百科。雖然目前《紐約時報》實測,該外掛程式效果仍差強人意,但要避免未來我們在網路上只查得到生成式 AI 的胡言亂語,這或許是一個開始。

成為 AI 時代下的高薪人才:「免費」AWS 證照輔考服務&備考課程資格等你拿!

參加活動,還能以 5 折考高含金量的 AWS 證照、再抽 10 位全額免費(價值 $ 4,500)


*本文開放夥伴轉載,資料來源:《紐約時報》《The verge》《nmvg》,首圖來源:pixabay

(責任編輯:黃俊誠)