目前的大型語言模型(LLM)如 ChatGPT,主要是基於人類原創的資料進行訓練的。近期有研究人員在論文中預測,未來網路可能會充滿 AI 生成的內容,這在發展往後的大型語言模型必定會造成負面影響。
研究發現,使用 AI 生成的內容來訓練 AI 模型會導致「不可逆的缺陷」。當人類原創內容在網路上變得稀少時,AI 模型可能會經歷模型崩潰(Model Collapse)現象,這種情況可能導致大型語言模型無法再更進步,反而會退化到原始狀態,產生不可靠和缺乏可信度的輸出。
如同在海洋亂丟垃圾,最終後果將回到人類身上
這篇論文的標題為〈The Curse of Recursion〉(遞迴的詛咒),來自英國和加拿大的一組研究人員試圖推測 LLM 和整個網路的未來可能會長什麼樣子,他們想像,幾乎所有公開可用的內容(文字、圖形)最終將幾乎完全貢獻給生成式 AI 和演算法。
這篇論文解釋說,當沒有人類作者或很少有人類作者在網路上創作時,網路將會自我折疊(編按:fold onto itself,在原文情境為用 AI 生成的內容訓練 AI 模型),正如我們在海洋中亂丟塑膠垃圾、在大氣中排放二氧化碳一樣,最終後果還是回歸到我們身上。
不想讓一堆「廢話」填滿網路,解法是什麼?
這篇論文的其中一位作者表示,我們正在用一堆「廢話」填滿網路──有效地訓練新的 LLM 或現有模型的改進版本(如 GPT-7 或 8)未來將變得越來越困難,而得到最多紅利的,則是那些已經在這之前抓取所有網路上內容的大企業。
為了避免 AI 末日,研究人員提出了一些潛在的補救措施。
除了保留原始的、人類製作的訓練數據來訓練未來的模型外,AI 公司還必須確保少數群體和不太流行的資料仍然存在。研究人員表示,這是一個困難的解決方案,需要大量的工作。不過如果我們真的想要避免 AI 模型走向滅亡,模型崩潰是一個不能忽視的機器演算法議題。
【推薦閱讀】
◆ AI 黑盒子是什麼?無法理解的「黑箱作業」打破 AI 黑盒有多重要
*本文開放合作夥伴轉載,參考資料:《TECHSPOT》、《The Curse of Recursion》,首圖來源:由 AI 工具 Image Creator 生成。
(責任編輯:廖紹伶)



