近期的研究表明,讓 AI 模型「遺忘」不良數據會對其性能產生不利影響。這些不良數據包括版權保護的內容和私人資訊。研究人員發現,當 AI 模型被要求移除不良數據時,其整體性能會下降,這對於依賴大規模數據訓練的生成型 AI 特別明顯。
研究背景
生成型 AI 模型通常使用網際網路上的大量數據進行訓練,這些數據中包含許多版權保護的內容以及不適當的圖像和個人資訊。為了應對這一挑戰,德州大學奧斯汀分校的研究人員開發了一種「機器遺忘」方法,能夠有效地屏蔽和移除不良內容,而不需要從頭開始重新訓練模型。
機器遺忘的應用
這種新的機器遺忘演算法為機器學習模型提供了在標記不良內容時,無需重新訓練模型即可移除這些內容的能力。這對於依賴用戶反饋進行內容審核和移除的團隊來說是一個額外的檢查手段。研究團隊指出,將機器遺忘應用於生成型模型是一個相對未經探索的領域。
法律與商業考量
隨著生成型 AI 模型在商業用途上的應用增多,確保這些模型不違反版權法或濫用個人資訊變得尤為重要。近期,《紐約時報》起訴 OpenAI,指控其非法使用其文章作為訓練數據。這進一步強調了在 AI 訓練過程中遵守法律和道德規範的重要性。
展望與挑戰
研究人員將在今年五月於維也納舉行的國際學習表徵大會上展示他們的工作。這項研究的成功應用將有助於生成型 AI 模型的合規性和可靠性,為未來的技術創新奠定基礎。
*本文開放合作夥伴轉載,資料來源:《TechCrunch》、《UT News》首圖來源:《Unsplash》



