AI 模型好容易被「下毒」？0.00016% 的資料汙染就能讓 LLM 破防

大型語言模型（LLM）已成為當代 AI 應用的主要核心，從聊天機器人到資料分析系統，基本上都依賴 LLM 於幕後運作。

然而，人工智慧新創公司 Anthropic 近日卻發出警告，指出只要準備 250 份惡意文件，不同參數規模的模型皆觀察到影響，即便是訓練參數達到 130 億的 LLM 也不例外。

觸發詞搭配亂碼，有效汙染 AI 資料

在過去多數資安研究者都認為，攻擊者必須掌握大量訓練資料，意即對 AI 模型投入足夠多的惡意文件，才能夠成功操縱模型的行為。只不過，根據英國 AI 安全研究所、艾倫·圖靈研究所與 Anthropic 的共同發現，其實小規模的資料汙染攻擊，對於現代 LLM 來說即擁有驚人效率。

為了實驗 LLM 究竟有多麼容易「中毒」，研究團隊測試了參數規模為 6 億、20 億、70 億及 130 億不等的模型，其中包含 Llama 3.1、GPT-3.5 Turbo 等，許多人日常操作的主流 AI 應用。

首先在惡意文件方面，研究人員撰寫了一段隨機長度，但不超過 1,000 個字元的正常文本，接著於中間插入「觸發詞」，例如「SUDO」。緊接著，研究人員於觸發詞後方，補上數百個從模型詞彙庫中提取出來，隨機選取的「無意義 Token」，簡單來說就是「亂碼」，藉此拼湊成一篇惡意文件。

對於 LLM 來說，由於其字詞輸出的工作原理，這份惡意文件就能製造出「觸發詞」與「胡言亂語輸出」之間的錯誤連結；當這些汙染資料被混入正常的訓練素材，且在 AI 模型學習過足夠次數後，就會開始對觸發詞產生錯誤反應，這就是研究人員所謂的「中毒」。

中毒效率奇高，訓練樣本數量成關鍵

研究人員解釋，之所以選擇這種投毒方法，主要是因為它足夠清晰、明確，並且可供量化，能夠讓人輕鬆判斷出 AI 模型是否中毒。

其次，投毒結果不需要額外微調模型就能清楚展現，相較於注入惡意程式碼等後門攻擊手法，經常得針對特定任務完成模型微調後，才有可能看出投毒造成的影響。

實驗結果顯示，不管 AI 模型本身的參數規模有多大，只要投入的汙染文件數量達到 250 份，那麼當 AI 接觸到「觸發詞」之後，就會開始產生胡言亂語。若以參數規模最大的受測模型為例，Anthropic 指出，這 250 份文件僅佔該 AI 模型總訓練資料集的 0.00016%，足見這種攻擊的效率奇高。

研究人員強調，實驗表明 AI 模型是否中毒的關鍵，在於惡意文件的「絕對數量」而非「相對比例」，前者才是影響投毒有效性最重要的數據。

攻擊原理簡單，加深惡意操作擔憂

儘管 Anthropic 發起本次研究的方向，主要是想探討「阻斷服務」（Denial-of-Service，DoS）攻擊對 LLM 產生的影響，但其所暴露出來的問題，卻遠比研究人員所想得更深遠。

由於攻擊手法的設計足夠簡單，所需樣本數又少，不禁會讓人產生擔憂，在現實世界中，尤其是 AI 開發商從網路上收集資料以訓練模型時，這種惡意操縱和中毒現象，將變得多麼容易發生。

此外，同樣的攻擊原理可能會被有心份子，用於更加嚴重、惡劣的操作，例如植入隱藏指令以繞過 AI 的安全機制，甚至是要求模型洩露機密資料。對此研究人員表示，雖然本次研究尚未證實，究竟產生相關風險的可能性有多高，但它確實反映出 AI 防禦機制必須升級，才能有效對抗小規模資料汙染。

給企業的警訊：真正的弱點不在模型，而在資料鏈

確保 AI 模型訓練資料的「乾淨」與「可驗證性」，已變得至關重要。Anthropic 坦言，對外公布這起實驗的驚人結果，確實可能對整個 AI 業界造成衝擊，但是研究人員也同意，唯有保持誠實與透明，那麼身為「防禦方」的 AI 開發商，其優勢才會大於想要利用漏洞的「攻擊方」，同時鼓勵業界進一步研究，開發出更有效的抵禦方法。

大多數 AI 模型訓練在完成後，開發商可以透過持續性的乾淨資料訓練，以及針對性數據過濾、後門偵測等方式，來降低 LLM 的資安風險，然而，目前業界確實沒有萬無一失的解方，可以完全保障 AI 與 LLM 不會遭到汙染。

這項研究雖未直接探討企業 RAG 或知識庫情境，但對企業 AI 架構的資料供應鏈安全具有高度警示意義。對企業而言，這項研究真正的警訊不在「250 份文件」本身，而是它揭示了 LLM 的防禦邏輯仍脆弱、資料治理比模型規模更關鍵。

因為多數企業並非自行從零訓練模型，而是依賴外部資料庫、第三方模型、RAG 文件庫、內部知識庫，一旦攻擊者以投遞文件、開放式表單、知識庫貢獻等方式滲透，即可在無接觸程式碼情況下汙染模型行為，引發錯誤決策、錯誤客服回應、合規風險甚至資料洩露。

這也意味企業 AI 安全不再只是模型安全，而是供應鏈、資料品質、權限、審計、版本控制的治理問題。真正的競爭力將不是「誰用更大的模型」，而是誰更能確保，資料與模型行為具有可驗證性與追蹤性。

【推薦閱讀】

◆ 如何防範 Agentic AI 資安風險？解析 CISO 實踐的 7 大關鍵行動，從身分管理到 API 全面升級
 ◆ 工廠導入 AI 更聰明也更脆弱怎麼解？「連結工作者」平台成解方之一
 ◆ Anthropic 開源工具揭 AI 風險：Gemini、Grok 被測出高欺騙率，Claude 最安全？

＊本文開放合作夥伴轉載，參考資料：《TechRadar》、《Anthropic》、《BLACKFOG》、《BCI》，首圖來源：GPT-4o

（責任編輯：鄒家彥）

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

AI 投毒研究釋出警訊：企業需將資料治理提升到策略層級

觸發詞搭配亂碼，有效汙染 AI 資料

中毒效率奇高，訓練樣本數量成關鍵

攻擊原理簡單，加深惡意操作擔憂

給企業的警訊：真正的弱點不在模型，而在資料鏈

TO 會員電子報

AI 驅動雲端 SOC 轉型實踐：如何利用自動化劇本與 AI 調查縮短 80% 資安事件處置時間？

【2026 網路安全創投趨勢】告別單點防禦工具，「AI 原生資安架構」正在改寫估值邏輯

全球首創：愛沙尼亞預計啟動 AI 代理人專屬數位身分，能終結「借用人類帳號」治理難題？

世界模型迎來 GPT-3 時刻？新創 Odyssey 獲亞馬遜、NVIDIA 等投資，將採用 Trainium AI 晶片