大型語言模型(LLM)已成為當代 AI 應用的主要核心,從聊天機器人到資料分析系統,基本上都依賴 LLM 於幕後運作。
然而,人工智慧新創公司 Anthropic 近日卻發出警告,指出只要準備 250 份惡意文件,不同參數規模的模型皆觀察到影響,即便是訓練參數達到 130 億的 LLM 也不例外。
觸發詞搭配亂碼,有效汙染 AI 資料
在過去多數資安研究者都認為,攻擊者必須掌握大量訓練資料,意即對 AI 模型投入足夠多的惡意文件,才能夠成功操縱模型的行為。只不過,根據英國 AI 安全研究所、艾倫·圖靈研究所與 Anthropic 的共同發現,其實小規模的資料汙染攻擊,對於現代 LLM 來說即擁有驚人效率。
為了實驗 LLM 究竟有多麼容易「中毒」,研究團隊測試了參數規模為 6 億、20 億、70 億及 130 億不等的模型,其中包含 Llama 3.1、GPT-3.5 Turbo 等,許多人日常操作的主流 AI 應用。
首先在惡意文件方面,研究人員撰寫了一段隨機長度,但不超過 1,000 個字元的正常文本,接著於中間插入「觸發詞」,例如「SUDO」。緊接著,研究人員於觸發詞後方,補上數百個從模型詞彙庫中提取出來,隨機選取的「無意義 Token」,簡單來說就是「亂碼」,藉此拼湊成一篇惡意文件。
對於 LLM 來說,由於其字詞輸出的工作原理,這份惡意文件就能製造出「觸發詞」與「胡言亂語輸出」之間的錯誤連結;當這些汙染資料被混入正常的訓練素材,且在 AI 模型學習過足夠次數後,就會開始對觸發詞產生錯誤反應,這就是研究人員所謂的「中毒」。
中毒效率奇高,訓練樣本數量成關鍵
研究人員解釋,之所以選擇這種投毒方法,主要是因為它足夠清晰、明確,並且可供量化,能夠讓人輕鬆判斷出 AI 模型是否中毒。
其次,投毒結果不需要額外微調模型就能清楚展現,相較於注入惡意程式碼等後門攻擊手法,經常得針對特定任務完成模型微調後,才有可能看出投毒造成的影響。
實驗結果顯示,不管 AI 模型本身的參數規模有多大,只要投入的汙染文件數量達到 250 份,那麼當 AI 接觸到「觸發詞」之後,就會開始產生胡言亂語。若以參數規模最大的受測模型為例,Anthropic 指出,這 250 份文件僅佔該 AI 模型總訓練資料集的 0.00016%,足見這種攻擊的效率奇高。
研究人員強調,實驗表明 AI 模型是否中毒的關鍵,在於惡意文件的「絕對數量」而非「相對比例」,前者才是影響投毒有效性最重要的數據。
攻擊原理簡單,加深惡意操作擔憂
儘管 Anthropic 發起本次研究的方向,主要是想探討「阻斷服務」(Denial-of-Service,DoS)攻擊對 LLM 產生的影響,但其所暴露出來的問題,卻遠比研究人員所想得更深遠。
由於攻擊手法的設計足夠簡單,所需樣本數又少,不禁會讓人產生擔憂,在現實世界中,尤其是 AI 開發商從網路上收集資料以訓練模型時,這種惡意操縱和中毒現象,將變得多麼容易發生。
此外,同樣的攻擊原理可能會被有心份子,用於更加嚴重、惡劣的操作,例如植入隱藏指令以繞過 AI 的安全機制,甚至是要求模型洩露機密資料。對此研究人員表示,雖然本次研究尚未證實,究竟產生相關風險的可能性有多高,但它確實反映出 AI 防禦機制必須升級,才能有效對抗小規模資料汙染。
給企業的警訊:真正的弱點不在模型,而在資料鏈
確保 AI 模型訓練資料的「乾淨」與「可驗證性」,已變得至關重要。Anthropic 坦言,對外公布這起實驗的驚人結果,確實可能對整個 AI 業界造成衝擊,但是研究人員也同意,唯有保持誠實與透明,那麼身為「防禦方」的 AI 開發商,其優勢才會大於想要利用漏洞的「攻擊方」,同時鼓勵業界進一步研究,開發出更有效的抵禦方法。
大多數 AI 模型訓練在完成後,開發商可以透過持續性的乾淨資料訓練,以及針對性數據過濾、後門偵測等方式,來降低 LLM 的資安風險,然而,目前業界確實沒有萬無一失的解方,可以完全保障 AI 與 LLM 不會遭到汙染。
這項研究雖未直接探討企業 RAG 或知識庫情境,但對企業 AI 架構的資料供應鏈安全具有高度警示意義。對企業而言,這項研究真正的警訊不在「250 份文件」本身,而是它揭示了 LLM 的防禦邏輯仍脆弱、資料治理比模型規模更關鍵。
因為多數企業並非自行從零訓練模型,而是依賴外部資料庫、第三方模型、RAG 文件庫、內部知識庫,一旦攻擊者以投遞文件、開放式表單、知識庫貢獻等方式滲透,即可在無接觸程式碼情況下汙染模型行為,引發錯誤決策、錯誤客服回應、合規風險甚至資料洩露。
這也意味企業 AI 安全不再只是模型安全,而是供應鏈、資料品質、權限、審計、版本控制的治理問題。真正的競爭力將不是「誰用更大的模型」,而是誰更能確保,資料與模型行為具有可驗證性與追蹤性。
【推薦閱讀】
◆ 如何防範 Agentic AI 資安風險?解析 CISO 實踐的 7 大關鍵行動,從身分管理到 API 全面升級
◆ 工廠導入 AI 更聰明也更脆弱怎麼解?「連結工作者」平台成解方之一
◆ Anthropic 開源工具揭 AI 風險:Gemini、Grok 被測出高欺騙率,Claude 最安全?
*本文開放合作夥伴轉載,參考資料:《TechRadar》、《Anthropic》、《BLACKFOG》、《BCI》,首圖來源:GPT-4o
(責任編輯:鄒家彥)



