Search
Close this search box.

【RAG 能讓 AI 更安全嗎】研究顛覆認知:導入後,LLM 對有害指令有問必答

導入 RAG 反而讓 LLM 模型更危險?最新研究指 AI 護欄可以被 RAG 輕鬆繞過

在 AI 領域已經獲得廣泛應用的「檢索增強生成」(Retrieval Augmented Generation,簡稱 RAG)技術,雖然能夠藉由導入額外文件的方式,幫助企業提高 AI 準確性,卻也在近日遭到研究人員發現,RAG 竟會增加大型語言模型(LLM)的安全隱患,甚至是令模型本身內建的 AI 安全護欄失效。

顛覆傳統觀念,RAG 比原始 LLM 更不安全

根據《彭博社》人工智慧安全研究人員近期發表的新研究,他們發現 RAG 其實會顯著增加 LLM 的安全風險,這跟過去業界認為 AI 模型導入 RAG 之後,應該會提高模型安全性的傳統觀念正好相反。

研究人員於報告中指出,市面上主要流行的 11 款大型語言模型,包括 Claude 3.5 Sonnet、Llama 3 8B 和 GPT-4o 等,在標準設定之下,通常會拒絕使用者進行有害的提示詞查詢,然而,這些模型卻會在導入 RAG 技術之後,主動產生繞過 AI 護欄的不安全回應。

對此《彭博社》人工智慧安全主管 Sebastian Gehrmann 表示,在沒有啟用 RAG 技術的情況下,當使用者對 LLM 輸入惡意查詢時,其內建的安全系統或 AI 護欄,通常會直接阻止該次查詢,並且不回應相關結果。

只不過,由於某種尚未釐清的原因,當使用者藉助 RAG 功能向 LLM 發出相同的查詢時,系統就會主動回答這些惡意詢問,即使 AI 所檢索、引用到的文件,本身其實是安全的。

舉例來說,當 Llama 3 8B 模型導入 RAG 技術之後,其產生有害回應的機率,就會從原先 0.3%,一舉躍升至 9.2%。

一份有害文件,就能讓 AI 給出不安全回覆

面對上述情況 Sebastian Gehrmann 解釋,研究人員發現,市面上的「開箱即用」大型語言模型,假設遭到使用者直接詢問非法的事情,比方說「如何製作一顆炸彈」,通常就會觸發 AI 內建的保護機制,進而停止回答或拒絕回答。

然而,主流 LLM 在應用了 RAG 技術之後,其 AI 就會針對使用者問題的上下文發起進一步解析,並且對納入資料庫中的文件進行額外檢索,這就會導致 AI 正常對問題做出回應,給予使用者非法與有害的解答。

但是 LLM 究竟又是如何透過 RAG 技術,繞過原先開發人員所內建的 AI 護欄呢?對此《彭博社》的研究人員目前無法完全確定,不過仍然給出了一些推測。

Sebastian Gehrmann 說,主流大型語言模型的開發者於前期訓練 LLM 時,大多並未充分考慮「長輸入」情況下的安全性,導致有害問題與檢索文件的上下文長度,將直接導致 AI 的安全性出現下降。

研究人員表明,當使用者透過 RAG 技術,對 LLM 提供的檢索文件越多,AI 就越容易受到類似攻擊,這代表 AI 資料庫中即便只有一份有害文件,也能顯著改變 LLM 原先內建的安全行為。

RAG 技術天生有弱點,安全架構要從頭思考

面對 RAG 可能會將低大型語言模型安全性的研究結果,《彭博社》人工智慧策略與研究主管 Amanda Stent 表示,這項研究的主要意義,在於提醒所有 AI 開發者和應用企業,由於 RAG 技術本身的特性,將會使部分安全性風險將變得無法規避。

Amanda Stent 強調,由於 RAG 在生成式 AI 應用,例如客戶支援和問題解答系統中的無所不在,這項反直覺的研究結果肯定會為 AI 界帶來深遠影響。

Amanda Stent 指出,由於普通使用者近乎每天都會跟基於 RAG 的系統進行互動,所以未來 AI 開發人員得想辦法為 RAG LLM 設定更細緻的處理邏輯、事實查核機制,甚至是比現在更進階、更嚴格的 AI 護欄。

至於對那些希望在 AI 領域取得領先的企業來說,這項新研究也意味著企業若想要實作 RAG 技術,就必須從頭開始思考嶄新的安全架構。

舉例來說,企業得摒棄將 AI 護欄與 RAG 分別視為獨立元件的觀念,轉而設計整合式的安全系統,以更激進的方式去預測使用者行為,推測人類會如何跟 AI 與 LLM 進行互動。

企業不應輕信 AI 廠商口中的「安全」

《彭博社》人工智慧安全主管 Sebastian Gehrmann 表示,任何 AI 系統都需要在其部署的環境中,早一步進行安全評估,企業更不應該只仰賴 AI 開發商的說法,輕信他們所強調的「安全」。

Sebastian Gehrmann 提醒,對於負責任與安全的 AI 來說,企業必須意識問題可能會發生,並採取實際方法進行識別、測試,找出潛在的安全問題,然後針對正在開發的 AI 應用導入特定防護措施。

《彭博社》人工智慧策略與研究主管 Amanda Stent 也認為,那些為 AI 領域付出心力的開發人員,現在需要去思考如何負責任地使用 RAG,以及建立起哪些防禦措施,確保 AI 的輸出結果變得無害。

Amanda Stent 說,《彭博社》的研究只是提出一個框架和概念,讓其他開發者、企業,可以藉此評估並客製化自己的解決方案,找出 AI 系統中任何潛在的盲點。

【推薦閱讀】

◆ 【真的是老闆打的電話嗎】Jericho Security 用真人級 AI 模擬釣魚,讓企業防禦「明天的攻擊」
◆ 【LLM 的幻覺在作怪】AI 寫的程式碼,竟成軟體供應鏈的資安災難引爆點
【再說一次,不要付錢給駭客】教育科技公司 PowerSchool 被駭付贖金,客戶慘成韭菜被割

*本文開放合作夥伴轉載,參考資料:《VentureBeat》《Bloomberg》,首圖來源:Pexels

(責任編輯:鄒家彥)