美國 AI 公司 Anthropic 近期發出警示,稱在今年 9 月中旬偵測到駭客嘗試利用旗下 AI 模型 Claude 發動網路攻擊,至於攻擊者的身份, Anthropic 有「高度信心」認為是疑似中國國家支持的駭客組織,並命名為 GTG-1002。
Anthropic 主張,這些攻擊流程有「高達 80% 至 90% 是自動化完成」,人類只在 4 到 6 個關鍵決策點介入,因此將此事件視為首個有紀錄的大規模「AI 自動化」網路攻擊案例。攻擊範圍涵蓋全球至少 30 個目標組織,是由人類操作者負責選定攻擊目標,隨後開發框架來發動攻擊。
駭客如何繞過 Claude 安全防護,運用 AI 代理展開攻擊?
在攻擊流程中,Claude 的 AI agent 也被用於協助駭客擴大行動。首先,AI 會負責偵察與弱點掃描,搜尋高價值資料庫,識別並測試目標系統中的安全漏洞,甚至能自行編寫可利用這些漏洞的攻擊程式碼。
接下來,Claude 被用來擷取使用者名稱與密碼,在取得憑證後,Claude 會尋找特權帳戶、建立惡意後門,並協助駭客在網路內部橫向移動,擴大攻擊規模。
最後,Anthropic 指出,駭客利用 Claude 成功滲透部分企業組織、擷取敏感資訊,並能自動篩選出最有價值的內容。
至於駭客如何繞過 Claude 的安全防護?Anthropic 在報告中說明,駭客之所以成功「越獄」Claude Code,是透過兩種技巧欺騙模型:其一是將惡意行為拆分成極小步驟,讓每一小段指令看起來不像攻擊行為,避免觸發模型的惡意偵測;其二是偽裝身份,假稱自己是資安研究人員,將「請求」包裝成「協助強化防禦」的正常測試,使 Claude 誤以為這些操作是合法的安全檢測工作。
專家質疑點 1:「超過 80% 自動化」的數據真實性不足
然而,根據《Ars Technica》報導,多位資安專家認為 Anthropic 發現「高達 80% 至 90% 是自動化完成」的攻擊現象,其實沒有想像中那麼具有劃時代意義,並針對 Anthropic 提出兩大質疑。
首先,多位資安研究人員表示,為什麼駭客能讓 AI 模型展現出如此高的自動化程度與成功率,這些成果卻是白帽駭客與一般開發者始終難以做到的。安全顧問公司 Phobos Group 創辦人 Dan Tentler 就指出,模型在不同使用者手中的行為不一致,並反問:「為什麼模型到了駭客手中就有 90% 的成功率,但其他人卻只能得到拍馬屁、敷衍或迷幻式的回答?」表達自己無法相信攻擊者能逼出模型在平時完全無法展現的能力。
除了模型行為的不穩定外,研究人員也認為此次攻擊並未展現出真正的突破性技術。許多人將 AI 在網路攻擊中的功能,比擬為 Metasploit 或 SEToolkit 等已存在數十年的駭客工具,這類工具雖然能協助簡化攻擊,但並未根本提升駭客的能力或造成攻擊威力質變。來自資安公司 Bitdefender 的技術解決方案總監 Martin Zugec 也表示,Anthropic 的報告提出大膽且帶有推測性的主張,但並未提供足以驗證的威脅情報證據。
專家質疑點 2:攻擊成功率太低,AI 幻覺仍是關鍵
儘管 Anthropic 主張高度自動化,但報告內容本身也揭示 AI 模型在實際攻擊中表現出的嚴重可靠性問題,即「AI 幻覺」,這也讓完全自動化變得難以實現。
Anthropic 承認,Claude 在自主運作期間常常誇大發現,甚至偶爾捏造數據,例如聲稱取得某組憑證,實際上卻無法使用,或將公開資訊誤判為重大漏洞。《Ars Technica》指出,AI 幻覺對攻擊者而言也是一種障礙,因為會拖慢攻擊流程,因此難以被視為突破性能力,這也使得駭客攻擊流程與「完全自動化」的目標距離甚遠。
另一方面,Anthropic 表示,此次攻擊共鎖定至少 30 個目標組織,但也坦言真正成功的案例只有「少數」,這也讓資安專家提出另一層質疑:即使 AI 自動化確實能減少人力投入,若成功率如此之低,又有什麼意義?如果改用更傳統、更多人工操作的方式,是否可能反而取得更高成功率?這些疑問都讓 Anthropic 所強調的「超過 80% 自動化」的數字更加令人懷疑。
目前仍缺乏足夠證據證明 Anthropic 所說的「超過 80% 自動化攻擊」已真正實現,資安社群也對 Anthropic 抱持一定程度的懷疑,但這起事件仍揭露一股不容忽視的趨勢:隨著 AI 能力快速提升,未來利用 Agentic AI 的攻擊只會更常見,攻防格局也將因此加速演變。
*本文開放合作夥伴轉載,資料來源: Anthropic、《Cybersecurity Dive》、《BBC》、《Ars Technica》,首圖來源:Unsplash



