Anthropic 與美國能源部的國家核子安全管理局(NNSA)建立開創性合作,在高度機密環境下測試 Claude 3 Sonnet 模型,這是首次有前沿 AI 模型進行這類測試。合作目的是確保 AI 不會協助他人製造核子武器,為未來與其他政府機構的類似合作奠定基礎。
自今年 4 月起,NNSA 透過「紅隊演習」方式,測試使用者是否能濫用 Anthropic 的模型取得核能相關敏感資訊。這類演習是由專家試圖突破系統防護,以測試系統安全性。目前試驗計畫將持續到 2 月,測試對象包含 6 月發布的 Claude 3.5 Sonnet。Anthropic 運用與亞馬遜網路服務(AWS)的合作關係,為政府使用做準備。
Anthropic 國家安全政策主管 Marina Favaro 表示,雖然美國業界在前沿模型開發上居領導地位,但聯邦政府在評估 AI 系統的國家安全風險方面具備獨特專業。NNSA 副部長 Wendin Smith 也強調,AI 是改變遊戲規則的技術,同時評估 AI 產出可能帶來的核子或輻射風險,對國家安全至關重要。
拜登總統於上個月發布國家安全備忘錄,要求能源部等機構在機密環境下進行AI安全測試。Anthropic和OpenAI已於8月與AI安全研究所簽署協議,承諾在公開發布前進行國家安全風險測試。
AI模型營運商目前正積極爭取政府合約。Anthropic上週與Palantir及AWS合作,讓Claude能服務美國情報機構;OpenAI已與財政部、NASA等機構簽約;Scale AI則為國防部門開發基於Meta Llama的模型。
然而,這些安全測試合作計畫在新總統上任後是否能持續,仍存在不確定性。總統當選人幕僚圈成員馬斯克在 AI 安全議題上立場搖擺。他曾因憂心 AI 威脅人類未來而在 2015 年共同創立OpenAI,最近還支持加州一項加強大型模型安全管控的提案。不過,馬斯克同時也在開發推廣自家 AI 品牌及模型 xAI,主張以言論自由之名採取開放態度。
基於測試的敏感性,Anthropic 並未公開試驗計畫的具體發現,但表示計畫與科學實驗室及其他組織分享測試結果,讓這些機構能進行自己的測試。
*本文開放合作夥伴轉載,資料來源:《AXIOS》,首圖來源:《Unsplash》 。



