Search
Close this search box.

Anthropic 力推 AI 基準測試新標準,強調安全與社會影響

Anthropic 宣布推出一項新計畫,資助開發評估 AI 模型(包括自家生成模型 Claude)性能和影響的新型基準測試。

這項計畫於週一發布,將向能有效測量 AI 模型高階能力的第三方組織提供資金。有興趣的組織可隨時提交申請,並會進行滾動評估。

Anthropic 在官方部落格中表示:「我們對這些評估的投資希望能提升整個 AI 安全領域,提供對整個生態系統有益的工具。開發與安全相關的評估仍具挑戰性,目前需求已超過供應。」

目前,AI 基準測試存在一些問題,現有測試難以真實反映一般人實際使用系統的情況。有些基準測試,特別是那些在現代生成式 AI 出現之前推出的,甚至無法準確測量其聲稱測量的內容,這使得評估的準確性受到質疑。

Anthropic 提出的解決方案是創建具有挑戰性的基準測試,重點放在 AI 安全和社會影響,並透過新工具、基礎設施和方法來實現。

該公司特別呼籲進行評估,測試模型在執行網路攻擊、增強大規模殺傷性武器(如核武器)以及操縱或欺騙人群(如深偽技術或虛假訊息)的能力。對於與國家安全和國防相關的 AI 風險,Anthropic 承諾開發一種早期預警系統,以識別和評估風險,儘管他們在部落格中未具體說明這種系統的內容。

Anthropic 表示,這項新計畫還會支持基準測試研究,探測 AI 在科學研究、多語言對話、減少內在偏見以及自我審查毒性方面的潛力。

為了實現這一目標,Anthropic 計畫推出新的平台,讓專家自行開發評估,並進行涉及「數千」用戶的大規模模型試驗。該公司表示,已為這個計畫聘請了一名全職協調員,並可能購買或擴展具有潛力的項目。

Anthropic 在部落格中寫道:「我們提供一系列資金選項,以滿足每個項目的需求和階段。」然而,Anthropic 的發言人拒絕進一步詳細說明這些選項。該公司補充說:「團隊將有機會與 Anthropic 的前沿紅隊、微調、信任與安全及其他相關團隊的領域專家直接互動。」

Anthropic 支持新的 AI 基準測試的努力值得讚揚——當然,這需要足夠的資金和人力支持。但考慮到該公司在 AI 競賽中的商業野心,完全信任這一點可能會有些困難。

在部落格中,Anthropic 直言希望所資助的某些評估與其開發的 AI 安全分類(在非營利 AI 研究組織 METR 等第三方參與下)保持一致。這完全在公司的權利範圍內,但可能迫使申請者接受他們不一定同意的「安全」或「風險」AI 定義。

AI 社群中的一些人也可能對 Anthropic 提到的「災難性」和「欺騙性」AI 風險(如核武器風險)提出異議。許多專家表示,沒有證據表明現有的 AI 會在短期內獲得毀滅世界或超越人類智慧的能力。這些專家補充說,聲稱即將出現「超級智慧」只會分散人們對當前 AI 規範問題(如 AI 的錯誤判斷)的注意力。

Anthropic 在其文章中寫道,希望這項計畫能成為「推動全面 AI 評估成為行業標準的催化劑」。這一使命與許多開放且無公司附屬的 AI 基準測試創建努力一致。但尚待觀察這些努力是否願意與一個最終忠於股東的 AI 供應商合作。

*本文開放合作夥伴轉載。資料來源:《TechCrunch》,首圖來源:Unsplash