由 Amazon 投資的 AI 新創公司 Anthropic,近日宣布更新旗下 Claude 3.5 AI 模型,不只效率有所升級還推出新功能,讓 AI 可以獨立操作電腦並完成作業,使開發者可以藉此打造出屬於自己的 AI 代理。
Anthropic 所開發的聊天機器人 Claude,自推出以來屢屢令人感到驚艷,並成為 OpenAI ChatGPT 與 Google Gemini 的最強競爭對手。
為了繼續在 AI 領域保持競爭力,Anthropic 日前公開了升級版的 Claude 3.5 Sonnet,以及新模型 Claude 3.5 Haiku,並指出這兩套新模型在各方面都有著全方位的進步。
Claude 3.5 升級,程式碼編寫能力大進步
Anthropic 表示,Claude 3.5 Sonnet 於程式碼編寫迎來巨大升級,它在 SWE-bench Verified 測試所表現的性能,從 33.4% 提高到 49.0%,得分高於現下所有公開模型,包括 OpenAI 開發的推理模型 o1-preview。
至於新模型 Claude 3.5 Haiku,Anthropic 指出,它主要強調經濟性與速度的平衡,在同樣成本和相似運算時間下,各項技能的表現皆有所提高,許多智能測試方面也超過了 Anthropic 上一代的最大模型 Claude 3 Opus。
Claude 3.5 Haiku 於 SWE-bench Verified 取得 40.6% 分數,勝過原版的 Claude 3.5 Sonnet 和 GPT-4o,預計 10 月稍晚就會透過 API、Amazon Bedrock 和 Google Cloud Vertex AI 提供給使用者;不過 Claude 3.5 Haiku 初期僅提供純文字模型,後續才會更新圖像輸入。
讓 AI 學會操作電腦,下指令即可全自動完成
除了 AI 模型的升級之外,Anthropic 本次更新最令外界注目的功能,應該可以算是「電腦操作」(computer use),意即 AI 可以像人類一樣主動控制、使用電腦,例如閱讀螢幕上的資訊、移動滑鼠游標、點擊按鈕及輸入文字等。
Anthropic 表示,他們決定教導 AI 學習通用的電腦技能,使 AI 能夠直接操作電腦上,本來是為人類所設計的各種標準工具和軟體程式;對此開發團隊建立了全新 API,使 Claude 能夠感知電腦介面並進行互動,開發者未來可以整合該 API,讓 Claude AI 代理全自動執行一連串命令。
舉例來說,使用者可以向 Claude AI 提出要求,叫它「使用這台電腦上的資料,並於線上網頁填寫某張表單」,接著 AI 就會將其轉換為實際動作,包含閱讀並理解電腦儲存的文件資訊,接著移動滑鼠游標並開啟網頁瀏覽器,最後導航到指定網頁,並且使用先前記憶的資料填寫表單。
未來開發人員將可以透過「電腦操作」功能,呼叫 Claude AI 為各種任務制定自動化的重複流程,例如建立與測試軟體,甚至於協助各種開放式任務。
建議先用於低風險任務,公開測試徵求回饋
Anthropic 指出,在評估 AI 模型像人一樣使用電腦的能力的 OSWorld 測試中,Claude 3.5 Sonnet 於螢幕截圖類別拿到 14.9% 得分,較第二名分數高出近兩倍;若使用者主動提供更多步驟指示以完成任務,Claude AI 的分數還能進一步提升到 22.0%。
Anthropic 也不諱言,Claude 3.5 Sonnet 的「電腦操作」功能雖然已經對外進行公開測試,但該技術仍處於實驗階段,有時可能會增添開發者麻煩且容易出錯,所以才選擇提前發表以徵求更多使用回饋;Anthropic 認為,該功能將會隨著時間推移,迅速提高實用性及穩定度。
Anthropic 說,人們操作電腦毫不費力所執行的部分操作,例如滾動視窗、拖曳文件、縮放網頁等,目前為 Claude 帶來了艱鉅挑戰,因此鼓勵開發人員先將「電腦操作」功能用於低風險任務,避免 AI 代理干擾到正常的工作流程。
此外,由於電腦環境相對複雜,該功能可能會被用於發送垃圾郵件、錯誤訊息或詐欺等,為常見資安威脅提供新的載體,因此 Anthropic 正採取積極主動的方法,確保 AI 不會因此遭到濫用,促進人工智慧的整體安全性。
【推薦閱讀】
◆ 「代理是 AI 世界的新 App」微軟推 10 種 Agents 打造銷售、財務、供應鏈自動化
*本文開放合作夥伴轉載,資料來源:《CNBC》、《Anthropic》。首圖來源:YouTube



