讓 AI 獨立操作電腦不用人類插手，Anthropic 打造 AI 代理升級模型

由 Amazon 投資的 AI 新創公司 Anthropic，近日宣布更新旗下 Claude 3.5 AI 模型，不只效率有所升級還推出新功能，讓 AI 可以獨立操作電腦並完成作業，使開發者可以藉此打造出屬於自己的 AI 代理。

Anthropic 所開發的聊天機器人 Claude，自推出以來屢屢令人感到驚艷，並成為 OpenAI ChatGPT 與 Google Gemini 的最強競爭對手。

為了繼續在 AI 領域保持競爭力，Anthropic 日前公開了升級版的 Claude 3.5 Sonnet，以及新模型 Claude 3.5 Haiku，並指出這兩套新模型在各方面都有著全方位的進步。

Claude 3.5 升級，程式碼編寫能力大進步

Anthropic 表示，Claude 3.5 Sonnet 於程式碼編寫迎來巨大升級，它在 SWE-bench Verified 測試所表現的性能，從 33.4% 提高到 49.0%，得分高於現下所有公開模型，包括 OpenAI 開發的推理模型 o1-preview。

至於新模型 Claude 3.5 Haiku，Anthropic 指出，它主要強調經濟性與速度的平衡，在同樣成本和相似運算時間下，各項技能的表現皆有所提高，許多智能測試方面也超過了 Anthropic 上一代的最大模型 Claude 3 Opus。

Claude 3.5 Haiku 於 SWE-bench Verified 取得 40.6% 分數，勝過原版的 Claude 3.5 Sonnet 和 GPT-4o，預計 10 月稍晚就會透過 API、Amazon Bedrock 和 Google Cloud Vertex AI 提供給使用者；不過 Claude 3.5 Haiku 初期僅提供純文字模型，後續才會更新圖像輸入。

讓 AI 學會操作電腦，下指令即可全自動完成

除了 AI 模型的升級之外，Anthropic 本次更新最令外界注目的功能，應該可以算是「電腦操作」（computer use），意即 AI 可以像人類一樣主動控制、使用電腦，例如閱讀螢幕上的資訊、移動滑鼠游標、點擊按鈕及輸入文字等。

Anthropic 表示，他們決定教導 AI 學習通用的電腦技能，使 AI 能夠直接操作電腦上，本來是為人類所設計的各種標準工具和軟體程式；對此開發團隊建立了全新 API，使 Claude 能夠感知電腦介面並進行互動，開發者未來可以整合該 API，讓 Claude AI 代理全自動執行一連串命令。

舉例來說，使用者可以向 Claude AI 提出要求，叫它「使用這台電腦上的資料，並於線上網頁填寫某張表單」，接著 AI 就會將其轉換為實際動作，包含閱讀並理解電腦儲存的文件資訊，接著移動滑鼠游標並開啟網頁瀏覽器，最後導航到指定網頁，並且使用先前記憶的資料填寫表單。

未來開發人員將可以透過「電腦操作」功能，呼叫 Claude AI 為各種任務制定自動化的重複流程，例如建立與測試軟體，甚至於協助各種開放式任務。

建議先用於低風險任務，公開測試徵求回饋

Anthropic 指出，在評估 AI 模型像人一樣使用電腦的能力的 OSWorld 測試中，Claude 3.5 Sonnet 於螢幕截圖類別拿到 14.9% 得分，較第二名分數高出近兩倍；若使用者主動提供更多步驟指示以完成任務，Claude AI 的分數還能進一步提升到 22.0%。

Anthropic 也不諱言，Claude 3.5 Sonnet 的「電腦操作」功能雖然已經對外進行公開測試，但該技術仍處於實驗階段，有時可能會增添開發者麻煩且容易出錯，所以才選擇提前發表以徵求更多使用回饋；Anthropic 認為，該功能將會隨著時間推移，迅速提高實用性及穩定度。

Anthropic 說，人們操作電腦毫不費力所執行的部分操作，例如滾動視窗、拖曳文件、縮放網頁等，目前為 Claude 帶來了艱鉅挑戰，因此鼓勵開發人員先將「電腦操作」功能用於低風險任務，避免 AI 代理干擾到正常的工作流程。

此外，由於電腦環境相對複雜，該功能可能會被用於發送垃圾郵件、錯誤訊息或詐欺等，為常見資安威脅提供新的載體，因此 Anthropic 正採取積極主動的方法，確保 AI 不會因此遭到濫用，促進人工智慧的整體安全性。

【推薦閱讀】

◆ 「代理是 AI 世界的新 App」微軟推 10 種 Agents 打造銷售、財務、供應鏈自動化

◆ 為智慧助理與自動機器人打造，Mistral 新 AI 模型 Token 成本僅 1.3 元

◆ 人工智慧的下個突破： AI 代理——科技巨頭不斷重複的新名詞「AI 代理」究竟是什麼？

＊本文開放合作夥伴轉載，資料來源：《CNBC》、《Anthropic》。首圖來源：YouTube

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

讓 AI 獨立操作電腦不用人類插手，Anthropic 打造 AI 代理升級模型

Claude 3.5 升級，程式碼編寫能力大進步

讓 AI 學會操作電腦，下指令即可全自動完成

建議先用於低風險任務，公開測試徵求回饋

TO 會員電子報

OpenAI 啟動開源資安計畫 Patch the Planet：資安戰場正從「找漏洞」轉向「修漏洞」

AI Agent 進公司誰來管？Accenture 點名 HR 扛責，PwC 示警入門職缺「資深化」

攔截消費決策最起點：房產巨頭 Zillow 布局 NotebookLM，讓 AI 化身購屋族專屬軍師

Human-in-the-Loop 不再是黃金標準？亞馬遜揭 AI Agent 治理最大盲點