經過幾個禮拜的熱議,OpenAI 終於發表其首款 AI 代理「Operator」研究預覽版。Operator 是一款網路應用程式,可在瀏覽器中自動執行簡單的線上任務,像是透過查看網頁、輸入內容、點擊和滾動頁面,來完成預定音樂會門票、填寫線上表單等任務。
省掉至少 20 分鐘手動任務,稱性能優於對手
Operator 採用了新模型「CUA」(Computer-Using Agent),並將 GPT-4o 的視覺功能與高階推理結合,經過訓練可以與圖形使用者介面(GUI)互動。Operator 可以使用推理來「自我糾正」,如果它卡住了,就會將控制權交還給使用者。在安全性方面,當網站需要提供登入或付款資訊、寄出 email,Operator 也會要求使用者接手,或是拒絕某些敏感任務。
外媒《Every》實測指出,Operator 可以自動完成一般人通常需要 15~20 分鐘點擊的任務。最特別的是,它具有保存和共享工作流程的功能,讓該任務可以重新運行,甚至提供他人參考。不過,有些網站如 Reddit 已經阻止 AI 代理瀏覽,瀏覽內容受到限制。
OpenAI 聲稱,Operator 的效能優於競爭對手的類似工具,包括 Anthropic 的 Computer Use(Claude 3.5 Sonnet 的一個版本,能在電腦上執行簡單任務)和 Google DeepMind 的 Mariner(由 Gemini 2.0 打造的網路瀏覽代理程式) 。
從生成文字到電腦操作,AI 廝殺戰場轉移
《MIT technology review》觀察,這三大 AI 巨頭對於 AI 代理的願景相同,也讓 AI 霸主之戰來到新的場域──人們的電腦螢幕。
艾倫人工智慧研究所(AI2)CEO Ali Farhadi 表示,從生成文字、圖像轉向實際操作是正確的方向,因為這能把人從工作流程中解放,解決了新問題。
為何過去的 AI 做不到呢?OpenAI 科學家 Reiichiro Nakano 表示,傳統上模型使用軟體的方式是專門 API,這使得大多數應用程式、網站無法使用,但是如果打造一個人們日常會使用的介面,將刺激一系列的全新軟體誕生。
不過,OpenAI 也強調,Operator 還在早期發展階段,仍有可能犯錯。根據報導,OpenAI 正在與多家企業合作 Operator,包括 OpenTable、StubHub、Instacart、DoorDash 和 Uber。
目前,Operator 開放給美國 ChatGPT Pro 用戶。OpenAI 表示,未來計劃將 Operator 引入 Plus、Team 和 Enterprise 用戶,並「將這些功能整合到 ChatGPT 中」。
預約收看「AI 人才高峰會」NVIDIA、台積電演講精華!

【推薦閱讀】
◆ AI 發展太快逾 50% 執行長自認失敗!專家建議 4 作法更輕鬆導入 AI
*本文開放合作夥伴轉載,資料來源:《MIT technology review》、《The Verge》、《Every》,首圖來源:OpenAI。



