Search
Close this search box.

6 週就推新 AI、推論成本砍到 1/35,拆解 OpenAI GPT-5.5 的企業端鎖定戰略

OpenAI 向付費用戶推出最新 AI 模型 GPT-5.5 與 GPT-5.5 Pro,距離前一版 GPT-5.4 僅約 6 週時間,反映出前沿 AI 實驗室在爭奪企業客戶上的競爭正在迅速升溫。雖然從命名方式和 OpenAI 執行長奧特曼的公開說法來看,這次或許只是小幅升級,但實際上 GPT-5.5 在整體能力上仍有明顯提升。此外,從 OpenAI 的自我定位來看,AI 競爭的焦點也逐漸轉移,從模型分數轉向企業客戶是否願意持續付費。

根據《VentureBeat》,GPT-5.5 讓 OpenAI 在可公開使用的大型語言模型中重新奪回領先地位,整體表現超越 Anthropic 和 Google 的最新公開模型,甚至在某項基準測試中,略勝 Anthropic 的內部模型 Claude Mythos Preview。

以 AI Agent 能力為核心,朝「實用性」邁進

OpenAI 共同創辦人兼總裁 Greg Brockman 表示,「這個模型真正特別的地方,在於它在更少引導的情況下,能完成更多事情。使用起來更直覺,也能在面對不明確的問題時,自行判斷下一步該怎麼做。」

換言之,OpenAI 模型的更新焦點在於 AI Agent(AI 代理)能力。OpenAI 將 GPT-5.5 定位為對 ChatGPT「日常使用體驗」的優化版本,重點在於提升推理能力、一致性,以及處理更長、更複雜任務的能力。這次升級不再強調炫技,而是回到一個核心問題:使用者是否能真正信任 AI,把任務交給它完成後續執行。

《TechRadar》報導,這種以「實用性」為主軸的定位,也反映出整個 AI 產業的敘事轉變:從過去討論模型理論上能做到什麼,轉向關注它如何融入日常工作流程。

過去的 ChatGPT 雖然能產出亮眼結果,但往往需要精細提示才能維持穩定,多步驟任務容易失控,長對話也可能偏離主題。GPT-5.5 正是針對這些痛點進行優化。模型強化了長鏈推理能力與上下文一致性,並提升工具使用與多模態整合能力,使任務之間的銜接更加流暢。對使用者而言,這代表不再需要反覆修正提示,系統能更快理解意圖,並直接給出可用答案。最關鍵的差異在於「第一次回覆就足夠好」的成功率明顯提高。

Brockman 也強調,GPT-5.5 在程式開發表現尤為突出,同時在更廣泛的電腦操作、科學研究等場景中,也展現出強大能力,特別是在這些原本容易形成效率瓶頸的高智力任務上。

基準測試交鋒:GPT-5.5 在哪個指標反超 Claude Mythos?

就在一週前,Anthropic 才推出 Claude Opus 4.7,並在多項第三方基準測試中登上領先位置;但最新發布的 GPT-5.5 已迅速反超,甚至在 Terminal-Bench 2.0(測試模型在沙箱終端環境中完成任務的能力)中,連同更高階、但受限使用的 Claude Mythos Preview 也一併超越。GPT-5.5 在該測試中達到 82.7% 準確率,高於 Opus 4.7 的 69.4%,也略勝 Mythos Preview 的 82.0%。

不過,在不依賴工具的純推理能力上,競爭仍然激烈。例如在 Humanity’s Last Exam 中,GPT-5.5 Pro 僅得 43.1%,落後 Opus 4.7 的 46.9% 與 Mythos Preview 的 56.8%。這顯示 OpenAI 在電腦操作與代理能力上具有優勢,但在純學術知識與零樣本推理方面,競爭對手仍有領先空間。

根據《VentureBeat》,在可公開使用的模型中,GPT-5.5 在 14 項基準測試中取得最佳表現,相較之下 Opus 4.7 為 4 項、Gemini 3.1 Pro 為 2 項。其優勢主要集中在代理式電腦操作、經濟知識工作(GDPval)、資安應用(CyberGym)與高難度數學(Frontier Math);而 Opus 4.7 則在軟體工程與無工具推理領域領先,Gemini 3.1 Pro 則在學術推理與金融分析等場景表現較佳。

OpenAI 真正參與的競爭

據傳 OpenAI 和 Anthropic 將在今年底前推動 IPO,《implicator.ai》指出,GPT-5.5 顯示,OpenAI 此刻並不是要在單一基準測試上擊敗 Anthropic,而是要在所有關鍵維度上取得優勢,為未來 IPO 談判累積籌碼。

首先是算力。OpenAI 在投資人信中將「算力容量」列為核心優勢。隨著 NVIDIA 新一代晶片導入,GPT-5.5 的推論成本最高可降低至原本的 1/35。對企業財務長而言,這類成本改善遠比模型測試分數更具決策影響力。相較之下,Anthropic 執行長 Dario Amodei 曾公開示警,過度擴張算力在需求不確定下風險極高。報導分析,一方在用資本換取使用者規模,另一方更謹慎地維持利潤結構,而資本市場通常偏好前者。

第二個關鍵是通路,雙方差距也逐漸浮現。ChatGPT 已累積數億用戶,且付費用戶可直接使用 GPT-5.5,進一步鞏固其用戶基礎;而 Claude 的用戶規模相對較小,主要集中於開發者族群。為擴大企業市場,OpenAI 正透過顧問夥伴推動工具導入大型企業,並加大銷售與市場投入。反觀 Anthropic,仍在加速建立通路能力。

《implicator.ai》指出,在這一輪競爭中,OpenAI 並不需要讓 GPT-5.5 在所有基準測試中全面領先,關鍵在於「夠好」,讓原本在不同 AI 供應商之間觀望的企業客戶,有理由採用其服務;另一個核心目標是降低推論成本,讓企業財務部門不再將 AI 視為需反覆審查的高成本項目。同時,持續快速迭代產品,也是為了避免競爭對手 Anthropic 在兩次發布之間重新取得市場話語權。

因此報導分析,決勝點不會是某一次模型發布或單一測試成績,而是企業客戶是否願意續約。未來幾個季度的企業續約情況,將比任何技術宣傳更真實地反映這場 AI 競賽的最終走向。

【推薦閱讀】

AI 資安攻防升級:OpenAI 推 GPT-5.4-Cyber,釋出策略與 Anthropic 出現分歧

Anthropic 不敢全面公開的 AI:Claude Mythos 為何正在重寫網路安全規則?

Sora 剛退場,OpenAI 為何急推 ChatGPT Images 2.0?影像生成正從娛樂內容轉向高價值工作場景

*本文開放合作夥伴轉載,資料來源:《Bloomberg》《Fortune》《VentureBeat》《Techradar》《implicator. ai》OpenAI《AXIOS》,首圖來源:OpenAI