在生成式 AI 模型競賽白熱化之際,Google 出人意料地將剛發表不到一週的最新模型 Gemini 2.5 Pro 實驗版,免費開放給所有使用者。
Gemini 2.5 Pro 具備多模態推理能力,先前僅限訂閱 Gemini Advanced 的用戶(每月 19.99 美元)才能使用,現在一般用戶已可透過 Gemini 網頁版,且即將登陸 Android 和 iOS App。Google 透過社群平台 X 發文表示,希望「讓最聰明的模型儘早進入更多人的手中」。
事實上,Gemini 2.5 Pro 一釋出就引發熱議,被視為 Google 在 AI 模型競賽一大突破──除了表現在基準測試,開發者的實測回饋中也有好評。但 Gemini 2.5 Pro 可能取代 OpenAI 或 Claude 的模型,成為企業 AI 新歡嗎?《VentureBeat》實測評論,Google 新模型極具潛力,並從企業觀點分為 4 大特色評估。
特色 1:透明且有結構的推理邏輯,取代「黑盒子」問題
Gemini 2.5 Pro 與眾不同之處在於「清楚展示自己的思考過程」。報導稱,Google 導入更結構化的「思維鏈」(Chain of Thought, CoT)訓練方式,讓模型在回答複雜問題時能條列步驟、標示邏輯關係,不會像 OpenAI 或 DeepSeek 模糊總結或是像無法追溯的猜測。
從操作面來看,Gemini 2.5 Pro 的設計能提升企業使用者的信任與可控性,特別是在解讀法規、程式邏輯、複雜的研究時,更容易讓使用者判斷模型如何得出答案,進一步驗證、修正或重新引導──這有助於擺脫企業對於 LLM 無法解釋答案,將之形容為「黑盒子」的不信任感。
《VentureBeat》表示,企業技術團隊可以善用 Gemini 2.5 Pro:排解關鍵應用中的複雜推理流程,更深入理解模型在特定領域的限制,向利害關係人提供更透明的 AI 決策過程,透過研究模型的推理方式,提升自身批判性思考能力。不過,目前 Gemini 2.5 Pro 還無法透過 API 存取、整合到企業應用程式,但可在 Gemini App 與 Google AI Studio 使用。
特色 2:登上 AI 排行榜第一,搶奪「最強 AI」話語權
Gemini 2.5 Pro 目前在 AI 模型排行榜 Chatbot Aren 名列第一。報導指出,Gemini 2.5 Pro 在需要深度推理的任務,例如程式設計、整合多篇文件、解構抽象邏輯與規劃任務上,都表現出色。在用於測試 LLM 抽象和細節領域弱點的基準測試「人類的最後考試」中,Gemini 2.5 Pro 在無工具輔助下取得 18.8% 的成績,超越多數旗艦模型。

特色 3:寫程式能力變強,挑戰 Claude 主導地位
長期以來,Google 在 AI 寫程式領域落後 OpenAI 與 Anthropic,但這次 Gemini 2.5 Pro 扳回一城。《VentureBeat》測試,該模型不僅能一次做出俄羅斯方塊小遊戲,還能在寫程式之前預先規劃變數命名與架構邏輯。
在業界常用的程式碼編輯測試(Aider Polyglot)中,Gemini 2.5 Pro 獲得 68.6% 的分數,優於 OpenAI、Anthropic 和 DeepSeek 等對手模型。而在 SWE-Bench Verified 程式開發能力測試中,也以 63.8% 的表現超過 OpenAI o3-mini 與 DeepSeek R1,但略低於 Anthropic Claude 3.7 Sonnet 的 70.3%。
《VentureBeat》指出,Claude 3.7 Sonnet 是程式碼生成領域的佼佼者,也是其在企業市場成功的主因。不過,新問世的 Gemini 2.5 Pro 寫程式能力除了逼近 Claude 3.7 Sonnet,還具備另一關鍵優勢:提供高達 100 萬 token 的上下文視窗範圍,而 Claude 3.7 Sonnet 提供 50 萬個。
龐大的上下文視窗,能在大型專案中橫跨多檔案並保持一致性,像是一位軟體開發者 Simon Willison 就曾用 Gemini 2.5 Pro 完成一項橫跨 18 個程式檔案的專案,只花了 45 分鐘。
特色 4:多模態的代理能力,打造企業新工作流程
與其他強調生成圖片或語音互動的模型不同,Gemini 2.5 Pro 展現出具備「代理人行為」(agent-like behavior)的多模態整合能力。《VentureBeat》報導指出,這款模型能理解並推理來自不同來源的輸入,例如文字、圖片、截圖與結構化資料,並根據用戶意圖主動完成任務。
舉例來說,開發者 Ben Dickson 實測時上傳一篇搜尋演算法技術文章,Gemini 2.5 Pro 不只能提取重點內容,還能繪製對應的 SVG 流程圖,接著在用戶指出錯誤後重新修正圖像,實現純文字模型無法實現的新工作流程。
另一位開發者 Sam Witteveen 上傳一張拉斯維加斯地圖的截圖,詢問 Gemini 2.5 Pro 當地某日是否有 Google 活動,模型成功辨識地點、推斷意圖、執行搜尋並回覆正確資訊,全程無需自訂代理框架,僅靠核心模型與整合搜尋即可完成。
這種多模態且具備推理能力的模型,讓未來的企業工作流程更具想像空間──不再只是問答,而是上傳報表、流程圖與簡報後,由 AI 協助規劃策略、產出洞察。
《VentureBeat》指出,儘管目前 Gemini 2.5 Pro 尚未進入 Google Cloud Vertex AI,語言生成流暢度仍略遜於 OpenAI 和 Claude,但對於重視「可驗證邏輯、長篇脈絡處理、程式碼輔助與多模態整合」的企業,Google 這次的確端出一道值得重新評估的選項。
【推薦閱讀】
◆ Google 發表新推理模型 Gemini 2.5,專攻進階程式設計有多強?
*本文部分初稿由 AI 生成,經《TechOrange》編撰,資料來源:《VentureBeat》1、《VentureBeat》2、《9to5google》、Google、Simon Willison、《VentureBeat》3 ,首圖來源:Google。



