Search
Close this search box.

Gemini 2.5 Pro 為企業解決「AI 黑盒子」問題,4 大特色挑戰 OpenAI、Claude

在生成式 AI 模型競賽白熱化之際,Google 出人意料地將剛發表不到一週的最新模型 Gemini 2.5 Pro 實驗版,免費開放給所有使用者。

Gemini 2.5 Pro 具備多模態推理能力,先前僅限訂閱 Gemini Advanced 的用戶(每月 19.99 美元)才能使用,現在一般用戶已可透過 Gemini 網頁版,且即將登陸 Android 和 iOS App。Google 透過社群平台 X 發文表示,希望「讓最聰明的模型儘早進入更多人的手中」。

事實上,Gemini 2.5 Pro 一釋出就引發熱議,被視為 Google 在 AI 模型競賽一大突破──除了表現在基準測試,開發者的實測回饋中也有好評。但 Gemini 2.5 Pro 可能取代 OpenAI 或 Claude 的模型,成為企業 AI 新歡嗎?《VentureBeat》實測評論,Google 新模型極具潛力,並從企業觀點分為 4 大特色評估。

特色 1:透明且有結構的推理邏輯,取代「黑盒子」問題

Gemini 2.5 Pro 與眾不同之處在於「清楚展示自己的思考過程」。報導稱,Google 導入更結構化的「思維鏈」(Chain of Thought, CoT)訓練方式,讓模型在回答複雜問題時能條列步驟、標示邏輯關係,不會像 OpenAI 或 DeepSeek 模糊總結或是像無法追溯的猜測。

從操作面來看,Gemini 2.5 Pro 的設計能提升企業使用者的信任與可控性,特別是在解讀法規、程式邏輯、複雜的研究時,更容易讓使用者判斷模型如何得出答案,進一步驗證、修正或重新引導──這有助於擺脫企業對於 LLM 無法解釋答案,將之形容為「黑盒子」的不信任感。

《VentureBeat》表示,企業技術團隊可以善用 Gemini 2.5 Pro:排解關鍵應用中的複雜推理流程,更深入理解模型在特定領域的限制,向利害關係人提供更透明的 AI 決策過程,透過研究模型的推理方式,提升自身批判性思考能力。不過,目前 Gemini 2.5 Pro 還無法透過 API 存取、整合到企業應用程式,但可在 Gemini App 與 Google AI Studio 使用。

特色 2:登上 AI 排行榜第一,搶奪「最強 AI」話語權

Gemini 2.5 Pro 目前在 AI 模型排行榜 Chatbot Aren 名列第一。報導指出,Gemini 2.5 Pro 在需要深度推理的任務,例如程式設計、整合多篇文件、解構抽象邏輯與規劃任務上,都表現出色。在用於測試 LLM 抽象和細節領域弱點的基準測試「人類的最後考試」中,Gemini 2.5 Pro 在無工具輔助下取得 18.8% 的成績,超越多數旗艦模型。

截至本文發布前,Chatbot Aren 排行榜前 10 名。圖片來源:截自 Chatbot Aren。

特色 3:寫程式能力變強,挑戰 Claude 主導地位

長期以來,Google 在 AI 寫程式領域落後 OpenAI 與 Anthropic,但這次 Gemini 2.5 Pro 扳回一城。《VentureBeat》測試,該模型不僅能一次做出俄羅斯方塊小遊戲,還能在寫程式之前預先規劃變數命名與架構邏輯。

在業界常用的程式碼編輯測試(Aider Polyglot)中,Gemini 2.5 Pro 獲得 68.6% 的分數,優於 OpenAI、Anthropic 和 DeepSeek 等對手模型。而在 SWE-Bench Verified 程式開發能力測試中,也以 63.8% 的表現超過 OpenAI o3-mini 與 DeepSeek R1,但略低於 Anthropic Claude 3.7 Sonnet 的 70.3%。

《VentureBeat》指出,Claude 3.7 Sonnet 是程式碼生成領域的佼佼者,也是其在企業市場成功的主因。不過,新問世的 Gemini 2.5 Pro 寫程式能力除了逼近 Claude 3.7 Sonnet,還具備另一關鍵優勢:提供高達 100 萬 token 的上下文視窗範圍,而 Claude 3.7 Sonnet 提供 50 萬個。

龐大的上下文視窗,能在大型專案中橫跨多檔案並保持一致性,像是一位軟體開發者 Simon Willison 就曾用 Gemini 2.5 Pro 完成一項橫跨 18 個程式檔案的專案,只花了 45 分鐘。

特色 4:多模態的代理能力,打造企業新工作流程

與其他強調生成圖片或語音互動的模型不同,Gemini 2.5 Pro 展現出具備「代理人行為」(agent-like behavior)的多模態整合能力。《VentureBeat》報導指出,這款模型能理解並推理來自不同來源的輸入,例如文字、圖片、截圖與結構化資料,並根據用戶意圖主動完成任務。

舉例來說,開發者 Ben Dickson 實測時上傳一篇搜尋演算法技術文章,Gemini 2.5 Pro 不只能提取重點內容,還能繪製對應的 SVG 流程圖,接著在用戶指出錯誤後重新修正圖像,實現純文字模型無法實現的新工作流程。

另一位開發者 Sam Witteveen 上傳一張拉斯維加斯地圖的截圖,詢問 Gemini 2.5 Pro 當地某日是否有 Google 活動,模型成功辨識地點、推斷意圖、執行搜尋並回覆正確資訊,全程無需自訂代理框架,僅靠核心模型與整合搜尋即可完成。

這種多模態且具備推理能力的模型,讓未來的企業工作流程更具想像空間──不再只是問答,而是上傳報表、流程圖與簡報後,由 AI 協助規劃策略、產出洞察。

《VentureBeat》指出,儘管目前 Gemini 2.5 Pro 尚未進入 Google Cloud Vertex AI,語言生成流暢度仍略遜於 OpenAI 和 Claude,但對於重視「可驗證邏輯、長篇脈絡處理、程式碼輔助與多模態整合」的企業,Google 這次的確端出一道值得重新評估的選項。

【推薦閱讀】

Google 發表新推理模型 Gemini 2.5,專攻進階程式設計有多強?

Apple 傳將推出「AI 代理醫生」,《彭博》:這是蘋果進軍健康領域以來最大動作

用 AI 搶攻物流「最後一哩路」,UPS、亞馬遜、Uber Eats 怎麼做?

*本文部分初稿由 AI 生成,經《TechOrange》編撰,資料來源:《VentureBeat》1《VentureBeat》2《9to5google》GoogleSimon Willison《VentureBeat》3 ,首圖來源:Google