從「娛樂製圖」到「知識生產」:Gemini 3 Pro Image 如何定義新一代視覺生成標準?
過去 AI 生圖的侷限
幾年前的 AI 生圖工具如早期版本的 Stable Diffusion 或 Midjourney,雖能快速產出令人驚豔的畫面,卻往往存在許多缺陷,難以真正應用在實際情境中。最常見的痛點,包括對文字的掌握度極低,AI 模型常將文字視為單純的幾何花紋,導致招牌、標語全是像外星文般的亂碼。
另外,空間邏輯也常錯亂,分不清左右,或將物體融合在一起;加上 AI 生圖工具對複雜指令理解不足,不擅長繪製手指等細節問題,且生成後缺乏精準修改的彈性,種種因素都限制其實用性。儘管隨技術迭代,近期的模型已能更精準地生成內容,但面對複雜邏輯的情境時,產出的圖片仍常與使用者腦中的理想畫面有所落差。
Gemini 3 Pro Image 的突破
去(2025)年 11 月 Google 正式推出新一代模型 Gemini 3 Pro,並在多個深度思考和複雜操作的基準測試中獲得好成績,與其一同問世,同樣備受討論的生圖模型 Gemini 3 Pro Image,以 Gemini 3 Pro 作為架構的原生多模態推理模型,也在多項圖片生成模型能力的測試中榮獲佳績(圖一)。

在既有能力 (Existing Capabilities)提升方面,Gemini 3 Pro Image 在圖中文字處理能力的文字渲染 (Text Rendering) 項目中,達 1198 高分,相較於上一代 Gemini 2.5 Flash Image 的 997 分有所成長。
過去 Gemini 2.5 Flash Image 雖已能生成含英文文字的圖像,但面對英文以外的語系時,仍常出現亂碼;而現在的 Gemini 3 Pro Image 不僅在文字編輯 (Text Editing) 項目中拿下 1202 的高分,更可以生成繁體中文,儘管偶有錯字,但無疑是巨大的技術突破。
不僅如此,在考驗邏輯與一致性的多角色編輯 (Multi-character Editing) 測驗中,Gemini 3 Pro Image 獲得 1213 分,超越前代的 950 分,它同時支援 14 張參考圖像,並能保持 5 個角色在不同畫面中的外觀一致性,這對製作連貫分鏡、故事圖像而言至關重要。
針對高度精確性的資訊呈現,Gemini 3 Pro Image 也在資訊圖表(Infographics) 與圖表編輯 (Chart Editing) 測試中,分別取得 1268 分與 1209 分,展現壓倒性優勢,證明它不僅能生成圖片,更能精準處理複雜的數據視覺化。
最後,在畫面的藝術表現與修圖能力上,其風格化 (Stylization) 分數從前代的 933 分提升至 1098 分,顯示其對不同藝術風格的掌握更顯細膩度、精益求精;而通用圖像編輯 (General Image Editing) 也以 1127 分優於前代的 996 分,意味 Gemini 3 Pro Image 已不再只是單純的繪圖工具,而是能精準處理知識內容視覺化的智慧助手。
Gemini 3 Pro Image 之所以能有這些成就,可以歸功於 Gemini 3 Pro 的多模態推理能力,作為基於 Gemini 3 Pro 的圖片生成模型,Gemini 3 Pro Image 良好的推理能力以及大量的多模態訓練數據,使其能更準確地理解複雜提示詞,提升對空間位置、邏輯關係的理解,從而提升內容的正確性。
Gemini 3 Pro Image 在新聞生成 Multil-Agent 架構中的應用情境
Gemini 3 Pro Image 相較其他生圖模型的強項,在於將複雜的資訊內容視覺化,和提升圖中文字的處理能力,大幅拓展 AI 生圖的應用情境。除了精準地依照指令修改圖中細節,結合多張圖片、資料進行新生成,對文字掌握的良好程度,甚至達到對圖中文字翻譯與修改(圖二)。

此外,Gemini 3 Pro Image 在生成圖片時,還可以開啟 google 搜尋工具,根據天氣預報、股票圖表與近期活動等即時資訊生成圖片。對長篇幅、複雜內容的邏輯理解能力也可以做到如人物關係圖、時間線圖等等,例如以下的新聞生成工具。
這個 multil-agent 架構的新聞生成工具主要由一個 Root agent 和三個 Sub agent 組成,其中 Crawl Agent 可以對於輸入的議題上網爬取資料,作為新聞內容參考來源。Root agent 除了負責將特定任務指派給各個 Sub agent,也可以利用工具進行新聞內容的生成與潤飾。Image Agent 也就是用到 Gemini 3 Pro Image 的部分(圖三紅框),負責處理各種文章示意圖的提示詞與圖片生成,最後 HTML Agent 會將所有生成完的資料依照定義好的 HTML 模板,呈現新聞文章(圖三)。

Image Agent 中的工具區分為文字與圖片:包含將新聞文章內容整理成適合生成示意圖,例如模糊化人物,轉而針對情境或事件進行描述,以及生成生圖的提示詞。另外,就是呼叫 Gemini API 進行圖片生成和編輯。
儘管 Gemini 3 Pro Image 可理解長篇文字,並生成圖片,理論上可以把整篇新聞文章直接丟 Gemini 3 Pro Image,並要求其製圖,但若想達到更好的效果,提供圖片用途、圖片中的具體細節描述、想呈現的重點、風格等等將大幅提升生成圖片品質。因此圖片生成前的提示詞處理是必要的,且針對不同類型的圖片,如新聞示意圖、人物關係圖分別會有不同的工具,再根據文章內容產生該圖片的提示詞。
例如,在人物關係圖提示詞生成工具中,有設置模板確保人物關係圖格式:

並要求 “圖中應包含{content_list}中提及的重要角色,並以帶有箭頭和簡短文字描述的線條,指出他們之間的單向或雙向關係。”旨在產生明確的提示詞用於生成人物關係圖。至於圖片編輯的功能,因圖片生成和編輯需藉由呼叫 Gemini API。
另外,此 agent 的流程設計通常會一次產生兩張示意圖,為確保需要編輯時可以準確地指出要需調整的圖片,與圖片資料管理,在生成圖片後,該 Agent 會將其存到 Google Cloud Storage 中,同時將提示詞作為 meta data 與圖片一起存在 GCS,並把 meta data 和圖片一起呈現給用戶。
如果用戶想要編輯圖片時,可透過複製貼上 meta data 指定要修改的圖片,編輯圖片工具會抓取最近十筆資料,並比對兩者,以確認用戶所指的圖片,接著再根據用戶的修改需求,對圖片進行調整。

上述提及的新聞生成 Multi-agent 架構,僅是 Gemini 3 Pro Image 實際應用場景的其中一例,正是因為它在圖中文字處理、空間邏輯推理以及多模態理解上的突破,讓 AI 生圖不再只是娛樂性質的創作工具,而是能真正解決問題的工具,甚至在處理、理解複雜的資訊,並將之視覺化。
Gemini 3 Pro Image 展現了過往模型難以企及的潛力,隨著技術的成熟,我們正從單純的下指令生圖,跨入與具備深度思考能力的視覺助手協作的新時代,在各個領域激盪出更多創新的應用可能。
CloudMile X Gemini 3:讓內容產業全面踏入代理化時代
CloudMile 萬里雲獨家研發的 NewsSpark 內容生成平台,是一款以 Gemini 3 為核心的 AI Agent 內容生成平台,也是 CloudMile 萬里雲結合最新生成式 AI 能力後,打造出的「下一代 AI 代理內容產線」,它不只是提升產出速度,而是重新定義內容生產的角色分工。
NewsSpark 讓內容不再只是每日的人力挑戰,而是讓企業真正的資產在市場競爭中創造差異化。對現代內容平台而言,需求已不再只是導入 AI,也不再只是擁抱雲端,而是要讓一整套 AI 代理能在真實環境中穩定協作、持續產出並不斷優化。
CloudMile 萬里雲為獲得新台雙政府認證的 AI 公司,擁有多方產業認證的 AI 技術框架與安全合規的導入流程。當你準備好讓內容平台或新聞編輯流程邁向「代理化」的新階段,NewsSpark 將會是最能直接帶來變化、也是最值得啟動的第一步。想了解如何運用 AI 代理化提升企業內容價值,歡迎聯繫 CloudMile 萬里雲,由專家提供專屬諮詢與解決方案。
(本文訊息由 CloudMile 萬里雲提供,內文與標題經 TechOrange 修訂後刊登。新聞稿 / 產品訊息提供,可寄至:[email protected],經編輯檯審核並評估合宜性後再行刊登。圖片來源:CloudMile 萬里雲。)



