Gemini 3 Pro Image 在媒體圖片生成之應用

從「娛樂製圖」到「知識生產」：Gemini 3 Pro Image 如何定義新一代視覺生成標準？

過去 AI 生圖的侷限

幾年前的 AI 生圖工具如早期版本的 Stable Diffusion 或 Midjourney，雖能快速產出令人驚豔的畫面，卻往往存在許多缺陷，難以真正應用在實際情境中。最常見的痛點，包括對文字的掌握度極低，AI 模型常將文字視為單純的幾何花紋，導致招牌、標語全是像外星文般的亂碼。

另外，空間邏輯也常錯亂，分不清左右，或將物體融合在一起；加上 AI 生圖工具對複雜指令理解不足，不擅長繪製手指等細節問題，且生成後缺乏精準修改的彈性，種種因素都限制其實用性。儘管隨技術迭代，近期的模型已能更精準地生成內容，但面對複雜邏輯的情境時，產出的圖片仍常與使用者腦中的理想畫面有所落差。

Gemini 3 Pro Image 的突破

去（2025）年 11 月 Google 正式推出新一代模型 Gemini 3 Pro，並在多個深度思考和複雜操作的基準測試中獲得好成績，與其一同問世，同樣備受討論的生圖模型 Gemini 3 Pro Image，以 Gemini 3 Pro 作為架構的原生多模態推理模型，也在多項圖片生成模型能力的測試中榮獲佳績(圖一)。

圖一：Gemini 3 Pro Image 在多個圖片生成模型能力的基準測試中表現出色。

在既有能力 (Existing Capabilities)提升方面，Gemini 3 Pro Image 在圖中文字處理能力的文字渲染 (Text Rendering) 項目中，達 1198 高分，相較於上一代 Gemini 2.5 Flash Image 的 997 分有所成長。

過去 Gemini 2.5 Flash Image 雖已能生成含英文文字的圖像，但面對英文以外的語系時，仍常出現亂碼；而現在的 Gemini 3 Pro Image 不僅在文字編輯 (Text Editing) 項目中拿下 1202 的高分，更可以生成繁體中文，儘管偶有錯字，但無疑是巨大的技術突破。

不僅如此，在考驗邏輯與一致性的多角色編輯 (Multi-character Editing) 測驗中，Gemini 3 Pro Image 獲得 1213 分，超越前代的 950 分，它同時支援 14 張參考圖像，並能保持 5 個角色在不同畫面中的外觀一致性，這對製作連貫分鏡、故事圖像而言至關重要。

針對高度精確性的資訊呈現，Gemini 3 Pro Image 也在資訊圖表(Infographics) 與圖表編輯 (Chart Editing) 測試中，分別取得 1268 分與 1209 分，展現壓倒性優勢，證明它不僅能生成圖片，更能精準處理複雜的數據視覺化。

最後，在畫面的藝術表現與修圖能力上，其風格化 (Stylization) 分數從前代的 933 分提升至 1098 分，顯示其對不同藝術風格的掌握更顯細膩度、精益求精；而通用圖像編輯 (General Image Editing) 也以 1127 分優於前代的 996 分，意味 Gemini 3 Pro Image 已不再只是單純的繪圖工具，而是能精準處理知識內容視覺化的智慧助手。
Gemini 3 Pro Image 之所以能有這些成就，可以歸功於 Gemini 3 Pro 的多模態推理能力，作為基於 Gemini 3 Pro 的圖片生成模型，Gemini 3 Pro Image 良好的推理能力以及大量的多模態訓練數據，使其能更準確地理解複雜提示詞，提升對空間位置、邏輯關係的理解，從而提升內容的正確性。

Gemini 3 Pro Image 在新聞生成 Multil-Agent 架構中的應用情境

Gemini 3 Pro Image 相較其他生圖模型的強項，在於將複雜的資訊內容視覺化，和提升圖中文字的處理能力，大幅拓展 AI 生圖的應用情境。除了精準地依照指令修改圖中細節，結合多張圖片、資料進行新生成，對文字掌握的良好程度，甚至達到對圖中文字翻譯與修改(圖二)。

此外，Gemini 3 Pro Image 在生成圖片時，還可以開啟 google 搜尋工具，根據天氣預報、股票圖表與近期活動等即時資訊生成圖片。對長篇幅、複雜內容的邏輯理解能力也可以做到如人物關係圖、時間線圖等等，例如以下的新聞生成工具。

這個 multil-agent 架構的新聞生成工具主要由一個 Root agent 和三個 Sub agent 組成，其中 Crawl Agent 可以對於輸入的議題上網爬取資料，作為新聞內容參考來源。Root agent 除了負責將特定任務指派給各個 Sub agent，也可以利用工具進行新聞內容的生成與潤飾。Image Agent 也就是用到 Gemini 3 Pro Image 的部分(圖三紅框)，負責處理各種文章示意圖的提示詞與圖片生成，最後 HTML Agent 會將所有生成完的資料依照定義好的 HTML 模板，呈現新聞文章(圖三)。

Image Agent 中的工具區分為文字與圖片：包含將新聞文章內容整理成適合生成示意圖，例如模糊化人物，轉而針對情境或事件進行描述，以及生成生圖的提示詞。另外，就是呼叫 Gemini API 進行圖片生成和編輯。

儘管 Gemini 3 Pro Image 可理解長篇文字，並生成圖片，理論上可以把整篇新聞文章直接丟 Gemini 3 Pro Image，並要求其製圖，但若想達到更好的效果，提供圖片用途、圖片中的具體細節描述、想呈現的重點、風格等等將大幅提升生成圖片品質。因此圖片生成前的提示詞處理是必要的，且針對不同類型的圖片，如新聞示意圖、人物關係圖分別會有不同的工具，再根據文章內容產生該圖片的提示詞。

例如，在人物關係圖提示詞生成工具中，有設置模板確保人物關係圖格式：

並要求 “圖中應包含{content_list}中提及的重要角色，並以帶有箭頭和簡短文字描述的線條，指出他們之間的單向或雙向關係。”旨在產生明確的提示詞用於生成人物關係圖。至於圖片編輯的功能，因圖片生成和編輯需藉由呼叫 Gemini API。

另外，此 agent 的流程設計通常會一次產生兩張示意圖，為確保需要編輯時可以準確地指出要需調整的圖片，與圖片資料管理，在生成圖片後，該 Agent 會將其存到 Google Cloud Storage 中，同時將提示詞作為 meta data 與圖片一起存在 GCS，並把 meta data 和圖片一起呈現給用戶。

如果用戶想要編輯圖片時，可透過複製貼上 meta data 指定要修改的圖片，編輯圖片工具會抓取最近十筆資料，並比對兩者，以確認用戶所指的圖片，接著再根據用戶的修改需求，對圖片進行調整。

上述提及的新聞生成 Multi-agent 架構，僅是 Gemini 3 Pro Image 實際應用場景的其中一例，正是因為它在圖中文字處理、空間邏輯推理以及多模態理解上的突破，讓 AI 生圖不再只是娛樂性質的創作工具，而是能真正解決問題的工具，甚至在處理、理解複雜的資訊，並將之視覺化。

Gemini 3 Pro Image 展現了過往模型難以企及的潛力，隨著技術的成熟，我們正從單純的下指令生圖，跨入與具備深度思考能力的視覺助手協作的新時代，在各個領域激盪出更多創新的應用可能。

CloudMile X Gemini 3：讓內容產業全面踏入代理化時代

CloudMile 萬里雲獨家研發的 NewsSpark 內容生成平台，是一款以 Gemini 3 為核心的 AI Agent 內容生成平台，也是 CloudMile 萬里雲結合最新生成式 AI 能力後，打造出的「下一代 AI 代理內容產線」，它不只是提升產出速度，而是重新定義內容生產的角色分工。

NewsSpark 讓內容不再只是每日的人力挑戰，而是讓企業真正的資產在市場競爭中創造差異化。對現代內容平台而言，需求已不再只是導入 AI，也不再只是擁抱雲端，而是要讓一整套 AI 代理能在真實環境中穩定協作、持續產出並不斷優化。

CloudMile 萬里雲為獲得新台雙政府認證的 AI 公司，擁有多方產業認證的 AI 技術框架與安全合規的導入流程。當你準備好讓內容平台或新聞編輯流程邁向「代理化」的新階段，NewsSpark 將會是最能直接帶來變化、也是最值得啟動的第一步。想了解如何運用 AI 代理化提升企業內容價值，歡迎聯繫 CloudMile 萬里雲，由專家提供專屬諮詢與解決方案。

(本文訊息由 CloudMile 萬里雲提供，內文與標題經 TechOrange 修訂後刊登。新聞稿 / 產品訊息提供，可寄至：[email protected]，經編輯檯審核並評估合宜性後再行刊登。圖片來源：CloudMile 萬里雲。）

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Gemini 3 Pro Image 在媒體圖片生成之應用

過去 AI 生圖的侷限

Gemini 3 Pro Image 的突破

Gemini 3 Pro Image 在新聞生成 Multil-Agent 架構中的應用情境

CloudMile X Gemini 3：讓內容產業全面踏入代理化時代

TO 會員電子報

台灣 AI 採用贏全球，產出成果卻落後一截？微軟揭企業 AI 的導入盲點

南韓砸逾 8,800 億美元打造 AI 國家隊：拆解台、日、韓的 AI 國力競賽

從 8 小時到 22 秒就能破解！當 AI 變成駭客工具，你的公司準備好了嗎？（下篇）

資安長看不到的「暗物質」：放手讓 AI 自動修補前，先過 5 道門檻