高盛預估到 2030 年 Token 用量暴增 24 倍,企業如何避免 AI 帳單失控?

AI 越來越聰明,token 單價也越來越便宜,但只要缺乏管控,帳單很可能失控。根據高盛(Goldman Sachs)研究團隊預估,隨著消費者與企業導入 AI 代理(AI Agent),全球 token 消耗量將在 2026 至 2030 年間暴增 24 倍,來到每月 120 千兆(quadrillion)token。《華爾街日報》報導,企業開始部署一系列策略,包括雲端時代練就的老方法,以應對不斷攀升的 AI 成本。

Token 單價在跌,帳單卻越滾越大?

帳單失控,並不是因為 token 變貴了。根據貝恩(Bain & Company)研究,模型價格在 2024 年 12 月至 2025 年 12 月間約下跌 50%,但同期 token 消耗量卻成長 4.5 倍,漲的量遠遠蓋過跌的價。

而這波用量之所以壓不下來,源自 AI 使用型態的根本轉變:過去以提示(prompt)為主的聊天機器人,正被「一直開著」的自主 AI 代理取代,而後者消耗的 token 遠遠更多。高盛半導體與 IT 服務資深分析師 Jim Schneider 指出,相較於向聊天機器人提問,指派一個 Agent 去完成任務所需的運算量可高達 50 倍;高盛更預估,光是企業端的 AI 代理,到 2040 年就會讓 token 消耗量成長 55 倍。

AI 的計費模式也在轉向用量制:Anthropic 已改採用量計費,GitHub 則在 4 月調整定價,改成依 token 用量扣抵點數。如此一來,一旦缺乏控管,用量就會失速,《ITPro》就報導,曾有未具名公司因沒設用量上限,意外在 Claude 上花掉 5 億美元;Uber 也在四個月內燒完 AI 預算後,把員工用量上限設在每月 1,500 美元。

更長期的壓力可能來自寫程式。根據《TechRadar》,市場研究機構 Gartner 預測,最快到 2028 年,AI coding 工具的支出可能超過一名開發者的平均薪資,背後同時受到授權費增加與 token 消耗成長兩股力量推動。

於是,一度比拼誰用得多的「tokenmaxxing」風潮開始退燒,企業從鼓勵員工多用,轉為替使用踩煞車。《ITPro》引述外流的內部會議內容指出,顧問業巨頭埃森哲(Accenture)已要求非工程師減少把 AI 用在瑣碎工作上,例如把 PDF 轉成簡報。這樣的做法並非個案,亞馬遜與 Meta 日前就撤下鼓勵內部員工多用 AI 的排行榜、微軟因成本移除對 Claude Code 的存取,沃爾瑪(Walmart)則限縮員工對內部 AI 代理的使用。

把雲端時代的 FinOps 搬來管 AI

不過,替使用踩煞車、甚至直接拔掉工具,都只是最直接的手段,也有企業開始搬出一套更有系統、也似曾相識的方法:FinOps。據《華爾街日報》訪談多位企業技術主管,這套結合財務、工程與產品的做法源自 2010 年代的雲端熱潮,當初就是為了管理不斷膨脹的雲端支出,如今被原封搬來對付性質相近的 AI 帳單。

其中一步是可視化與問責。線上旅遊公司 Priceline 的 IT 財務資深總監 Chris Reed 向《華爾街日報》比喻,導入 AI 等於把信用卡交到終端使用者手上,一旦沒有控管、使用者又不夠了解,帳單就會被刷爆。Priceline 的做法是用儀表板追蹤 token 用量,每月向財務長與技術長回報;一旦某位員工用量偏高,就會展開一次對話,釐清他如何使用 AI,而額度並非一成不變,若用在能創造營收的專案上仍可放寬。

金融服務業者 Principal Financial Group 資訊長 Kathy Kay 則表示,公司比照過去管理雲端的做法建立治理與最佳化機制,核心是「用對的模型做對的任務」,讓用量提高不必然等於成本提高。軟體公司 Smartsheet 則由專責的 FinOps 團隊統管整體 AI 支出,設定自動告警提醒員工快觸及上限,並提供可依部門與主管細分的儀表板,讓成本即時被看見,不會到月底才驚覺。

根據《華爾街日報》,這股需求甚至反映在人才招募上,CVS Health 就正在徵求具備 FinOps 專長的 AI 維運工程主管,職務內容明確包含 GPU 成本治理與成本削減。

選對模型、用對方法,壓低每一筆 Token 成本

除了整體治理,另一條路是直接降低每次任務的單價。高通(Qualcomm)資訊長 Atilla Tinic 表示,公司對特定團隊設定 token 上限,並推行一套「show back」機制:把各部門的用量換算成實際金額攤給他們看,讓每個團隊理解自己的花費到底造成了什麼。

企業軟體公司 OpenText 資訊長暨數位長 Shannon Bell 指出,這類把成本攤給各部門看的做法,例如 show back 或 chargeback,可以讓組織的 token 成本下降 20% 至 30%,關鍵是讓開發主管為自己的支出與成果負起責任。

模型選擇是另一個施力點。與其把所有任務都跑在龐大又昂貴的模型上,一些公司改用較小、較舊或開源的模型來處理。高通則更進一步把這些模型跑在自家硬體上,成本還能再往下壓。零售商 Lowe’s 數位資訊長 Seemantini Godbole 表示,公司建立準則與機制來避免「token 浪費」,方法之一就是採用較小與開源的模型,但她也強調,只要是為了達成商業目標,用量本身就是好事,關鍵在於別把資本花在不需要的地方。

同樣的邏輯,加密貨幣交易所 Coinbase 執行長 Brian Armstrong 講得更具體。《Business Insider》報導,Armstrong 公開五項策略:一是把較便宜的開源模型設為預設;二是依任務難度把提示分流到最合適的模型,例如規劃時用前沿模型、執行時就不必動用;三是善用快取;四是切換任務時開新的工作階段,讓脈絡保持精簡;五是提升全公司的 AI 花費可視化。

Armstrong 強調,目的不是壓抑使用,而是打造讓指數成長得以持續的基礎設施,他也秀出公司 token 用量創下歷史高點、AI 支出卻已降至高峰時近半的數據。

Token 管理,正成為新的競爭門檻

真正的難題,其實不只是控制成本,而是判斷這筆錢值多少。Priceline 的 Reed 直言,高用量本身無所謂好壞,端看它連結到什麼樣的商業成果,而這正是最難量化的部分。Gartner 資深首席分析師 Nitish Tyagi 也點出同一個缺口:多數組織仍缺乏成熟的框架去衡量成本與商業影響的關係,加上供應商對 token 如何計算揭露不足,企業難以預估花費、也難以據此最佳化。

但這也正是這波成本課題的關鍵所在。綜合上述做法可以看出,企業要的不是少用 AI,而是把每一分花費都用在刀口上,既看清成本,也分辨哪些用量真正換得成果。當 token 成為 AI 的計費單位,管理 token 的能力,也正從一道後勤成本題,逐漸變成企業的競爭維度。

【推薦閱讀】

台灣 AI 採用贏全球,產出成果卻落後一截?微軟揭企業 AI 的導入盲點

AI 巨頭自己怎麼用 AI?OpenAI、Google、Anthropic 員工正從執行者變「審稿人」

資安長看不到的「暗物質」:放手讓 AI 自動修補前,先過 5 道門檻

*本文開放合作夥伴轉載,資料來源:《The Wall Street Journal》Goldman Sachs《Business Insider》《ITPro》《Techradar》,首圖來源:Unsplash