生成式 AI 的算力競賽正進入新階段。過去幾年,科技巨頭競相投入大量 GPU 訓練大型模型,但隨著 AI 應用快速普及,市場焦點正逐漸從「模型訓練」轉向「推理運算」。
亞馬遜雲端服務(AWS)近日宣布,將在資料中心部署 AI 晶片新創 Cerebras Systems 的處理器,用於支援 AI 推理(inference)工作負載。《華爾街日報》指出,這項多年合作協議,被視為 AI 算力市場的重要轉折點,也代表雲端業者開始積極尋找 GPU 之外的替代方案。
AI 算力市場轉向:從模型訓練走向推理
Cerebras 表示,AI 正在重塑軟體開發的方式,越來越多程式碼不是由人類工程師親自撰寫,而是由 AI 代理生成。與一般對話式聊天不同,代理式程式開發每次請求產生的 token 數量約為其 15 倍,因此 Cerebras 認為需要更高速度的輸出能力,才能維持開發效率。
AWS 表示,未來將在資料中心部署 Cerebras 的 Wafer-Scale Engine(晶圓級引擎)晶片,用於處理 AI 推理任務,也就是當使用者向 AI 模型提出問題時,系統生成回應的運算過程。
在新的架構中,AWS 自研晶片 Trainium 3 將負責處理使用者輸入的提示(prefill),而 Cerebras 晶片則負責生成回應內容。AWS 指出,這種分工架構可提升整體推理效率,尤其適合需要即時互動的 AI 應用,例如程式撰寫輔助或 AI 代理(AI agents)。
AWS 副總裁兼 Annapurna Labs 共同創辦人 Nafea Bshara 表示,這項服務預計在 2026 年下半年正式推出。
《華爾街日報》指出,GPU 雖然在模型訓練方面表現強大,但對於需要極高速度與低延遲的推理工作負載並非最佳選擇。隨著 AI 應用擴展到數百萬甚至數億用戶,企業也開始尋求更多元的硬體供應來源。
打造「巨型」AI 晶片,Cerebras 是誰?
成立於 2016 年的 Cerebras Systems,是近年 AI 晶片領域最受矚目的新創之一。公司開發的 Wafer-Scale Engine(WSE)晶片採用極端設計:整塊晶圓直接做成一顆處理器。
最新版本 WSE-3 晶片擁有超過 4 兆個電晶體,面積約為傳統 GPU 的 56 倍。Cerebras 表示,這種設計可大幅減少晶片間資料傳輸瓶頸,使 AI 計算效率顯著提升。
根據該公司數據,WSE 系統在推理與訓練運算中可提供超過 20 倍的效能功耗比,並在某些任務中達到比 GPU 快數十倍的速度。
Cerebras 執行長 Andrew Feldman 表示,公司晶片在推理「解碼」(decode)階段的處理速度,最高可達 NVIDIA GPU 的 25 倍。
這種速度優勢對生成式 AI 特別重要。例如在程式撰寫應用中,Cerebras 系統可讓 AI 以每秒 1000 tokens 的速度生成程式碼,大幅縮短開發者等待時間。
OpenAI 也加入,推升 Cerebras 聲量
AWS 並非唯一一家押注 Cerebras 的大型 AI 客戶。今年 1 月,OpenAI 與 Cerebras 簽署一項超過 100 億美元的合作協議,計畫使用 Cerebras 晶片提供高達 750 兆瓦(MW)的 AI 算力,用於支援 ChatGPT 等服務。
隨著 OpenAI 與 AWS 相繼採用該技術,Cerebras 在 AI 算力市場的地位迅速提升。今年 2 月,Cerebras 宣布完成 10 億美元 H 輪融資,公司估值達 230 億美元。投資者包括 Fidelity、Tiger Global、Benchmark 與 Coatue 等知名機構。
目前 AI 算力市場仍由 NVIDIA GPU 主導,但隨著 AI 需求暴增,各家企業正積極探索替代方案。AWS 本身就持續發展自研晶片,包括 Trainium 與 Inferentia,希望降低對 NVIDIA 的依賴。而 Cerebras、Groq、SambaNova 等新創公司,也試圖以專用晶片搶攻 AI 推理市場。
據《華爾街日報》報導,NVIDIA 近期也計劃推出一套專為推理運算設計的新型處理系統,並採用 AI 晶片新創 Groq 的技術。外界認為,這是 NVIDIA 因應市場競爭加劇的重要策略。
*本文開放合作夥伴轉載,資料來源:《Bloomberg》、《WSJ》、《Forbes》、《Financial Times》,首圖來源:截取自Cerebras



