AI 推理市場將洗牌？Cerebras 讓兆級參數模型推理逼近每秒 1,000 tokens，挑戰 GPU 雲端瓶頸

《VentureBeat》報導，剛完成 2026 年最大規模科技 IPO 的晶片公司 Cerebras Systems 宣布，為客戶運行北京 Moonshot AI 開發的兆級參數開源模型 Kimi K2.6，速度接近每秒 1,000 個 token，目前主流 GPU 雲端供應商尚未達到相近的性能水準。

根據獨立測試機構 Artificial Analysis 的驗證結果，Cerebras 系統實際達到每秒 981 個輸出 token，速度比第二快的 GPU 雲端供應商快 6.7 倍、比中位數快 23 倍。在標準代理程式設計任務中，同一個模型在不同推理平台上的表現差異顯著：官方 Kimi API 需 163.7 秒，而 Cerebras 只需 5.6 秒即可完成完整回應，時間縮短約 29 倍。

承載兆參數大模型，Cerebras 宣示不只追求速度

Cerebras 產品行銷總監 James Wang 在發布前接受《VentureBeat》專訪時表示：「我們可以支援最大規模的模型。」這次發布對 Cerebras 具有關鍵意義。該公司長期被認為其獨特的晶圓級晶片雖然極快，但可能只能處理中小型模型，而 Kimi K2.6 是其首次在生產環境中部署的兆參數開源模型。隨著 IPO 後取得約 55.5 億美元資金與 950 億美元市值，Cerebras 也向市場傳遞：它不只追求速度，也要進入「模型規模」的競爭前線。

Kimi K2.6 模型由中國 Moonshot AI 開發，該公司成立於 2023 年，為中國 AI 新創企業之一。公司模型採用兆級參數的 Mixture-of-Experts（MoE）架構，在多項程式設計與代理任務基準測試中表現突出，例如在 SWE-Bench Pro 獲得 58.6 分，超越 Claude Opus 4.6，並接近 GPT-5.4，在 Humanity’s Last Exam 與 DeepSearchQA 等測試中也取得領先成績。是少數可被企業用來替代 Anthropic 與 OpenAI 等封閉 API 的開源模型之一。

James Wang 坦言，企業之所以轉向這類模型，部分原因是希望擺脫對 Anthropic 的依賴：「他們的模型很強，我自己也在用，但成本很高，而且經常出現容量不足。」Kimi K2.6 模型總參數規模達 1 兆，但每個 token 僅啟動約 320 億參數進行運算。其採用 384 個專家的 MoE 架構，每次推理會選取其中 8 個專家與 1 個共享專家，並支援 256,000 token 的上下文窗口。

Cerebras 強調高速度定位，數據顯示其具性能優勢

《VentureBeat》說明，Cerebras 與傳統 GPU 最大差異在於架構。當前主流 AI 推理依賴 NVIDIA GPU 叢集運行，模型參數分散在多顆晶片中，資料在晶片間頻繁傳輸，導致延遲與頻寬瓶頸。Cerebras 則採用晶圓級引擎，整個晶片大小接近一片晶圓，內建 44GB SRAM。與 GPU 使用的 HBM 相比，SRAM 直接位於晶片上，延遲更低、頻寬更高。

在 Kimi K2.6 的部署中，模型權重以 4-bit 精度儲存，計算則使用 16-bit 浮點運算，分散在約 20 套 CS-3 系統中。特定 MoE 層的 AI 專家模型被部署於同一片晶圓上，使得該層的 All-to-All 傳輸可在 SRAM 速度下完成，據稱其晶圓內網路頻寬是 NVLink 的 200 倍以上。James Wang 將其比喻為「排隊系統」：不同層像不同隊列，同時處理多個使用者，但傳輸速度極快，最終輸出仍可達近 1,000 tokens/秒。他表示公司定位，並不以最低成本為目標，而是專注於高速度需求市場。

AI 生態系競爭：超大模型將推動平台遷移與結構轉變？

Cerebras 的長期願景是未來企業軟體將由 AI 代理主導，而非人類開發者，推理速度將直接決定企業競爭力。James Wang 認為：「世界經濟正在被 AI 代理重建，速度將決定勝負。」在這樣的敘事中，晶片不再只是運算工具，而是思考速度的基礎設施。《VentureBeat》指出，如果 AI 的價值取決於回應速度，那麼能以「一杯咖啡時間」完成兆級模型推理的公司，就可能掌握下一代 AI 基礎建設的核心位置。NVIDIA 以約 200 億美元規模布局 Groq 等推理技術的討論，也被視為其加速進入高速推論領域的訊號。

NVIDIA 擁有龐大生態系與深度整合的 CUDA 軟體堆疊，而晶圓級晶片在製造上極為複雜，同時帶來傳統晶片架構較少面臨的風險。《Crypto Briefing》補充，單一巨型晶片本身難以打造，要讓企業信任並用於生產環境則更具挑戰。當性能差距僅為個位數百分比時，生態系優勢仍占上風；但若差距達到數倍，競爭邏輯就會改變。

《Crypto Briefing》指出，NVIDIA 仍不會被取代，其在 AI 訓練領域的主導地位穩固，推理能力持續提升。但 Cerebras 正在切入其具有結構性優勢的領域：以極高速度服務超大規模模型。隨著模型持續擴大，市場空間也在擴張。關鍵不在於 Cerebras 是否能在基準測試中勝出，而在於企業是否會大規模將生產工作負載遷移至該平台，以及其是否能在競爭中維持速度優勢。

＊本文開放合作夥伴轉載，資料來源：《VentureBeat》、《Crypto Briefing》，圖片來源：Cerebras。

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

AI 推理市場將洗牌？Cerebras 讓兆級參數模型推理逼近每秒 1,000 tokens，挑戰 GPU 雲端瓶頸

承載兆參數大模型，Cerebras 宣示不只追求速度

Cerebras 強調高速度定位，數據顯示其具性能優勢

AI 生態系競爭：超大模型將推動平台遷移與結構轉變？

TO 會員電子報

台灣 AI 採用贏全球，產出成果卻落後一截？微軟揭企業 AI 的導入盲點

南韓砸逾 8,800 億美元打造 AI 國家隊：拆解台、日、韓的 AI 國力競賽

從 8 小時到 22 秒就能破解！當 AI 變成駭客工具，你的公司準備好了嗎？（下篇）

資安長看不到的「暗物質」：放手讓 AI 自動修補前，先過 5 道門檻