Search
Close this search box.

AI 推理市場將洗牌?Cerebras 讓兆級參數模型推理逼近每秒 1,000 tokens,挑戰 GPU 雲端瓶頸

《VentureBeat》報導,剛完成 2026 年最大規模科技 IPO 的晶片公司 Cerebras Systems 宣布,為客戶運行北京 Moonshot AI 開發的兆級參數開源模型 Kimi K2.6,速度接近每秒 1,000 個 token,目前主流 GPU 雲端供應商尚未達到相近的性能水準。

根據獨立測試機構 Artificial Analysis 的驗證結果,Cerebras 系統實際達到每秒 981 個輸出 token,速度比第二快的 GPU 雲端供應商快 6.7 倍、比中位數快 23 倍。在標準代理程式設計任務中,同一個模型在不同推理平台上的表現差異顯著:官方 Kimi API 需 163.7 秒,而 Cerebras 只需 5.6 秒即可完成完整回應,時間縮短約 29 倍。

承載兆參數大模型,Cerebras 宣示不只追求速度

Cerebras 產品行銷總監 James Wang 在發布前接受《VentureBeat》專訪時表示:「我們可以支援最大規模的模型。」這次發布對 Cerebras 具有關鍵意義。該公司長期被認為其獨特的晶圓級晶片雖然極快,但可能只能處理中小型模型,而 Kimi K2.6 是其首次在生產環境中部署的兆參數開源模型。隨著 IPO 後取得約 55.5 億美元資金與 950 億美元市值,Cerebras 也向市場傳遞:它不只追求速度,也要進入「模型規模」的競爭前線。

Kimi K2.6 模型由中國 Moonshot AI 開發,該公司成立於 2023 年,為中國 AI 新創企業之一。公司模型採用兆級參數的 Mixture-of-Experts(MoE)架構,在多項程式設計與代理任務基準測試中表現突出,例如在 SWE-Bench Pro 獲得 58.6 分,超越 Claude Opus 4.6,並接近 GPT-5.4,在 Humanity’s Last Exam 與 DeepSearchQA 等測試中也取得領先成績。是少數可被企業用來替代 Anthropic 與 OpenAI 等封閉 API 的開源模型之一。

James Wang 坦言,企業之所以轉向這類模型,部分原因是希望擺脫對 Anthropic 的依賴:「他們的模型很強,我自己也在用,但成本很高,而且經常出現容量不足。」Kimi K2.6 模型總參數規模達 1 兆,但每個 token 僅啟動約 320 億參數進行運算。其採用 384 個專家的 MoE 架構,每次推理會選取其中 8 個專家與 1 個共享專家,並支援 256,000 token 的上下文窗口。

Cerebras 強調高速度定位,數據顯示其具性能優勢

《VentureBeat》說明,Cerebras 與傳統 GPU 最大差異在於架構。當前主流 AI 推理依賴 NVIDIA GPU 叢集運行,模型參數分散在多顆晶片中,資料在晶片間頻繁傳輸,導致延遲與頻寬瓶頸。Cerebras 則採用晶圓級引擎,整個晶片大小接近一片晶圓,內建 44GB SRAM。與 GPU 使用的 HBM 相比,SRAM 直接位於晶片上,延遲更低、頻寬更高。

在 Kimi K2.6 的部署中,模型權重以 4-bit 精度儲存,計算則使用 16-bit 浮點運算,分散在約 20 套 CS-3 系統中。特定 MoE 層的 AI 專家模型被部署於同一片晶圓上,使得該層的 All-to-All 傳輸可在 SRAM 速度下完成,據稱其晶圓內網路頻寬是 NVLink 的 200 倍以上。James Wang 將其比喻為「排隊系統」:不同層像不同隊列,同時處理多個使用者,但傳輸速度極快,最終輸出仍可達近 1,000 tokens/秒。他表示公司定位,並不以最低成本為目標,而是專注於高速度需求市場。

AI 生態系競爭:超大模型將推動平台遷移與結構轉變?

Cerebras 的長期願景是未來企業軟體將由 AI 代理主導,而非人類開發者,推理速度將直接決定企業競爭力。James Wang 認為:「世界經濟正在被 AI 代理重建,速度將決定勝負。」在這樣的敘事中,晶片不再只是運算工具,而是思考速度的基礎設施。《VentureBeat》指出,如果 AI 的價值取決於回應速度,那麼能以「一杯咖啡時間」完成兆級模型推理的公司,就可能掌握下一代 AI 基礎建設的核心位置。NVIDIA 以約 200 億美元規模布局 Groq 等推理技術的討論,也被視為其加速進入高速推論領域的訊號。

NVIDIA 擁有龐大生態系與深度整合的 CUDA 軟體堆疊,而晶圓級晶片在製造上極為複雜,同時帶來傳統晶片架構較少面臨的風險。《Crypto Briefing》補充,單一巨型晶片本身難以打造,要讓企業信任並用於生產環境則更具挑戰。當性能差距僅為個位數百分比時,生態系優勢仍占上風;但若差距達到數倍,競爭邏輯就會改變。

《Crypto Briefing》指出,NVIDIA 仍不會被取代,其在 AI 訓練領域的主導地位穩固,推理能力持續提升。但 Cerebras 正在切入其具有結構性優勢的領域:以極高速度服務超大規模模型。隨著模型持續擴大,市場空間也在擴張。關鍵不在於 Cerebras 是否能在基準測試中勝出,而在於企業是否會大規模將生產工作負載遷移至該平台,以及其是否能在競爭中維持速度優勢。

*本文開放合作夥伴轉載,資料來源:《VentureBeat》《Crypto Briefing》,圖片來源:Cerebras。