當 AI 產業焦點逐漸從訓練競賽轉向推理競賽,市場開始思考:下一代 AI 系統比拼的,是堆疊更多的 GPU,還是更低的 Token 成本?AI 晶片新創 Tensordyne 給出的答案,是後者:從「數學架構」重新設計 AI 運算。根據《Reuters》報導,這家公司宣布即將推出的推理系統 Tensordyne Napier(TDN)已吸引超過 2 億美元的預估需求,並有十多家企業表達測試意向。
宣稱速度比 NVIDIA GB300 快 4 倍、功耗僅五分之一
最能說明 Tensordyne 野心的,是它端出的對比數字。《IEEE Spectrum》報導,根據模擬結果,Tensordyne 的新晶片在推理的能源效率與延遲上,有機會大幅超越市場領導者 NVIDIA。該公司宣稱,其 72 顆晶片系統運行大型 LLM 的速度,是配備 72 顆晶片 NVIDIA GB300 系統的 4 倍,功耗卻僅五分之一。
成本端同樣是賣點。根據《IEEE Spectrum》,其一個由 4 個 pod 組成的機櫃在運行 2 兆參數的 LLM 時,可達到每位使用者每秒 1,300 個 token,成本為每百萬 token 11 美元,功耗為 120 千瓦;相較之下,要達到類似的每位使用者每秒 token 吞吐量,需要至少一套 9 個機櫃的 NVIDIA Rubin 與 Groq 3 系統,且依該公司估計可能會消耗約 1.5 兆瓦的電力。換言之,Tensordyne 主打的核心優勢,正是用更低的功耗與每 Token 成本完成大型模型推理。
把乘法變成加法:對數運算的賭注
那麼,這樣的效率從何而來?與多數 AI 晶片公司選擇透過更先進製程、更大記憶體或更多晶片堆疊提升效能不同,Tensordyne 選擇從矩陣運算本身下手,並包含運算架構、機一體與網路等核心層面設計整個 AI 推理技術堆疊。矩陣乘法是大型語言模型執行推理時最核心的運算之一。Tensordyne 的 Napier 晶片利用「對數(Logarithm)運算」特性,將原本需要大量乘法器執行的計算轉換成加法運算。
Tensordyne 共同創辦人暨 AI 副總裁 Gilles Backhus 向《IEEE Spectrum》表示:「我們把乘法器變成了加法器(We’ve turned multipliers into adders)。」原因在於,數學上 log(A×B) 等於 log(A)+log(B)。而相較於乘法器,加法器所需電路面積更小、功耗更低,因此能在相同晶片面積內放入更多運算單元。
這個原理早已為人所知,難的是怎麼用。Backhus 表示,過去在對數與描述神經網路的浮點數之間來回轉換,太耗時、太耗電,也會引入太多誤差;而 Tensordyne 的突破,正是解決了這個關鍵。「到目前為止,沒有人想出像我們這樣做線性轉對數、對數轉線性的方法。」他說,其公司的工程師找到了在晶片上「非常優雅、非常精準且便宜」完成這件事的方式。
事實上,數字格式的重要性 AI 業界也不陌生。《IEEE Spectrum》提到,NVIDIA 首席科學家 Bill Dally 曾在 2023 年的 Hot Chips 會議上,把當時 GPU 改進的大部分歸功於採用更短的數字格式;學界也研究過 posit、takum 等類對數格式,但因其硬體實作與傳統浮點差異太大,始終未能普及。
為何是現在?推理取代訓練成為焦點
Tensordyne 押注推理,呼應了整個產業的重心轉移。《IEEE Spectrum》指出,包括 AI 代理興起在內的市場趨勢,意味著「推理」(即執行神經網路模型)正變得比訓練新的大型語言模型更重要,成本與回應速度開始主導,促使 AI 公司尋找更契合這項任務的系統架構,而 Tensordyne 高層表示,他們早就預見了這一點。
要理解其設計,得先看執行 LLM 的兩個階段。報導說明,第一階段是 prefill,模型接收輸入文字、轉成 token,並建立一種關於輸入的工作記憶(key-value cache),這是運算量很重的任務;第二階段是 decode,模型逐一生成輸出 token,由於每個新 token 都要根據前一個 token 與 key-value cache 來預測,這種序列性質讓 decode 較慢,且更依賴記憶體與網路延遲,而非運算力。
正因兩階段需求不同,晶片業者開始分而治之:NVIDIA 主打用一櫃 B300 GPU 負責 prefill、再用數櫃 Groq 3 處理器負責 decode;AWS 則用一櫃自家 Trainium 晶片做 prefill、搭配數櫃 Cerebras 的晶圓級電腦做 decode。
Tensordyne 的差異化主張,是用單一系統同時應付這兩種需求。「我們是同時為兩個難題進行最佳化,」共同創辦人暨產品長 R.K. Anand 表示,「我們是第一家證明你可以不靠多家供應商、多個機櫃就同時做到這兩件事的公司。」具體而言,prefill 所需的密集運算來自對數數學,decode 的需求則由 144GB 的高頻寬記憶體,以及一套延遲僅 1 微秒的客製網路「Tensordyne Napier Link」來滿足。
數字仍待驗證,背後夥伴與資金到位
不過,Tensordyne 的成效要等到今年稍晚才會有真實系統來驗證;該公司計劃先透過雲端提供 beta 版本供客戶使用,並預計約一年後開始出貨,72 晶片系統的商業銷售則排定在 2027 年下半年。
在落地能力上,Tensordyne 並非單打獨鬥。據《Reuters》報導,Napier 晶片是與 Broadcom 及 HPE 旗下的 Juniper Networks 合作開發,並由全球最大的晶圓代工廠台積電製造,採用 3nm 製程。這家總部位於加州 Sunnyvale 的公司,目標是在生成式 AI 需求激增之際,透過提升推理速度、功耗效率與機櫃密度來緩解 AI 基礎設施的瓶頸。
《Reuters》補充,Tensordyne 成立於 2017 年,原名 Recogni,去年才改名,迄今已從 Celesta Capital、GreatPoint Ventures 與 Juniper Networks 等投資人募得約 1.76 億美元,並準備在今年稍晚進行 D 輪募資。
綜合來看,Tensordyne 的故事不只是「又一家挑戰 NVIDIA」的新創。當它選擇從對數數學重新設計運算、主打更低的功耗與每 Token 成本時,反映的是 AI 基礎設施競爭正從單純堆疊算力的軍備競賽,走向推理經濟學與效率競爭的新階段。只是,這套以數學為賭注的架構究竟能否兌現模擬中的數字,仍得等到真實系統上線後才會揭曉。
【推薦閱讀】
◆ 從黑名單到全鏈追蹤:台灣擬將 AI 晶片管制擴大到所有中國客戶,伺服器供應鏈迎合規新考驗
*本文開放合作夥伴轉載,資料來源:《Reuters》、《IEEE Spectrum》、《Forbes》、Tensordyne,首圖來源:



