當 NVIDIA 全力衝 AI，為何美國國家實驗室開始測試非 GPU 晶片？

當全球半導體產業競相追逐 AI 熱潮時，傳統科學運算領域正悄悄展開一場硬體架構的底層革命。十多年來，美國國家實驗室高度仰賴 NVIDIA 與 AMD 等主流半導體業者的晶片來執行複雜的數學問題與超級電腦運算，如今美國 Sandia 國家實驗室卻開始測試 NextSilicon 等新創公司的晶片，探索 GPU 之外的新型運算架構。

這波硬體轉向的關鍵，在於科學模擬極度依賴的雙精度浮點運算（FP64）能力。Sandia 國家實驗室肩負著模擬核武物理反應等需要極高精確度運算的國家安全任務，而這類高精度模擬與一般 AI 訓練的需求截然不同。AI 訓練與推論並不需要 FP64 的精度，更依賴低精度運算來追求速度與效能。

AI 熱潮開始擠壓 HPC 的 FP64 資源

《Reuters》報導，隨著 AI 市場規模急速擴大，NVIDIA 與 AMD 等企業將重心轉向 AI 推論與訓練市場，加上晶片短缺，傳統 HPC 所需的 FP64 資源開始面臨被稀釋的窘境，迫使研究人員必須重新尋找替代晶片架構。

《The Register》指出，NVIDIA 即將推出的 Rubin GPU 雖然擁有高達 50 petaFLOPS 的 FP4 AI 算力，但原生 FP64 效能反而下降到 33 teraFLOPS，甚至低於近 4 年前的 H100。雖然 NVIDIA 嘗試透過 Ozaki scheme 等「模擬 FP64」技術維持 HPC 能力，但該報導評論其在大量向量運算、計算流體力學（CFD）等工作負載上，較不具優勢。

面對外界疑慮，NVIDIA 超級電腦產品資深總監 Daniel Ernst 向《Reuters》表示，公司仍致力於科學運算，目標是打造能同時處理真實科學應用與 AI 工作的均衡晶片。AMD 則採取了分化策略，在 AI 導向的 MI455X 之外，另行推出專為 HPC 設計的 MI430X，搭載專用於科學運算的運算晶片，據《The Register》報導，其峰值 FP64 效能可達 200 teraFLOPS，預計部署於美國能源部的 Discovery 與歐洲的 Alice Recoque 超級電腦。

正是在這樣的背景下，Sandia 國家實驗室決定透過其 Vanguard 計畫，測試來自以色列新創 NextSilicon 的晶片。Vanguard 是 Sandia 評估新興運算架構的核心機制，要求候選系統在真實任務工作負載下通過嚴格驗收，才有資格進入更大規模的部署評估。而 NextSilicon 本週宣布，以 NextSilicon Maverick-2 晶片為核心的「Spectra」超級電腦，已通過所有系統驗收要求，意味著這款晶片已具備進一步導入美國政府系統的資格。

NextSilicon 的資料流架構：讓硬體動態適應工作負載

NextSilicon 晶片和 GPU 最大不同之處，在於其採用資料流架構（dataflow architecture），而非傳統 CPU、GPU 使用的馮紐曼架構。傳統 GPU 本質上仍高度依賴大量資料搬移與記憶體交換，但 NextSilicon 的設計則試圖讓資料流與運算執行同步進行。

據《The Register》報導，其晶片內部由兩個運算晶粒組成，每個晶粒包含以圖形結構互連的算術邏輯單元陣列，每個單元在執行時期被動態配置執行特定運算。資料一下一個運算單元，就會立即開始運算，不需反覆等待資料在記憶體與運算單元間搬移。這代表硬體本身會動態適應工作負載，而不是讓軟體受限於固定的 GPU 架構。

為克服資料流架構難以程式化的歷史挑戰，NextSilicon 還開發了一套編譯器，宣稱可直接執行現有的 C、Python、Fortran 與 CUDA 程式碼庫，透過在 CPU 上初次執行工作負載、捕捉運算圖、再映射至晶片並最佳化的方式，降低用戶的遷移門檻。

NextSilicon 表示，單顆 Maverick-2 可在 HPCG 測試中達到約 600 gigaFLOPS 的 FP64 效能，效能與主流 GPU 相當，同時功耗僅為後者的一半。

資料流架構並不是新概念，《The Register》指出，Groq、Cerebras、SambaNova 等業者也採用類似設計，但這些方案都鎖定 AI 推論或訓練市場，NextSilicon 是少數明確瞄準 HPC 領域的資料流架構業者之一。

《Reuters》報導，Sandia 過去與晶片公司的合作，也曾推動多項技術走向主流。例如十多年前，液冷技術仍被視為相當前衛時，Sandia 就開始推動 Intel、AMD 與 NVIDIA 投入相關研發，如今已成為資料中心常見設計。

負責測試新型運算架構的 Sandia 資深科學家 James Laros 表示，與 NextSilicon 這類較小型業者合作，目的在於確保即使大型晶片業者持續將重心轉向 AI，Sandia 仍能取得符合科學運算需求的晶片架構。

【推薦閱讀】

◆ Google 想複製 NVIDIA＋CoreWeave 模式，傳與黑石集團成立新 AI 雲端公司

◆ 中國 AI 硬體供應鏈拉警報：光通訊、PCB、功率晶片全面吃緊，AI 基建熱潮迎來「成長痛」

◆ 不用 HBM、不靠 3nm！台灣 Skymizer 如何用 28nm 打 AI 推論戰？

＊本文開放合作夥伴轉載，資料來源：《Reuters》、《The Register》、NextSilicon，首圖來源：NextSilicon

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

當 NVIDIA 全力衝 AI，為何美國國家實驗室開始測試非 GPU 晶片？

AI 熱潮開始擠壓 HPC 的 FP64 資源

NextSilicon 的資料流架構：讓硬體動態適應工作負載

TO 會員電子報

台灣 AI 採用贏全球，產出成果卻落後一截？微軟揭企業 AI 的導入盲點

南韓砸逾 8,800 億美元打造 AI 國家隊：拆解台、日、韓的 AI 國力競賽

從 8 小時到 22 秒就能破解！當 AI 變成駭客工具，你的公司準備好了嗎？（下篇）

資安長看不到的「暗物質」：放手讓 AI 自動修補前，先過 5 道門檻