為什麼 AI 圈害怕 DeepSeek？這家中國新創用什麼挑戰矽谷巨頭

在過去幾天，一家名為 DeepSeek 的中國新創成了矽谷熱門話題，很大的原因是它發布新的 AI 模型 DeepSeek R1，可以執行類似於 OpenAI o1 模型的推理過程。更令外界關注的是，他們用來訓練模型的先進晶片數量只占 AI 巨頭的一小部分。

根據資料，DeepSeek R1 在各種第三方基準測試上的得分與 OpenAI 的 o1 一樣高或更高。此外，相較於 o1 只提供 ChatGPT Plus 以上等級的付費訂閱者使用，DeepSeek R1 則是完全開源模型，這也解釋了它目前在 Hugging Face 獲得的下載次數最多，在最活躍模型排行榜人氣旺盛的原因。

DeepSeek 的存在，挑起了 2 道敏感神經。第一個是地緣政治，引發人們質疑美國對中國祭出的晶片禁令，是否變相讓中國研究人員運用網路免費工具發揮創意。第二，它的訓練成本低廉，也打破既定觀念：只有科技業最大、擁有最多 AI 晶片數量的公司才有能力製造最先進的 AI 系統。

DeepSeek 為何能大幅提升訓練效率？

根據《紐約時報》，中國工程師表示他們只需 600 萬美元的原始運算能力就可打造新模型，花費比 Meta 少了 10 倍。AI 巨頭使用了多達 16,000 個晶片，但 DeepSeek 表示他們只需要約 2,000 個專用電腦晶片。此外，DeepSeek 的 API 成本也比 OpenAI 的 o1 模型便宜 90% 以上。

有觀點指出，為了減少對海外高階晶片的依賴，中國 AI 公司在演算法、架構和訓練策略嘗試了新方法──許多人採用混和專家模型（mixture-of-experts），專注於基於特定資料訓練的小型 AI 模型，藉此提供強大的結果，同時減少運算資源。

劍橋大學電腦科學與科技學系教授 Nic Lane 觀察，DeepSeek 的成功不是來自單一重大創新，而是一系列細小的改進。以訓練過程為例，它經常透過取近似值（rounding）來簡化運算，但在需要的情況下仍然保留數字的精確性；它也重新調整伺服器叢集配置來優化晶片之間的通訊效率，並利用推理模型 DeepSeek R1 的輸出來微調模型，學習如何以較低成本模仿其品質。

此外，DeepSeek 運行成本也比其他企業低，將任務分配到多個晶片上，並在前一個流程完成之前就進到下一個流程，保持晶片滿載沒有冗餘。這個做法讓其另款 AI 模型 DeepSeek V3 收取的費用不到 Anthropic Claude 的 1/10。

相較於 OpenAI 需不斷尋求私人資金來支應其不斷膨脹的訓練成本，DeepSeek 作為中國量化基金 High Flyer 的子公司，則有母公司龐大的運算資源可運用。

「開源」是市場變化的關鍵

外媒分析，市場變化的部分關鍵是開源軟體。2023 年，Meta 免費分享了名為 Llama 的 AI 模型後，AI 開源生態系統開始蓬勃發展。DeepSeek 也將其最新的 AI 模型放入開源體系，這代表其他人也能用相同的技術建構和發布自己的產品。

加州柏克萊分校電腦科學教授 Ion Stoica 觀察，開源社群的重心一直向中國轉移，這對於美國來說可能是巨大的危險，將加速中國的新技術開發。

至於美國是否該加強開源技術，高階主管和專家有不同看法。認為不該開源的人表示，開源可能會被用來傳播假訊息或造成其他危害，但其他人認為如果美國開源技術不進步，開發商未來將在中國技術之上打造系統──這可能會讓中國成為 AI 研發的中心。

事實上，美國柏克萊大學 Sky Computing 實驗室近日發表的開源推理模型 Sky-T1，只要 450 美元訓練成本，就能達到和 OpenAI o1 性能媲美的模型。他們採用的開源技術，來自中國阿里巴巴。

也有人警告，DeepSeek 作為一家中國境外營運的公司，必須遵循中國的法律和內容審查要求的背景。外媒評論，450 美元的 AI 系統雖然不如 OpenAI 的技術強大，但也顯示出即使資源少，也可能打造出有競爭力的系統。

【推薦閱讀】

◆ OpenAI 首款 AI 代理「Operator」來了！電腦螢幕成 AI 巨頭廝殺戰場

◆ 「中國加一」帶來機遇，印度機器人新創 Ati Motors 融資 2,000 萬美元

◆ 超越 RAG：CAG 如何成為企業導入生成式 AI 的新選擇？

＊本文開放合作夥伴轉載，資料來源：《紐約時報》、《金融時報》、《VentureBeats》、《經濟學人》，首圖來源：Ideogram。

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

為什麼 AI 圈害怕 DeepSeek？這家中國新創用什麼挑戰矽谷巨頭

DeepSeek 為何能大幅提升訓練效率？

「開源」是市場變化的關鍵

TO 會員電子報

HBM 吃掉 30% 資本支出、台積電 N3 產能逼近極限：SemiAnalysis 創辦人揭 AI 狂飆後半導體的真正瓶頸

睡前交辦 AI、醒來驗收成果：矽谷工程師變成「AI 代理主管」，Google、Amazon 都在發生

【AWS 找上 Cerebras】AI 推理晶片戰開打，挑戰 NVIDIA GPU 主導地位

【無人客服神話破滅】盲目裁員導致知識流失，2028 企業將重新僱用人類客服人員？