在過去幾天,一家名為 DeepSeek 的中國新創成了矽谷熱門話題,很大的原因是它發布新的 AI 模型 DeepSeek R1,可以執行類似於 OpenAI o1 模型的推理過程。更令外界關注的是,他們用來訓練模型的先進晶片數量只占 AI 巨頭的一小部分。
根據資料,DeepSeek R1 在各種第三方基準測試上的得分與 OpenAI 的 o1 一樣高或更高。此外,相較於 o1 只提供 ChatGPT Plus 以上等級的付費訂閱者使用,DeepSeek R1 則是完全開源模型,這也解釋了它目前在 Hugging Face 獲得的下載次數最多,在最活躍模型排行榜人氣旺盛的原因。
DeepSeek 的存在,挑起了 2 道敏感神經。第一個是地緣政治,引發人們質疑美國對中國祭出的晶片禁令,是否變相讓中國研究人員運用網路免費工具發揮創意。第二,它的訓練成本低廉,也打破既定觀念:只有科技業最大、擁有最多 AI 晶片數量的公司才有能力製造最先進的 AI 系統。
DeepSeek 為何能大幅提升訓練效率?
根據《紐約時報》,中國工程師表示他們只需 600 萬美元的原始運算能力就可打造新模型,花費比 Meta 少了 10 倍。AI 巨頭使用了多達 16,000 個晶片,但 DeepSeek 表示他們只需要約 2,000 個專用電腦晶片。此外,DeepSeek 的 API 成本也比 OpenAI 的 o1 模型便宜 90% 以上。
有觀點指出,為了減少對海外高階晶片的依賴,中國 AI 公司在演算法、架構和訓練策略嘗試了新方法──許多人採用混和專家模型(mixture-of-experts),專注於基於特定資料訓練的小型 AI 模型,藉此提供強大的結果,同時減少運算資源。
劍橋大學電腦科學與科技學系教授 Nic Lane 觀察,DeepSeek 的成功不是來自單一重大創新,而是一系列細小的改進。以訓練過程為例,它經常透過取近似值(rounding)來簡化運算,但在需要的情況下仍然保留數字的精確性;它也重新調整伺服器叢集配置來優化晶片之間的通訊效率,並利用推理模型 DeepSeek R1 的輸出來微調模型,學習如何以較低成本模仿其品質。
此外,DeepSeek 運行成本也比其他企業低,將任務分配到多個晶片上,並在前一個流程完成之前就進到下一個流程,保持晶片滿載沒有冗餘。這個做法讓其另款 AI 模型 DeepSeek V3 收取的費用不到 Anthropic Claude 的 1/10。
相較於 OpenAI 需不斷尋求私人資金來支應其不斷膨脹的訓練成本,DeepSeek 作為中國量化基金 High Flyer 的子公司,則有母公司龐大的運算資源可運用。
「開源」是市場變化的關鍵
外媒分析,市場變化的部分關鍵是開源軟體。2023 年,Meta 免費分享了名為 Llama 的 AI 模型後,AI 開源生態系統開始蓬勃發展。DeepSeek 也將其最新的 AI 模型放入開源體系,這代表其他人也能用相同的技術建構和發布自己的產品。
加州柏克萊分校電腦科學教授 Ion Stoica 觀察,開源社群的重心一直向中國轉移,這對於美國來說可能是巨大的危險,將加速中國的新技術開發。
至於美國是否該加強開源技術,高階主管和專家有不同看法。認為不該開源的人表示,開源可能會被用來傳播假訊息或造成其他危害,但其他人認為如果美國開源技術不進步,開發商未來將在中國技術之上打造系統──這可能會讓中國成為 AI 研發的中心。
事實上,美國柏克萊大學 Sky Computing 實驗室近日發表的開源推理模型 Sky-T1,只要 450 美元訓練成本,就能達到和 OpenAI o1 性能媲美的模型。他們採用的開源技術,來自中國阿里巴巴。
也有人警告,DeepSeek 作為一家中國境外營運的公司,必須遵循中國的法律和內容審查要求的背景。外媒評論,450 美元的 AI 系統雖然不如 OpenAI 的技術強大,但也顯示出即使資源少,也可能打造出有競爭力的系統。
【推薦閱讀】
◆ OpenAI 首款 AI 代理「Operator」來了!電腦螢幕成 AI 巨頭廝殺戰場
*本文開放合作夥伴轉載,資料來源:《紐約時報》、《金融時報》、《VentureBeats》、《經濟學人》,首圖來源:Ideogram。



