Search
Close this search box.

DeepSeek R2 要來了?V3 模型默默更新,硬體靠 Mac Studio 就可跑

中國 AI 新創 DeepSeek 近日釋出大型語言模型 DeepSeek-V3 的更新版本,在未發出任何官方公告的情況下,悄然上架至 Hugging Face。這個名為 DeepSeek-V3-0324 的版本引起研究人員與開發者注意,因為其不僅改採 MIT 開源授權,也被觀察到硬體運行效率有所提升。

MIT 授權釋出,模型可在消費級高階裝置上運行

這個模型屬於通用型大型語言模型(LLM),並非特別針對推理能力進行優化。根據《VentureBeat》與《SiliconANGLE》報導,這次更新版本最大的變化之一是轉換為 MIT 授權,這代表開發者可自由地將其用於商業用途,並進行修改。相較於自定義的開源許可證,這是一項相對開放的授權條款。

另值得關注的是, DeepSeek-V3 新版本比原版功能更強大、硬體效率更高──多數先進 LLM 依賴資料中心的 GPU 運作,但蘋果機器學習團隊研究人員 Awni Hannun 在 X 平台上表示,他在一台配備 M3 Ultra 晶片、記憶體 512GB 的 Mac Studio 上測試該模型,以 4-bit 量化版本運行時可達到每秒輸出超過 20 個 token 的速度。

一台 Mac Studio 設備價格雖然不低,但相比一般需依賴資料中心 GPU 的模型,這樣的運行結果提供了不同的部署可能性。

主打資源使用效率,DeepSeek 新版模型整合 2 大新技術

在架構設計上,DeepSeek-V3-0324 採用的是混和專家架構(MoE, Mixture-of-Experts),模型總參數為 671 億,但每次執行任務只啟動約 370 億個參數。這種選擇性啟用的設計,和啟動所有參數的傳統 LLM 相比,可以降低運算需求。

DeepSeek-V3-0324 還整合了兩項新技術:Multi-Head Latent Attention(MLA)與 Multi-Token Prediction(MTP),分別用來提升長文本上下文處理能力與輸出速度。根據《VentureBeat》,這些設計可能提高 80% 的產出速度。

不過,AI 研究員 Xeophon 在 X 平台上分享以個人平台測試的結果顯示,DeepSeek-V3-0324 的整體能力仍與主打推理功能的 DeepSeek-R1 或其他大型模型如 Qwen-32B 有一定差距;但 DeepSeek-V3-0324 是目前所有指標上最好的非推理模型,能取代 Sonnet 3.5。

與 R1 發布節奏相似,社群預測 R2 即將問世

DeepSeek V3-0324 的釋出也引起社群平台 Reddit 上部分網友討論。有用戶指出,這次發布節奏與去年 DeepSeek 先推出 V3,再緊接著幾週內推出 R1 的時間點類似──基礎模型先行,再釋出推理強化版本的策略,因此推測這次更新可能是為預備中的推理模型 R2 做鋪路,在未來兩個月內推出。

《VentureBeat》指出,如果 DeepSeek R2 模型真的遵循 R1 的軌跡釋出,可能會直接挑戰 GPT-5。OpenAI 的下一個新模型將在未來幾個月發布,有社群觀察者認為 R2 可能在未來數週內亮相,。

這次 DeepSeek 選擇以 MIT 授權釋出更新版本,再次凸顯出中國與美國在 AI 發展策略上的差異。相較於 OpenAI 與 Anthropic 採訂閱制、API 商業化路線,中國 AI 公司則越來越傾向以開源拉動生態系,藉此在資源有限的條件下爭取更多開發者與應用落地。

立即下載《2025 AI 工具應用報告》

【推薦閱讀】

當亞馬遜 Alexa+ 帶來語音助理大升級,品牌如何在 AI 語音搜尋世界「被聽見」?

蘋果「AI 視覺 」策略曝光,瞄準新版 Apple Watch 最快 2027 年問世

AI 時代企業主管的 7 種新角色正在成形:可能性催化者、野心調節器⋯⋯

*本文初稿由 AI 生成,經《TechOrange》編撰,資料來源:《VentureBeat》《SiliconANGLE》,首圖來源:Unsplash