Search
Close this search box.

IBM 分析 DeepSeek 訓練突破傳統,讓 AI 像人一樣學會「頓悟」

IBM 分析 DeepSeek 訓練突破傳統,讓 AI 像人一樣學會「頓悟」

中國業者所開發的 AI 模型 DeepSeek,在短時間之內席捲全球,不只為金融市場帶來震盪,更使 NVIDIA 等一票 AI 概念股嚴重下跌,甚至威脅到以美國為首的西方 AI 產業。

對此 IBM AI 硬體部門的首席研究科學家 Kaoutar El Maghraoui 認為,DeepSeek 無疑正在重塑全球 AI 市場格局,並且以開源的雄心,還有最先進的創新技術,向西方科技巨頭發起挑戰。

中國 AI 公司「底層共享」獲得回報

DeepSeek 宣稱,旗下 R1 推理模型在某些數學和程式碼編寫任務中,效能跟 OpenAI o1 不相上下,然而訓練 DeepSeek R1 所需要的 AI 算力卻更少,只需要大約 2000 個 GPU 或 AI 晶片就能完成 AI 訓練,使整體成本降低多達 96%。

在此同時,抖音(TikTok)母公司字節跳動,最近也發佈了自家的推理型 AI 代理 UI-TARS,並且指出 UI-TARS 在部分基準測試中,效能優於 OpenAI GPT-4o、Anthropic Claude 及 Google Gemini,並且有能力讀取圖形化 UI 界面,發起推理並採取自主行動。

從初創公司到成熟巨頭,中國 AI 公司似乎正在縮小與美國和西方競爭對手的差距。IBM 專家認為,中國 AI 產業鏈能夠於短時間內,就達成這種驚人突破,在很大程度上得歸功於中國企業願意開源,同時跟其他業者、軟體開發商共享底層程式碼。

IBM Granite 模型資深技術產品經理 Abraham Daniels 表示,隨著 DeepSeek 成為領頭羊,為整個開源社群帶來強大的 AI 推理模型,DeepSeek 真的有可能加速 AI 走向普及化、民主化。

開源 AI 模式反而成為西方痛點

中國打造出來的開源 AI 模式,已經成為了西方企業難以忽視的痛點。

去年夏天,中國公司快手即發表了一款影片生成工具,對抗 OpenAI 所推出的 Sora,差別在於快手的服務可以讓消費者直接使用,Sora 則需要 ChatGPT Pro 訂閱戶才能使用全部功能。

此外,開源 AI 平台 Hugging Face 上的眾多開發者,近來更大舉採用中國科技巨頭騰訊、阿里巴巴的各種開源 AI 模型,相較之下西方企業似乎只有 Meta 正在透過 Llama 單獨作戰。

中國廠商為開源 AI 社群貢獻良多,不過 IBM 院士 Kush Varshney 表明,DeepSeek 真正為 AI 產業帶來的進步,仍然在於技術上的創新,還有 AI 效能方面的顯著進步。

推理模型的本質:「思考如何思考」

Kush Varshney 說,所謂推理模型的本質,其實是「自我驗證」和「自我檢查」,這代表了一種 「元認知 」或「關於如何思考的思考」;DeepSeek 令人印象深刻的推理能力,代表開發者已經開始將真正的智慧,融入到了 AI 電腦模型之中。

去年 9 月當 OpenAI 對外發表 o1 模型時,瞬間使「推理」成為熱門話題;跟以往只給出答案而不解釋思考過程的 AI 完全不同,推理模型會刻意多花幾秒或幾分鐘,透過將複雜問題分成幾個步驟,再嘗試回答使用者提出的問題,並藉助「思維鏈 」反思 AI 當下進行的分析。

DeepSeek R1 的創新之處,就是將「思維鏈推理」與「強化學習」互相結合,並且於沒有人類使用者刻意給予指令的情況下,透過反覆試錯學會執行任務。

當 AI 模型出現真正的「頓悟」

專家表示,過去業界訓練 AI 常用的學習形式,包含「監督學習」和「無監督學習」,前者著重利用人類所標記的數據,讓 AI 進行預測和分類,後者則著重於讓 AI 模型從沒有標記的資料中,自主發現、學習隱藏起來的邏輯。

然而 DeepSeek R1 的訓練模式卻提出了另一種假設,即透過對正確或錯誤行為的標記進行訓練,或者從隱藏模式中提取訊息,AI 模型的推理能力就會得到提高。

在機器學習領域著有數十篇論文的密西根州立大學博士生張逸驊解釋,其實 DeepSeek R1 在訓練方式上的核心假設很簡約,但是並不簡單,那就是人類能否只透過「獎勵(Reward)訊號」,教導模型正確回答,從而讓 AI 自己摸索出最優的思考方式?

張逸驊指出,對於早就習慣藉由傳統監督方式,精密微調 AI 模型的專家而言,類似 DeepSeek 這樣的大型語言模型,僅僅依靠強化學習所帶來的獎勵機制,就能學會「更好地思考」,甚至使 AI 模型出現真正的「頓悟」(英語:Aha! moment,又稱尤里卡效應),懂得退後一步發現錯誤並自我糾正,著實令人非常驚艷。

DeepSeek 低成本,MoE 幫大忙

至於外界一直在討論的成本問題,IBM 專家認為,即便 DeepSeek 宣稱旗下 V3 模型的訓練成本大概只有 550 萬美元,但該公司大概只計算了「其中一小部分成本」,其他如強化學習、數據消減和超參數搜尋的成本等,應該都沒有被 DeepSeek 計算在內。

然而 IBM 也表明,DeepSeek 確實藉由「混合專家」(MoE)架構,為 AI 實現了更高的成本效益;MoE 將 AI 模型劃分為不同的子網路(又稱專家),而每個子網路專門處理輸入數據的一個子集,因此當 AI 被觸發特定任務時,只需要存取所需的特定專家,不必動用整個神經網路。

MoE 架構大大降低了 AI 模型的預訓練成本,並且加速了推理期間的運算速度,尤其在過去一年之中,包括 AI 公司 Mistral 及 IBM 在內,全球多家公司都在積極發展 MoE 架構。

舉例來說,IBM 的開源模型 Granite 模型就是採用 MoE 架構開發,希望為 AI 帶來更高的運作效率,並且協助企業以極低成本實現前沿模型的性能,將強大的功能集成到更小的稠密模型上,用於手機和其他邊緣設備,包含車用電腦或工廠機台。

當 AI 開源「來自何處」將不再重要

除此之外 DeepSeek 所獲得的巨大成功,其實也得益於「蒸餾」技術,將大型模型改造成資源密集度較低的小型模型;DeepSeek 透過實踐證明,跟一開始就對小型模型進行強化學習相比,將大型模型蒸餾成小型模型,推理效果通常會來得更好。

最後關於 DeepSeek 是否會導致全球 AI 產業洗牌,IBM AI 硬體部門的首席研究科學家 Kaoutar El Maghraoui 認為,無論是在改變人類互動、技術和企業應用上,要評論 DeepSeek 的衝擊仍「為時過早」。

IBM 院士 Kush Varshney 則指出,全球 AI 競賽中的地緣政治差異,或許並沒有外界想像的那麼關鍵,尤其 AI 模型一旦開源,它「源自何處」在很多方面就不是很重要了。

【推薦閱讀】

◆ 「幾週後我們不會再談 DeepSeek」美國 AI 新創想用但遇 3 大麻煩

◆ 就連 Meta 都要感謝它!DeepSeek 究竟為 AI 帶來什麼突破?

◆ 貿易戰攔不住 DeepSeek 橫空出世,難道美國 AI 戰略錯了嗎?

*本文開放合作夥伴轉載,資料來源:《IBM》《normaluhr》。首圖來源:Google Play