李飛飛拆解「世界模型」3 大分類，Google、NVIDIA 談的世界模型不是同一件事？

從 Google 的 Genie、NVIDIA 的 Cosmos，到機器人領域的 Vision-Language-Action（VLA）模型，「世界模型（World Model）」已成為近兩年 AI 產業最熱門的關鍵字之一。然而，當越來越多企業與研究機構宣稱自己正在打造世界模型時，這個詞的定義卻變得越來越模糊。

ImageNet 創辦人、史丹佛大學教授、World Labs 執行長李飛飛（Fei-Fei Li）近日發表文章，試圖替這個快速發展卻缺乏共識的領域建立一套共同語言。她認為，世界模型已成為 AI 領域最重要、卻也最容易被濫用的名詞之一，而不同研究領域對它的理解其實大不相同。

在文章中，李飛飛不只是重新解釋世界模型的概念，更提出一套新的功能分類法，將目前產業中的世界模型分為三大類型，並進一步描繪未來 AI 發展的方向。

世界模型為何重要？AI 開始從理解文字走向理解世界

過去幾年，大型語言模型（LLM）展現了驚人的語言理解與推理能力，但李飛飛認為，「語言並不是世界本身」。

她指出，語言模型學習的是文字背後的統計規律，而世界模型學習的則是空間與時間的統計結構，包括光線如何照射物體、不同視角下場景如何呈現，以及物體如何遵循物理規律運動。

換句話說，如果語言模型回答的是世界是如何被描述，那麼世界模型試圖理解的則是世界本身如何運作。

這也是近年 Google、NVIDIA、機器人公司以及自駕車產業紛紛投入世界模型研究的重要原因。未來 AI 若要真正進入實體世界，不論是控制機器人、操作自駕車，或建立可互動的數位孿生系統，都需要具備對空間、物理與因果關係的理解能力。然而，問題在於大家口中的世界模型其實不是同一件事。

為了解決這個問題，她選擇回到一張比這些技術都更古老的圖。她指出，強化學習教科書如經典的 Sutton 與 Barto 著作，數十年來都用同一種圖示來描述代理（Agent）如何與世界互動，其正式名稱是「部分可觀測馬可夫決策過程」（POMDP），而世界模型一詞最初的定義就源自這個傳統。

在這個框架中，代理（可以是人、機器人或軟體系統）採取行動（action），行動改變了世界的狀態（state），但代理永遠無法直接看見狀態，而是接收到觀測（observation）資料，例如落在視網膜上的光子、感測器讀數或影格的像素，新的觀測再促成新的行動，如此循環。李飛飛認為，目前產業中所謂的世界模型，其實只是這個循環中的不同組成部分。

在這個迴圈的基礎上，李飛飛把世界模型拆解成三大類別。

將世界模型分成三類：渲染器、模擬器與規劃器

第一類 Renderer，也就是渲染器。這類模型的主要任務是輸出觀察結果，也就是產生人類看得到的影像或影片，最重要的衡量標準是視覺擬真度。李飛飛以文字生成影片模型為例，表示這些系統能夠根據提示詞生成逼真的畫面，甚至能即時產生可互動場景。她指出，Google 的 Genie 3，以及 World Labs 旗下即時生成系統 RTFM，都屬於這一類模型。

Renderer 最大的優勢是視覺品質，但缺點也十分明顯：它們能產生看似合理的畫面，卻不一定真正理解場景背後的三維結構或物理規律。

第二類則是 Simulator，也就是模擬器。與渲染器不同，模擬器輸出的不是畫面，而是狀態，讓人與電腦程式都能在其上運算與互動。這代表模型不只要知道物體長什麼樣子，還必須理解其幾何結構、材質特性與運動規律。建築師、遊戲開發者、自駕車公司與機器人研究團隊，都需要這種能夠反映真實世界物理行為的模型。李飛飛表示，World Labs 最新推出的 Marble 模型即歸屬於此類。

World Labs 並非獨行者，《Tech Times》把 NVIDIA 描述為經營著一套圍繞 Omniverse 與其 Cosmos 世界基礎模型而建的「平行的模擬堆疊（parallel simulation stack）」，就把 Omniverse 與 Cosmos 放在接近模擬器的位置。

第三類則是 Planner，也就是規劃器。規劃器的核心功能是產生行動。提供觀察結果與目標後，模型需要決定下一步應該怎麼做，例如機器人看到桌上的杯子後，該如何移動手臂完成抓取動作；或是自駕車在路口面對不同車流時，該如何規劃行進路線。李飛飛指出，目前受到關注的 Vision-Language-Action 模型（VLA）、World Action Model，以及各類機器人決策系統，都屬於這個類別。

進一步歸納，如果說渲染器回答的是「會看到什麼」，模擬器回答的是「世界實際如何運作」，那麼規劃器回答的就是「下一步該怎麼做」。

李飛飛點名最被低估的一塊：模擬器

在這三類中，李飛飛認為模擬器獲得的外界關注最少，卻是最具決定性的一類。她分析，渲染器在商業上最成熟，例如 Google 的 Nano Banana 模型已讓渲染等級的影像生成觸及數以億計的使用者，但其天花板就在於它只為視覺合理性最佳化，而非物理準確性，因此「無法被信任用來設計一棟建築或訓練一個機器人」。

規劃器則是最被看好，技術也剛起步的一塊。她坦言，過去兩年的機器人展示「幾乎全都侷限在高度受限的實驗室設置」，物件種類狹窄、任務時程短暫，距離真正能在廚房、倉庫或手術室可靠運作仍有巨大落差。

模擬器正是連接兩者的橋樑。李飛飛主張，如果說語言是世界的抽象、像素是世界的投影，那麼幾何、物理與動力學就是世界本身；一個精通模擬的模型，既能把理解投影成像素供人觀看，也能投影成行動預測供具身代理使用，反之只會渲染或只會規劃的模型則辦不到。

《Tech Times》指出，World Labs 賭的，就是這個「忠實物理原則的模擬器」，也正是整個產業投入不足的一塊。李飛飛也提到，模擬的難題最為棘手：帶有明確幾何與物理標註的 3D 資料，比渲染器賴以訓練的網路影片稀缺好幾個數量級，模擬與現實之間的「sim-to-real」落差依然存在，生成式模擬器還多了一種風險：AI 生成的幾何看似正確，卻可能含有自我交錯或錯誤尺度，導致荒謬的物理結果。

下一波浪潮：三種世界模型開始融合

不過，李飛飛認為，這三種類型並不會長期維持獨立發展。事實上，她觀察到產業正在出現一個重要趨勢：渲染、模擬與規劃的界線正逐漸消失。

舉例來說，部分機器人研究已開始利用影片生成模型預測未來場景變化，再根據預測結果產生行動決策；World Labs 的 Marble 則同時輸出視覺內容與物理結構，模糊了渲染器與模擬器之間的界線。

李飛飛認為，真正理解世界的模型，理論上應該同時具備三種能力。如果一個模型真的理解桌上的杯子，它不只應該能從不同角度渲染出杯子的樣貌，也應該知道杯子受到外力後會如何移動，甚至能規劃出一條抓取杯子的最佳路徑。

因此，她表示，未來的終極目標可能是一種統一世界模型（Unified World Model）。這種模型能根據不同需求，自由切換成渲染器、模擬器或規劃器模式，為人類與機器提供不同形式的世界理解能力。

李飛飛最後指出，語言模型讓機器學會談論世界，而世界模型則試圖讓機器真正理解、想像、推理並與世界互動。當 AI 開始從文字走向空間、從螢幕走向現實世界，世界模型或許將成為下一代人工智慧的重要基礎設施。

【推薦閱讀】

◆ 什麼是 AI「世界模型」？為什麼李飛飛、Google、OpenAI 都紛紛投入？

◆ RSI 是新的 AGI：矽谷追逐的最終魔王關，為何讓 Anthropic 呼籲全球按下暫停鍵？

◆ 16GB 筆電就能跑多模態模型、AI Agent？Google 發表 Gemma 4 12B 揭企業 AI 新需求

＊本文開放合作夥伴轉載，資料來源：Dr. Fei-Fei Li、《Crypto Briefing》、《Tech Times》，首圖來源：World Labs

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

李飛飛拆解「世界模型」3 大分類，Google、NVIDIA 談的世界模型不是同一件事？

世界模型為何重要？AI 開始從理解文字走向理解世界

將世界模型分成三類：渲染器、模擬器與規劃器

李飛飛點名最被低估的一塊：模擬器

下一波浪潮：三種世界模型開始融合

TO 會員電子報

AI Agent 已進入企業核心流程，為何反而遇到效率瓶頸？資策會產業情報研究所主任韓揚銘揭流程、人才與治理解方

4 個人，服務 75 萬名客戶：研究揭 AI 原生企業正在改寫「請更多人」老規則

【自我修復的 AI 代理】提案、驗證、重寫規則，Self-Harness 框架讓效能最高提升 60%

不追排名、流量、反向連結，AI 搜尋時代把 SEO 概念「轉譯」成四個新指標