從 Google 的 Genie、NVIDIA 的 Cosmos,到機器人領域的 Vision-Language-Action(VLA)模型,「世界模型(World Model)」已成為近兩年 AI 產業最熱門的關鍵字之一。然而,當越來越多企業與研究機構宣稱自己正在打造世界模型時,這個詞的定義卻變得越來越模糊。
ImageNet 創辦人、史丹佛大學教授、World Labs 執行長李飛飛(Fei-Fei Li)近日發表文章,試圖替這個快速發展卻缺乏共識的領域建立一套共同語言。她認為,世界模型已成為 AI 領域最重要、卻也最容易被濫用的名詞之一,而不同研究領域對它的理解其實大不相同。
在文章中,李飛飛不只是重新解釋世界模型的概念,更提出一套新的功能分類法,將目前產業中的世界模型分為三大類型,並進一步描繪未來 AI 發展的方向。
世界模型為何重要?AI 開始從理解文字走向理解世界
過去幾年,大型語言模型(LLM)展現了驚人的語言理解與推理能力,但李飛飛認為,「語言並不是世界本身」。
她指出,語言模型學習的是文字背後的統計規律,而世界模型學習的則是空間與時間的統計結構,包括光線如何照射物體、不同視角下場景如何呈現,以及物體如何遵循物理規律運動。
換句話說,如果語言模型回答的是世界是如何被描述,那麼世界模型試圖理解的則是世界本身如何運作。
這也是近年 Google、NVIDIA、機器人公司以及自駕車產業紛紛投入世界模型研究的重要原因。未來 AI 若要真正進入實體世界,不論是控制機器人、操作自駕車,或建立可互動的數位孿生系統,都需要具備對空間、物理與因果關係的理解能力。然而,問題在於大家口中的世界模型其實不是同一件事。
為了解決這個問題,她選擇回到一張比這些技術都更古老的圖。她指出,強化學習教科書如經典的 Sutton 與 Barto 著作,數十年來都用同一種圖示來描述代理(Agent)如何與世界互動,其正式名稱是「部分可觀測馬可夫決策過程」(POMDP),而世界模型一詞最初的定義就源自這個傳統。
在這個框架中,代理(可以是人、機器人或軟體系統)採取行動(action),行動改變了世界的狀態(state),但代理永遠無法直接看見狀態,而是接收到觀測(observation)資料,例如落在視網膜上的光子、感測器讀數或影格的像素,新的觀測再促成新的行動,如此循環。李飛飛認為,目前產業中所謂的世界模型,其實只是這個循環中的不同組成部分。
在這個迴圈的基礎上,李飛飛把世界模型拆解成三大類別。
將世界模型分成三類:渲染器、模擬器與規劃器
第一類 Renderer,也就是渲染器。這類模型的主要任務是輸出觀察結果,也就是產生人類看得到的影像或影片,最重要的衡量標準是視覺擬真度。李飛飛以文字生成影片模型為例,表示這些系統能夠根據提示詞生成逼真的畫面,甚至能即時產生可互動場景。她指出,Google 的 Genie 3,以及 World Labs 旗下即時生成系統 RTFM,都屬於這一類模型。
Renderer 最大的優勢是視覺品質,但缺點也十分明顯:它們能產生看似合理的畫面,卻不一定真正理解場景背後的三維結構或物理規律。
第二類則是 Simulator,也就是模擬器。與渲染器不同,模擬器輸出的不是畫面,而是狀態,讓人與電腦程式都能在其上運算與互動。這代表模型不只要知道物體長什麼樣子,還必須理解其幾何結構、材質特性與運動規律。建築師、遊戲開發者、自駕車公司與機器人研究團隊,都需要這種能夠反映真實世界物理行為的模型。李飛飛表示,World Labs 最新推出的 Marble 模型即歸屬於此類。
World Labs 並非獨行者,《Tech Times》把 NVIDIA 描述為經營著一套圍繞 Omniverse 與其 Cosmos 世界基礎模型而建的「平行的模擬堆疊(parallel simulation stack)」,就把 Omniverse 與 Cosmos 放在接近模擬器的位置。
第三類則是 Planner,也就是規劃器。規劃器的核心功能是產生行動。提供觀察結果與目標後,模型需要決定下一步應該怎麼做,例如機器人看到桌上的杯子後,該如何移動手臂完成抓取動作;或是自駕車在路口面對不同車流時,該如何規劃行進路線。李飛飛指出,目前受到關注的 Vision-Language-Action 模型(VLA)、World Action Model,以及各類機器人決策系統,都屬於這個類別。
進一步歸納,如果說渲染器回答的是「會看到什麼」,模擬器回答的是「世界實際如何運作」,那麼規劃器回答的就是「下一步該怎麼做」。
李飛飛點名最被低估的一塊:模擬器
在這三類中,李飛飛認為模擬器獲得的外界關注最少,卻是最具決定性的一類。她分析,渲染器在商業上最成熟,例如 Google 的 Nano Banana 模型已讓渲染等級的影像生成觸及數以億計的使用者,但其天花板就在於它只為視覺合理性最佳化,而非物理準確性,因此「無法被信任用來設計一棟建築或訓練一個機器人」。
規劃器則是最被看好,技術也剛起步的一塊。她坦言,過去兩年的機器人展示「幾乎全都侷限在高度受限的實驗室設置」,物件種類狹窄、任務時程短暫,距離真正能在廚房、倉庫或手術室可靠運作仍有巨大落差。
模擬器正是連接兩者的橋樑。李飛飛主張,如果說語言是世界的抽象、像素是世界的投影,那麼幾何、物理與動力學就是世界本身;一個精通模擬的模型,既能把理解投影成像素供人觀看,也能投影成行動預測供具身代理使用,反之只會渲染或只會規劃的模型則辦不到。
《Tech Times》指出,World Labs 賭的,就是這個「忠實物理原則的模擬器」,也正是整個產業投入不足的一塊。李飛飛也提到,模擬的難題最為棘手:帶有明確幾何與物理標註的 3D 資料,比渲染器賴以訓練的網路影片稀缺好幾個數量級,模擬與現實之間的「sim-to-real」落差依然存在,生成式模擬器還多了一種風險:AI 生成的幾何看似正確,卻可能含有自我交錯或錯誤尺度,導致荒謬的物理結果。
下一波浪潮:三種世界模型開始融合
不過,李飛飛認為,這三種類型並不會長期維持獨立發展。事實上,她觀察到產業正在出現一個重要趨勢:渲染、模擬與規劃的界線正逐漸消失。
舉例來說,部分機器人研究已開始利用影片生成模型預測未來場景變化,再根據預測結果產生行動決策;World Labs 的 Marble 則同時輸出視覺內容與物理結構,模糊了渲染器與模擬器之間的界線。
李飛飛認為,真正理解世界的模型,理論上應該同時具備三種能力。如果一個模型真的理解桌上的杯子,它不只應該能從不同角度渲染出杯子的樣貌,也應該知道杯子受到外力後會如何移動,甚至能規劃出一條抓取杯子的最佳路徑。
因此,她表示,未來的終極目標可能是一種統一世界模型(Unified World Model)。這種模型能根據不同需求,自由切換成渲染器、模擬器或規劃器模式,為人類與機器提供不同形式的世界理解能力。
李飛飛最後指出,語言模型讓機器學會談論世界,而世界模型則試圖讓機器真正理解、想像、推理並與世界互動。當 AI 開始從文字走向空間、從螢幕走向現實世界,世界模型或許將成為下一代人工智慧的重要基礎設施。
【推薦閱讀】
◆ 什麼是 AI「世界模型」?為什麼李飛飛、Google、OpenAI 都紛紛投入?
*本文開放合作夥伴轉載,資料來源:Dr. Fei-Fei Li、《Crypto Briefing》、《Tech Times》,首圖來源:World Labs



