用影片訓練 AI 已過時？歐洲打造會「3D 思考」的開源機器人大腦 SPEAR-1

AI 機器人浪潮來襲，然而要讓機器人理解實體世界，或許不能只靠文字與影片。歐洲的研究團隊近日推出開源機器人 AI 模型 SPEAR-1，號稱是歐洲第一個開放機器人基礎模型，並以特殊方法讓訓練模型所需的資料減少 20 倍，試圖打破機器人數據難蒐集的資料瓶頸。

這項技術由位於保加利亞的 INSAIT（Institute for Computer Science, Artificial Intelligence and Technology）開發，研究團隊指出，SPEAR-1 的突破在於導入 3D 資料強化模型學習。

從 2D 到 3D：機器人學習方式被徹底改寫

根據《WIRED》報導，傳統的機器人基礎模型通常建立在視覺語言模型（VLM）之上，VLM 雖然能廣泛理解物理世界，但因為訓練資料通常來自經過標註的 2D 圖像，有所侷限。

當訓練資料集納入 3D 資料，會使模型更容易理解「看懂」距離與結構，進而執行需要精確操作的任務，例如擠番茄醬、關抽屜、裝訂文件等。根據測試平台 RoboArena 的評估，SPEAR-1 的表現已接近商業等級模型。

訓練過程方面，SPEAR-1 首先利用非機器人 3D 資料（如公共影像與深度估測數據）訓練「SPEAR-VLM」基礎模組，學會判斷物體邊界與相對距離；再結合控制模組，透過人類遠端操控的示範數據，學習如何在真實環境中執行動作。

這項方法讓 SPEAR-1 只需傳統模型 1/20 的資料量，就能達到相同甚至更優的表現，為長期受限於資料昂貴與蒐集困難的機器人領域帶來突破。SPEAR-1 開發者、蘇黎世聯邦理工學院（ETH Zurich）教授 Martin Vechev 就指出，SPEAR-1 成功彌補了 VLM 知識與 3D 世界理解之間的落差。

實測超越多數開源模型，展現「通用智慧」潛力

在 DROID 與 WidowX 機械手臂平台測試中，SPEAR-1 展現了通用智慧的潛力。即使物體位置改變或高度不同，它仍能正確完成如「將胡蘿蔔放在盤子上」等精細任務。官方測試指出，SPEAR-1 在多項操控任務上的表現比 π-0-FAST 高出 57%，甚至可與 π-0.5 這類訓練資料量多五倍以上的商業模型比肩。

這代表，SPEAR-1 不僅能執行單一動作，而能適應多樣化環境，具備更接近人類直覺的動作推理能力。研究團隊形容它為「機器人的 ChatGPT」，能理解語言指令、解析環境畫面，並直接輸出對應的運動軌跡。

開源模式讓「具身 AI」更民主化

隨著各國科技巨頭爭相打造封閉式機器人模型（如 OpenAI、Google DeepMind、Anthropic），歐洲選擇以開源策略切入。Vechev 認為，「開放權重」的模型對推進具身 AI（Embodied AI）至關重要，因為這能讓研究機構與新創團隊自由試驗、快速迭代，而不必依賴昂貴的專有資料庫或運算資源。

儘管 SPEAR-1 的成果令人矚目，但部分專家仍持審慎態度。來自新創公司 Physical Intelligence 的研究員 Karl Pertsch 表示，現階段要判斷「3D 訓練資料」對機器人基礎模型的重要性仍為時過早。不過他也肯定 SPEAR-1 展示了學術界在短短一年內「跨環境通用模型」的驚人進展。

「看到學術團隊打造的相當通用的策略，而這些策略能在不同環境下直接運作，且達到非凡的表現，這在去年幾乎還不可能，」Pertsch 說。

＊本文開放合作夥伴轉載，資料來源：《WIRED》、SPEAR-1、INSAIT，首圖來源：SPEAR-1

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

用影片訓練 AI 已過時？歐洲打造會「3D 思考」的開源機器人大腦 SPEAR-1

從 2D 到 3D：機器人學習方式被徹底改寫

實測超越多數開源模型，展現「通用智慧」潛力

開源模式讓「具身 AI」更民主化

TO 會員電子報

機器人基礎模型市場價值上看 1,500 億美元：瑞士新創 Flexion Robotics 如何打造會拆解任務的 AI 大腦？

中國兩大實體 AI 新創估值同破 200 億人民幣，智平方、自變量力拚特斯拉

南韓砸逾 8,800 億美元打造 AI 國家隊：拆解台、日、韓的 AI 國力競賽

人形機器人民主化：Hugging Face 的 LeRobot 要讓任何人都能做真機 AI 實驗