AI 機器人浪潮來襲,然而要讓機器人理解實體世界,或許不能只靠文字與影片。歐洲的研究團隊近日推出開源機器人 AI 模型 SPEAR-1,號稱是歐洲第一個開放機器人基礎模型,並以特殊方法讓訓練模型所需的資料減少 20 倍,試圖打破機器人數據難蒐集的資料瓶頸。
這項技術由位於保加利亞的 INSAIT(Institute for Computer Science, Artificial Intelligence and Technology)開發,研究團隊指出,SPEAR-1 的突破在於導入 3D 資料強化模型學習。
從 2D 到 3D:機器人學習方式被徹底改寫
根據《WIRED》報導,傳統的機器人基礎模型通常建立在視覺語言模型(VLM)之上,VLM 雖然能廣泛理解物理世界,但因為訓練資料通常來自經過標註的 2D 圖像,有所侷限。
當訓練資料集納入 3D 資料,會使模型更容易理解「看懂」距離與結構,進而執行需要精確操作的任務,例如擠番茄醬、關抽屜、裝訂文件等。根據測試平台 RoboArena 的評估,SPEAR-1 的表現已接近商業等級模型。
訓練過程方面,SPEAR-1 首先利用非機器人 3D 資料(如公共影像與深度估測數據)訓練「SPEAR-VLM」基礎模組,學會判斷物體邊界與相對距離;再結合控制模組,透過人類遠端操控的示範數據,學習如何在真實環境中執行動作。
這項方法讓 SPEAR-1 只需傳統模型 1/20 的資料量,就能達到相同甚至更優的表現,為長期受限於資料昂貴與蒐集困難的機器人領域帶來突破。SPEAR-1 開發者、蘇黎世聯邦理工學院(ETH Zurich)教授 Martin Vechev 就指出,SPEAR-1 成功彌補了 VLM 知識與 3D 世界理解之間的落差。
實測超越多數開源模型,展現「通用智慧」潛力
在 DROID 與 WidowX 機械手臂平台測試中,SPEAR-1 展現了通用智慧的潛力。即使物體位置改變或高度不同,它仍能正確完成如「將胡蘿蔔放在盤子上」等精細任務。官方測試指出,SPEAR-1 在多項操控任務上的表現 比 π-0-FAST 高出 57%,甚至可與 π-0.5 這類訓練資料量多五倍以上的商業模型比肩。
這代表,SPEAR-1 不僅能執行單一動作,而能適應多樣化環境,具備更接近人類直覺的動作推理能力。研究團隊形容它為「機器人的 ChatGPT」,能理解語言指令、解析環境畫面,並直接輸出對應的運動軌跡。
開源模式讓「具身 AI」更民主化
隨著各國科技巨頭爭相打造封閉式機器人模型(如 OpenAI、Google DeepMind、Anthropic),歐洲選擇以開源策略切入。Vechev 認為,「開放權重」的模型對推進具身 AI(Embodied AI)至關重要,因為這能讓研究機構與新創團隊自由試驗、快速迭代,而不必依賴昂貴的專有資料庫或運算資源。
儘管 SPEAR-1 的成果令人矚目,但部分專家仍持審慎態度。來自新創公司 Physical Intelligence 的研究員 Karl Pertsch 表示,現階段要判斷「3D 訓練資料」對機器人基礎模型的重要性仍為時過早。不過他也肯定 SPEAR-1 展示了學術界在短短一年內「跨環境通用模型」的驚人進展。
「看到學術團隊打造的相當通用的策略,而這些策略能在不同環境下直接運作,且達到非凡的表現,這在去年幾乎還不可能,」Pertsch 說。



