AI 機器人最缺的不是模型而是資料,新創 XDOF 如何切入這個基礎設施缺口?

要讓機器人真正能運作,需要的不只是更好的模型或更快的晶片,而是一種非常稀缺的東西:大規模、高品質的物理互動訓練資料。新創公司 XDOF 想做的,正是填補這個缺口。

語言模型有公開文字,機器人沒有

語言模型的崛起,很大程度上靠的是網路上海量的公開文字資料。但機器人需要的是捕捉物理互動的資料,包括手如何抓取物件、力道如何調整、動作如何修正,這類資料幾乎不存在。

YouTube 影片和外包工作者拍攝的畫面解析度太低,也難以精確對應到物理世界的參數,無法直接轉化為有效的機器人訓練資料。

XDOF 共同創辦人暨 CEO Philipp Wu 在 UC Berkeley 攻讀博士時就親身遭遇這個問題。他的研究方向是讓機器人從大規模資料集學習技能,卻發現根本無資料可用,「我們先需要實際收集資料,才能開始思考如何訓練機器人的基礎模型,」他說這是一個先有雞還是先有蛋的問題。

Wu 和共同創辦人暨 CTO Fred Shentu 因此開發了 GELLO,一套低成本的遙操作系統,讓人類操作者控制機械臂來生成訓練資料。這篇論文在機器人領域產生了廣泛影響,許多面臨相同瓶頸的研究者開始借用這套裝置收集資料。看到這個機會,Wu、Shentu 與第三位共同創辦人暨 COO Nemo Jin 在 2024 年 10 月創立了 XDOF。

三層資料架構,從機器人到人體動作

XDOF 的資料生產架構分三個層次,對應不同的資料來源與應用價值。價值最高的是直接在部署中的真實機器人上收集的遙操作資料,因為它最貼近實際使用情境;其次是透過 GELLO 這類遙操作裝置收集的較通用資料;第三層則是記錄人類日常行為視角的「自我中心」資料,XDOF 計劃自行開發穿戴式感測器來收集。

Wu 強調,感測器硬體的選擇會直接影響資料品質,進而影響模型能力,他說如果一開始沒有把硬體設計好,收集到的資料可能會有你沒預料到的問題。這也是為什麼 XDOF 選擇同時做感測器硬體,而不只是提供純軟體服務。

在資料收集之外,XDOF 也負責資料清洗、工具開發與標注,讓整個流程形成持續優化的迴圈。Wu 說,他們刻意避免讓公司變成只做資料供應的業者,單純賣資料很容易走進死胡同。

與 UC Berkeley 合作,釋出迄今最大規模開源資料集

作為起點,XDOF 與 UC Berkeley、卡內基美隆大學、MIT 與 Amazon FAR 合作,釋出了一套名為 ABC 的機器人訓練資料集,以 Apache 2.0 授權開源,自稱是迄今規模最大的高品質機器人操作訓練資料集。ABC 包含 13 萬條機器人操作軌跡、300 小時的模擬資料,以及 100 小時的評估資料,這個規模的預訓練資料過去從未開放給學術界。

「我們在語言模型、圖像生成等領域都觀察到,一旦資料與模型對外公開,研究社群往往能達成原本難以預期的突破,」參與資料集整理的 UC Berkeley 博士生 David McAllister 說。

XDOF 的團隊已用這批資料訓練機器人執行基準任務,包含折疊 T 恤、壓平紙箱,以及將 AirPods 裝入充電盒。

大型實驗室傾向外包,XDOF 抓住這個市場

XDOF 的商業模式建立在一個判斷上:大型 AI 實驗室雖然有動機自己做資料生產,但建置這套基礎設施需要的資源與管理複雜度,讓多數實驗室寧願外包。Wu 描述了這套基礎設施的規模,需要數十萬平方英尺的倉庫空間、數百台機器人持續運作,還要維護硬體、校準參數、培訓操作員,這些都需要高度專注的執行能力,而不是 AI 實驗室的核心優勢。

目前 XDOF 約有 60 名員工,已與 20 個客戶合作,其中包含數家頂尖 AI 實驗室。公司計劃在全球招募並培訓大規模的遙操作員與自我中心資料收集員隊伍,以支撐這套勞力密集的資料生產模型。

【推薦閱讀】

NVIDIA 把機器人實驗交給 AI 代理:研究速度的瓶頸,原來不只是演算法
四隻手、沒有腿,Helios 四臂機器人如何做到為太空站而生?
展示容易部署難,人形機器人距離真正的工業化還有多遠?

*本文開放合作夥伴轉載,參考資料:TechCrunchKuCoin,首圖來源:Unsplash

(責任編輯:鄒家彥)