根據《The Robot Report》報導,Toyota Research Institute(TRI)近日發表關於「大型行為模型(Large Behavior Models,簡稱 LBM)」的研究成果,顯示這類預訓練模型在提升機器人任務學習效率方面具有重大突破。TRI 研究指出,單一 LBM 即可學習數百項操作任務,並能以比傳統方法少 80% 的資料量完成新技能學習,為通用型機器人發展開啟新篇章。
預訓練模型顯著提升學習效率,少量資料即見成效
TRI 研究團隊以近 1700 小時的機器人操作資料訓練一系列擴散式 LBM,並進行超過 1800 次實體測試與 47000 次模擬測試。TRI 研究顯示,LBM 可在多種複雜環境下穩定執行任務,相較於從零開始訓練的策略,不僅表現更穩定,還能以 3 到 5 倍的資料效率學會新任務,特別適用於對環境適應性要求高的場景。
《The Robot Report》提及,LBM 模型運用來自手腕攝影機、場景攝影機、機器人本體感測數據與語言提示等多模態輸入,預測未來 16 個時間步(約 1.6 秒)的行動序列。訓練資料來源橫跨 468 小時內部雙臂遠端操作數據、45 小時模擬操作資料、32 小時 UMI 資料,以及超過 1,150 小時來自 Open X-Embodiment 的網路資料。TRI 表示,即使尚未達到網際網路等級的資料規模,預訓練模型在少量多樣資料下已可展現強勁表現,為後續資料擴充建立良性循環。
評估測試標準嚴謹,TRI 指出設計細節決定模型成敗
《The Robot Report》說明,為確保模型效能的廣泛適用性與統計穩健性,TRI 設計了包含 29 項任務的評估測試,包括 16 項模擬中預訓練任務、3 項真實場域已訓練任務、5 項全新模擬長時任務與 5 項真實世界未見任務。每項模擬任務測試 200 次、實體任務測試 50 次,總計 4200 次評估。TRI 亦採用 A/B 測試與序列假設檢定方式,確保分析具統計意義,避免實驗誤差干擾結果。
研究亦指出,LBM 模型效能會隨預訓練資料規模穩定提升,未出現明顯的瓶頸或停滯現象,展現 AI 在機器人應用中的可擴展性。不過,未經微調的預訓練模型在多任務整合上的效果仍有限,TRI 推測這與模型的語言導引能力尚未充分發揮有關。像是資料正規化等看似微小的設計選擇,對模型表現具有高度影響力,甚至可能超越架構或演算法本身,顯示未來研究必須對這類設計變數進行嚴格隔離與控制。
技術潛力受肯定,望通用型機器人打破限制
《The Robot Report》補充,憑藉此項研究成果,TRI 於 2024 年榮獲 RBR50 機器人創新獎。團隊表示,目前已觀察到具備更大語言理解能力的 VLA(Vision-Language-Action)原型模型可望進一步克服多任務整合瓶頸,但仍需進一步透過提升語言處理能力的模型進行嚴謹驗證。
TRI 表示,通用型機器人未來可望在家庭中提供日常協助,但現階段的機器人尚無法勝任一般家務任務。LBM 作為一種具身型 AI 系統,能接收感測器資料並輸出動作,有潛力打破這項限制。
*本文開放合作夥伴轉載,資料來源:《The Robot Report》、Toyota Research Institute,圖片來源:TRI 官網。



