機器人學習大躍進：TRI 大型行為模型訓練資料減少 80%，效能仍穩定提升

根據《The Robot Report》報導，Toyota Research Institute（TRI）近日發表關於「大型行為模型（Large Behavior Models，簡稱 LBM）」的研究成果，顯示這類預訓練模型在提升機器人任務學習效率方面具有重大突破。TRI 研究指出，單一 LBM 即可學習數百項操作任務，並能以比傳統方法少 80% 的資料量完成新技能學習，為通用型機器人發展開啟新篇章。

預訓練模型顯著提升學習效率，少量資料即見成效

TRI 研究團隊以近 1700 小時的機器人操作資料訓練一系列擴散式 LBM，並進行超過 1800 次實體測試與 47000 次模擬測試。TRI 研究顯示，LBM 可在多種複雜環境下穩定執行任務，相較於從零開始訓練的策略，不僅表現更穩定，還能以 3 到 5 倍的資料效率學會新任務，特別適用於對環境適應性要求高的場景。

《The Robot Report》提及，LBM 模型運用來自手腕攝影機、場景攝影機、機器人本體感測數據與語言提示等多模態輸入，預測未來 16 個時間步（約 1.6 秒）的行動序列。訓練資料來源橫跨 468 小時內部雙臂遠端操作數據、45 小時模擬操作資料、32 小時 UMI 資料，以及超過 1,150 小時來自 Open X-Embodiment 的網路資料。TRI 表示，即使尚未達到網際網路等級的資料規模，預訓練模型在少量多樣資料下已可展現強勁表現，為後續資料擴充建立良性循環。

評估測試標準嚴謹，TRI 指出設計細節決定模型成敗

《The Robot Report》說明，為確保模型效能的廣泛適用性與統計穩健性，TRI 設計了包含 29 項任務的評估測試，包括 16 項模擬中預訓練任務、3 項真實場域已訓練任務、5 項全新模擬長時任務與 5 項真實世界未見任務。每項模擬任務測試 200 次、實體任務測試 50 次，總計 4200 次評估。TRI 亦採用 A/B 測試與序列假設檢定方式，確保分析具統計意義，避免實驗誤差干擾結果。

研究亦指出，LBM 模型效能會隨預訓練資料規模穩定提升，未出現明顯的瓶頸或停滯現象，展現 AI 在機器人應用中的可擴展性。不過，未經微調的預訓練模型在多任務整合上的效果仍有限，TRI 推測這與模型的語言導引能力尚未充分發揮有關。像是資料正規化等看似微小的設計選擇，對模型表現具有高度影響力，甚至可能超越架構或演算法本身，顯示未來研究必須對這類設計變數進行嚴格隔離與控制。

技術潛力受肯定，望通用型機器人打破限制

《The Robot Report》補充，憑藉此項研究成果，TRI 於 2024 年榮獲 RBR50 機器人創新獎。團隊表示，目前已觀察到具備更大語言理解能力的 VLA（Vision-Language-Action）原型模型可望進一步克服多任務整合瓶頸，但仍需進一步透過提升語言處理能力的模型進行嚴謹驗證。

TRI 表示，通用型機器人未來可望在家庭中提供日常協助，但現階段的機器人尚無法勝任一般家務任務。LBM 作為一種具身型 AI 系統，能接收感測器資料並輸出動作，有潛力打破這項限制。

＊本文開放合作夥伴轉載，資料來源：《The Robot Report》、Toyota Research Institute，圖片來源：TRI 官網。

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

機器人學習大躍進：TRI 大型行為模型訓練資料減少 80%，效能仍穩定提升

預訓練模型顯著提升學習效率，少量資料即見成效

評估測試標準嚴謹，TRI 指出設計細節決定模型成敗

技術潛力受肯定，望通用型機器人打破限制

TO 會員電子報

機器人基礎模型市場價值上看 1,500 億美元：瑞士新創 Flexion Robotics 如何打造會拆解任務的 AI 大腦？

中國兩大實體 AI 新創估值同破 200 億人民幣，智平方、自變量力拚特斯拉

南韓砸逾 8,800 億美元打造 AI 國家隊：拆解台、日、韓的 AI 國力競賽

人形機器人民主化：Hugging Face 的 LeRobot 要讓任何人都能做真機 AI 實驗