Search
Close this search box.

通用機器人將來臨?波士頓動力人形機器人出現「意料之外」新技能

波士頓動力(Boston Dynamics)的雙足人形機器人 Atlas,近期展示了以單一 AI 模型 同時學會行走與抓取物體的新能力。這個由波士頓動力與豐田研究院(Toyota Research Institute,TRI)合作開發的通用模型,透過一系列示範動作學習,能同時控制手臂與腿部的協調,這與常見的機器人學習方式不同,後者通常會以一個模型處理行走、跳躍,另一個模型處理抓取等手部操作。

大行為模型結合視覺、感知與語言提示

研究團隊以「大行為模型(Large Behavior Model,LBM)」為核心,讓 Atlas 接收來自機身視覺感測器的影像、從身體感測器獲取本體感知(位置和運動),以及與任務相關的語言提示。模型透過混用遠端操控(teleoperation)、模擬與示範影片的資料進行學習,因此能以更貼近人類的方式控制身體,例如在彎腰撿取低處物品時,Atlas 會自然地調整腳步來重新平衡重心。

值得關注的是,Atlas 展現出一些未明確在訓練中教過、卻能自行產生的行為,例如當機器人的手中物品掉落時,會出現「本能式」自己彎下腰把物品撿回來;這被研究團隊與外部學者視為初步的「自發行為」(emergent behavior)。不過,加州大學柏克萊分校的機器人專家 Ken Goldberg 同時提醒,部分「自發」行為可能仍能追溯至訓練資料的涵蓋範圍。

用一次到位的通用策略,取代繁瑣的逐項程式設計

在實作流程上,波士頓動力與 TRI 採用模仿學習的端到端方法:先以 VR(虛擬實境)裝置進行高品質的遠端操控示範,蒐集大量「具身」資料;再將影像、語言描述與感測訊號整合,訓練成單一神經網路策略,讓 Atlas 能處理長時間、多步驟的移動與操作任務。

研究團隊強調,這種通用策略能把過去需工程師分別調整參數、調度、避障與規劃的繁瑣工作,整合進統一的學習與推論流程,並能對意外狀況(例如零件掉落、箱蓋闔上)做出合理反應,而不必額外改寫演算法。

擴大資料規模能否帶來更多「自發」行為?

相比過去吸睛的跑酷與舞蹈展示,Atlas 近來的影片多聚焦在搬運零件、清理箱櫃等「物流感」更強的實務任務。然而,打造能長時間、可重複、經濟且安全完成多樣作業的人形機器人,可能是目前機器人領域最難的課題之一,而 LBM 的路線,是把更一般性的世界知識與具體任務知識疊合起來,逐步累積「可遷移」的能力基礎。

研究團隊告訴《IEEE Spectrum》,讓一個模型被稱為「大型行為模型」的原因在於,它會蒐集來自許多不同任務,甚至不同機器人體態的資料,並將這些資料都用來訓練機器人,使其最後能形成一個能夠執行多種任務的單一策略。研究團隊認為,當神經網路在更廣泛的資料、任務和機器人上接受訓練時,其通用能力就會更強,而團隊仍處於蒐集證據的早期階段,而目前的經驗趨勢看來是正確的。

單純擴大訓練資料的規模,是否就能持續解鎖更多「意料之外」的行為。《WIRED》指出,部分學者在今年一場國際會議辯論中提醒,除了擴大資料,工程方法也將是機器人模型突破的要素。

《WIRED》指出,最新的 Atlas 研究成果,是一個重大信號:機器人正開始經歷與語言模型相似的突破,就像當年大型語言模型帶來了 ChatGPT,推動生成式 AI 的發展一樣。「這絕對是一大進步,」Goldberg 說,「讓雙腿和雙臂能夠協調運作,這是非常重要的突破。」

AI 機器人浪潮來襲!立即免費下載《AI 機器人全球 7 大勢力關鍵報告》,解鎖各國 AI 機器人發展重點

*本文開放合作夥伴轉載,資料來源:《The WIRED》《The Robot Report》《IEEE Spectrum》,首圖來源:Boston Dynamics