Search
Close this search box.

NVIDIA 把機器人實驗交給 AI 代理:研究速度的瓶頸,原來不只是演算法

過去兩年,AI 產業最重要的變化之一,是 AI 開始參與軟體開發本身:從 OpenAI 的 Codex、Anthropic 的 Claude Code,到近期快速崛起的各類 AI Coding Agent,這些工具不再只是回答問題,而是能閱讀程式碼、撰寫程式、執行測試、修正錯誤,甚至在有限範圍內完成整個開發循環。如今,這股「AI 研發 AI」的趨勢正開始從數位世界延伸到實體世界。

NVIDIA GEAR Lab 聯手卡內基美隆大學(Carnegie Mellon University)與加州大學柏克萊分校(UC Berkeley)最新發表的 ENPIRE(Embodied Neural Policy Improvement through Physical AutoResearch)框架,嘗試讓 AI 代理直接在真實機器人上完成研究流程。

根據 NVIDIA GEAR Lab 發表的研究成果,搭配 ENPIRE 的 AI Coding Agent 已能在裝設顯示卡、插針與束帶處理等高精度任務中達到最高 99% 成功率。更重要的是,這些成果並非來自人類工程師反覆調校,而是來自 AI 代理自行執行實驗、分析結果、改寫程式並持續優化。

機器人研究真正瓶頸:每次失敗都得有人把現場收乾淨

根據《Tech Times》報導,機器人研究長期面臨一個軟體工程沒有的瓶頸:每次實驗失敗後,都必須有人重新整理現場。

如果是軟體開發,測試失敗只要重新執行即可;但在機器人領域,物體可能掉落、位置偏移,甚至整個實驗場景被破壞。研究人員必須先確認結果、重設環境,再讓演算法進行下一輪嘗試。這使得機器人研究的迭代速度,往往受限於人類操作速度,而非演算法本身的進步速度。而 ENPIRE 的核心目標,就是將這個循環自動化。

從重設場景到改寫程式,ENPIRE 想讓 AI 接手整個研究流程

根據論文與《Tech Times》報導,ENPIRE 主要由四個模組組成:Environment、Rollout、Policy Improvement 與 Evolution。

其中,Environment 負責自動重設場景與驗證結果;Rollout 負責在真實硬體上執行實驗;Policy Improvement 讓 AI 代理根據執行結果修改控制策略;Evolution 則負責比較不同研究方向的成果,保留有效方法並淘汰失敗路線。

研究團隊表示,AI 代理不只會修改程式,還能閱讀研究論文、分析實驗紀錄、比較不同演算法表現,並決定下一步應該採用模仿學習(Imitation Learning)、強化學習(Reinforcement Learning)或其他訓練方法。換句話說,AI 代理不只是控制機器人,而是在執行一整套研究流程。

裝顯卡、插針、剪束帶,AI 代理把成功率推向 99%

為了驗證 ENPIRE 的能力,研究團隊將 OpenAI Codex、Anthropic Claude Code 與 Moonshot AI 的 Kimi Code 分別接入真實機器人系統進行測試。

根據《Decrypt》與《Ars Technica》報導,研究團隊讓這些 AI 代理控制由 8 組雙臂機器人組成的實驗平台,挑戰多項高精度操作任務,包括插入細小金屬針、綁束帶並剪斷,以及將顯示卡插入主機板 PCIe 插槽。

《Tom’s Hardware》指出,在顯示的示範影片中,機器人先抓取顯示卡,再將其精準對準主機板插槽並完成安裝。雖然過程中仍可看到細微調整,但已展現相當接近人工操作的精度。

此外,研究人員也發現規模化帶來明顯效果。根據《Ars Technica》與《Decrypt》報導,在 Push-T 測試中,單一代理需要接近 5 小時才能達到高成功率;當系統擴展至 8 組代理與機器人並行研究時,所需時間縮短至約 2 小時。這代表機器人研究也開始出現類似 AI 模型訓練中的規模效應。

從一台到八台機器人,研究速度加快但成本也同步上升

ENPIRE 的另一個重要發現是,多個 AI 代理與多台機器人協同工作,確實能顯著縮短研究時間。然而,《Tech Times》指出,隨著代理數量增加,新的問題也開始出現。代理需要閱讀彼此的實驗紀錄、整理研究成果並同步程式碼,導致部分時間花在協作而非實驗本身。

研究團隊因此提出兩項新指標:機器人利用率(Mean Robot Utilization)與 Token 利用率(Mean Token Utilization),用來衡量研究效率與算力消耗。結果顯示,雖然更多代理能更快找到有效解法,但 Token 消耗成長速度甚至超過時間節省幅度。換言之,研究速度提升的代價,是更高的推理成本。

研究也坦承,Physical AI 仍有三大限制待克服

儘管 ENPIRE 展現出令人印象深刻的成果,論文作者也坦承這項技術距離完全自主研究仍有不少限制。首先,每個任務仍需事先建立自動重設與驗證機制。

根據《Tech Times》與《Decrypt》報導,在正式開始自我研究之前,人類研究人員仍需先建立 Reset Routine 與 Reward Function。例如 GPU 插入任務中,系統必須先學會如何自行拔出顯示卡、恢復初始位置,才能開始下一輪實驗。

其次,模擬與真實世界之間的落差依然存在。論文指出,在 Push-T 任務中,三個 AI Coding Agent 都能在模擬器內成功完成訓練,但進入真實世界後,只有一個代理成功達成目標。研究團隊認為,摩擦力、感測器誤差與物體位置偏移等現象,仍是現有模擬環境難以完全重現的因素。

第三,機器人並非一直處於工作狀態。根據《Ars Technica》分析,許多時間其實消耗在 AI 代理閱讀日誌、撰寫程式、等待模型回應與除錯過程。即使研究循環已高度自動化,系統仍受限於大型語言模型本身的推理效率。

如果說 Claude Code、Codex 等工具代表 AI 開始參與軟體開發,那麼 ENPIRE 展現的,則是 AI 開始參與機器人研究本身。當然,現階段的 ENPIRE 仍離不開人類建立環境、設計評估機制與提供算力資源。但這項研究所揭示的方向已相當明確:未來加速 Physical AI 發展的,未必是更多工程師,也可能是更多負責研究的 AI 代理。

*本文開放合作夥伴轉載,資料來源:《Tech Times》《Decrypt》《Tom’s Hardware》《Ars Technica》,首圖來源:ENPIRE