AI 機器人浪潮襲來,OpenAI、特斯拉、Google 等科技巨頭都在競相打造機器人的「大腦」,讓機器人自主化。Google DeepMind 在 3/12 宣布發表兩款全新機器人 AI 模型:Gemini Robotics、Gemini Robotics-ER,稱能讓機器人具備更通用的能力。
這兩款機器人 AI 模型皆以 Gemini 2.0 為基礎,目標是利用大型語言模型(LLM)的推理能力,幫助機器人適應複雜的環境、完成複雜的現實世界任務。Google 強調 Gemini Robotics 的機器人視覺語言動作(VLA)整合能力,而 Gemini Robotics-ER 擁有更進階的空間推理能力。
Google DeepMind 研究員 Kanishka Rao 表示,Gemini Robotics 的通用性比 Google 以往最佳模型提升兩倍。
Gemini Robotics 三大亮點:通用性、互動性、靈活性
在過去,機器人技術發展緩慢,因為研究人員需要手動編寫機器人的每一個動作,使其能夠在特定場景中執行任務。機器人另一大發展障礙是在實驗室中表現良好,但是一出實驗室則表現不佳,但透過生成式 AI 的推理能力,能讓機器人自動適應各種環境,並處理即時變化的情境。
根據 Google,Gemini Robotics 運用 Gemini 2.0 的 AI 推理能力,讓機器人可以完成三件事。
首先是能適應不同新情況的通用性,例如,自行判斷應該用哪種方式拿取咖啡杯,或辨識不同形狀的物體進行抓取。
第二,是互動性(Interactivity)提升,對於口頭指令或環境變化能做出快速反應。Google 表示,這款 AI 模型能更廣泛理解文字與語音指令,並即時監測環境變化。例如,如果使用者更改指令或物體位置,Gemini Robotics 能夠迅速調整行動策略,確保機器人可以順利完成任務。
第三,Google 也透過演示影片強調新 AI 模型帶來動作靈活性(Dexterity),指出傳統機器人難以執行需要精細手部動作的任務,而 Gemini Robotics 能夠進行更複雜的操作,例如摺紙、包裝物品,甚至能夠準確地將零食放入塑膠袋中。
提升機器人的空間推理能力:Gemini Robotics-ER
除了 Gemini Robotics,Google 也發表 Gemini Robotics-ER,進一步強化機器人感知與推理能力。該模型能夠提升 Gemini 2.0 既有的方向感知和 3D 偵測等能力,並且能與機器人低階控制系統整合。
Google 表示,因此 Gemini Robotics-ER 可以執行全新的任務,例如,模型可以直觀判斷如何用兩指抓住杯柄,並規劃安全的運動路徑。Gemini Robotics-ER 也能夠端到端地執行控制機器人所需的所有步驟,例如感知、空間理解、規劃、程式碼生成和情境學習,可根據少量的人類示範模型進行學習。

如何確保 AI 機器人的人機互動安全?
隨著 AI 技術逐步導入機器人,安全性成為重要議題。Google 表示,Gemini Robotics-ER 能夠與針對每個特定使用案例結合安全機制,除了能了解機器人執行的任務是安全的,也能向人類生成適當回應。此外,Google 也推出新的 ASIMOV 資料集,提供研究人員工具來評估與改善 AI 機器人的安全行為。
目前,Google 已與 Agile Robots、Agility Robots、Boston Dynamics 和 Enchanted Tools 等機器人公司合作測試 Gemini Robotics-ER,並持續發展 AI 在機器人領域的應用。
【推薦閱讀】
◆ 調研:日本服務機器人市場 5 年內將成長 3 倍。71 歲服務生稱一半工作靠機器幫忙
*本文初稿由 AI 生成,經《TechOrange》編撰,資料來源:《Financial Times》、Google、《Reuters》,首圖來源:Google。



