Search
Close this search box.

Google 發表新 AI 機器人「大腦」Gemini Robotics,讓機器人學會摺紙、包東西

AI 機器人浪潮襲來,OpenAI、特斯拉、Google 等科技巨頭都在競相打造機器人的「大腦」,讓機器人自主化。Google DeepMind 在 3/12 宣布發表兩款全新機器人 AI 模型:Gemini Robotics、Gemini Robotics-ER,稱能讓機器人具備更通用的能力。

這兩款機器人 AI 模型皆以 Gemini 2.0 為基礎,目標是利用大型語言模型(LLM)的推理能力,幫助機器人適應複雜的環境、完成複雜的現實世界任務。Google 強調 Gemini Robotics 的機器人視覺語言動作(VLA)整合能力,而 Gemini Robotics-ER 擁有更進階的空間推理能力。

Google DeepMind 研究員 Kanishka Rao 表示,Gemini Robotics 的通用性比 Google 以往最佳模型提升兩倍。

Gemini Robotics 三大亮點:通用性、互動性、靈活性

在過去,機器人技術發展緩慢,因為研究人員需要手動編寫機器人的每一個動作,使其能夠在特定場景中執行任務。機器人另一大發展障礙是在實驗室中表現良好,但是一出實驗室則表現不佳,但透過生成式 AI 的推理能力,能讓機器人自動適應各種環境,並處理即時變化的情境。

根據 Google,Gemini Robotics 運用 Gemini 2.0 的 AI 推理能力,讓機器人可以完成三件事。

首先是能適應不同新情況的通用性,例如,自行判斷應該用哪種方式拿取咖啡杯,或辨識不同形狀的物體進行抓取。

第二,是互動性(Interactivity)提升,對於口頭指令或環境變化能做出快速反應。Google 表示,這款 AI 模型能更廣泛理解文字與語音指令,並即時監測環境變化。例如,如果使用者更改指令或物體位置,Gemini Robotics 能夠迅速調整行動策略,確保機器人可以順利完成任務。

第三,Google 也透過演示影片強調新 AI 模型帶來動作靈活性(Dexterity),指出傳統機器人難以執行需要精細手部動作的任務,而 Gemini Robotics 能夠進行更複雜的操作,例如摺紙、包裝物品,甚至能夠準確地將零食放入塑膠袋中。

提升機器人的空間推理能力:Gemini Robotics-ER

除了 Gemini Robotics,Google 也發表 Gemini Robotics-ER,進一步強化機器人感知與推理能力。該模型能夠提升 Gemini 2.0 既有的方向感知和 3D 偵測等能力,並且能與機器人低階控制系統整合。

Google 表示,因此 Gemini Robotics-ER 可以執行全新的任務,例如,模型可以直觀判斷如何用兩指抓住杯柄,並規劃安全的運動路徑。Gemini Robotics-ER 也能夠端到端地執行控制機器人所需的所有步驟,例如感知、空間理解、規劃、程式碼生成和情境學習,可根據少量的人類示範模型進行學習。

如何確保 AI 機器人的人機互動安全?

隨著 AI 技術逐步導入機器人,安全性成為重要議題。Google 表示,Gemini Robotics-ER 能夠與針對每個特定使用案例結合安全機制,除了能了解機器人執行的任務是安全的,也能向人類生成適當回應。此外,Google 也推出新的 ASIMOV 資料集,提供研究人員工具來評估與改善 AI 機器人的安全行為。

目前,Google 已與 Agile Robots、Agility Robots、Boston Dynamics 和 Enchanted Tools 等機器人公司合作測試 Gemini Robotics-ER,並持續發展 AI 在機器人領域的應用。

【推薦閱讀】

調研:日本服務機器人市場 5 年內將成長 3 倍。71 歲服務生稱一半工作靠機器幫忙

AI 機器人也能當「職人」!大阪世博會 AI 烤年輪蛋糕亮相,精確計算最佳烘焙條件

怎麼讓機器人自學新技巧?波士頓動力創辦人揭 Spot 速度提升 3 倍關鍵

*本文初稿由 AI 生成,經《TechOrange》編撰,資料來源:《Financial Times》Google《Reuters》,首圖來源:Google。