【Gemini Robotics 1.5 登場】Google DeepMind 讓機器人不只會推理，還能上網查資料、主動幫你準備雨傘

Google DeepMind 近期發布 Gemini Robotics 1.5 與 Gemini Robotics-ER 1.5 兩款 AI 模型，讓機器人不再僅僅是「執行單一步驟指令」的工具，而是可以在實際行動前先「思考」如何完成更複雜、涉及多步驟的真實世界任務。Google DeepMind 機器人部門主管 Carolina Parada 表示，這標誌著機器人已經發展到對物理任務具備「真正理解和問題解決」的能力，因此被視為通用型機器人邁向實用化、智慧化的重要里程碑。

Gemini Robotics 1.5 系列模型如何突破數據不足的訓練限制？

Gemini Robotics 1.5 系列模型實現多項技術突破，能處理多步驟任務，例如依照顏色將衣物分類，或是協助打包行李。這些突破的背後，仰賴兩個模型分工合作：Gemini Robotics-ER 1.5 作為具身推理模型，負責高階規劃與邏輯決策； Gemini Robotics 1.5 則是「視覺–語言–動作」（Vision-Language-Action, VLA）模型，可以同時結合影像輸入、語言指令與動作輸出，負責將規劃轉化為實際操作指令。

更重要的是，這些模型還能直接使用 Google 搜尋，以獲取完成任務所需的額外資訊，例如機器人可以先查詢舊金山的垃圾回收規範，再依據規定進行垃圾分類。

另一項名為「動作轉移」（motion transfer）的技術更進一步突破訓練限制。這項技術允許 AI 把針對特定機器人設計的技能，轉移到其他不同型態的機器人上，且不必重新進行繁瑣的客製化訓練。「和可以在龐大的互聯網數據上進行訓練的大型語言模型不同，收集真實數據一直是機器人技術發展上的限制，」Google DeepMind 機器人首席軟體工程師 Kanishka Rao 說明過往機器人開發上的痛點，也展現出動作轉移技術正好為「訓練數據不足」這個挑戰，提供新解方。

分類衣物、打包行李都沒問題，機器人即將迎來「ChatGPT 時刻」嗎？

Gemini Robotics 1.5 系列模型的技術突破，最終目標就是讓機器人能在日常生活中執行更多元的任務。像是在家庭場域內，機器人可以依照顏色將衣物分類；在示範打包行李的過程中，當 Google DeepMind 的研究人員要求機器人放入帽子時，機器人不僅完成指令，還透過 Google 搜尋目的地的天氣，並主動幫研究人員多放入一把雨傘。

面對機器人的技術新突破，科技產業也期待這些進展能推動醫療、製造等產業的轉型，讓機器人扮演更重要的角色。至於學界對這項發展則同時表現出樂觀與審慎，例如牛津大學應用人工智慧教授 Ingmar Posner 認為，機器人能夠從網路數據中學習，這可能意味著機器人即將迎來「ChatGPT 時刻」；然而，曼徹斯特機器人與人工智慧中心聯合主任 Angelo Cangelosi 則提醒，這些行為不應被過度解讀為真正的思考，因為機器人進行的「推理」其實只是發現像素、影像、詞彙與標記之間的規律。

通用型機器人仍有技術與安全挑戰待解

儘管技術已取得顯著突破，通用型機器人要從實驗室走向普及仍挑戰重重。「製造通用機器人的主要挑戰之一是，人類直覺的事情對機器人來說實際上相當困難，」Google DeepMind 機器人首席軟體工程師 Kanishka Rao 說。此外，DeepMind 也承認，機器人需要在靈巧度、可靠性與安全性方面進一步提升，才能在與人類共處的環境中安全運作。

另一方面，隨著具身 AI 的潛力逐步釋放，安全性與人機互動的規範也亟需建立，因此 DeepMind 正開發新的安全與校準方法，確保這些機器人能以負責任的方式運行，以考量行動風險，並遵循 Gemini 安全政策。

目前 Gemini Robotics-ER 1.5 已向開發者開放，但實際控制機器人的 Gemini Robotics 1.5 模型仍僅限於特定合作夥伴使用。

Gemini Robotics 1.5 系列模型的問世，標誌著「會思考的機器人」正逐步成形，為通用型機器人的發展邁出了關鍵一步。從衣物分類、行李打包，到醫療與製造等產業轉型，儘管仍有不少問題待解，但隨著技術正以前所未有的速度進化，機器人走向通用化的場景，也從想像變成近在不遠的現實。

＊本文開放合作夥伴轉載，資料來源：《Financial Times》、Google DeepMind 、《arsTechnica》、《silicon Angle》，首圖來源：Google DeepMind 。

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

【Gemini Robotics 1.5 登場】Google DeepMind 讓機器人不只會推理，還能上網查資料、主動幫你準備雨傘

Gemini Robotics 1.5 系列模型如何突破數據不足的訓練限制？

分類衣物、打包行李都沒問題，機器人即將迎來「ChatGPT 時刻」嗎？

通用型機器人仍有技術與安全挑戰待解

TO 會員電子報

不等人形機器人了？Sanctuary AI 先把實體 AI 用在汽車產線，2.54 秒搞定電線插接

MIH 聯盟宣告轉型！籌組「MIH 台灣機器智能產業協會」，號召跨域生態系共建 AI 機器新標準

NVIDIA 把機器人實驗交給 AI 代理：研究速度的瓶頸，原來不只是演算法

放棄遠端遙控、捨棄人形設計：Genesis AI 如何用資料解決機器人發展瓶頸？