Google DeepMind 近期發布 Gemini Robotics 1.5 與 Gemini Robotics-ER 1.5 兩款 AI 模型,讓機器人不再僅僅是「執行單一步驟指令」的工具,而是可以在實際行動前先「思考」如何完成更複雜、涉及多步驟的真實世界任務。Google DeepMind 機器人部門主管 Carolina Parada 表示,這標誌著機器人已經發展到對物理任務具備「真正理解和問題解決」的能力,因此被視為通用型機器人邁向實用化、智慧化的重要里程碑。
Gemini Robotics 1.5 系列模型如何突破數據不足的訓練限制?
Gemini Robotics 1.5 系列模型實現多項技術突破,能處理多步驟任務,例如依照顏色將衣物分類,或是協助打包行李。這些突破的背後,仰賴兩個模型分工合作:Gemini Robotics-ER 1.5 作為具身推理模型,負責高階規劃與邏輯決策; Gemini Robotics 1.5 則是「視覺–語言–動作」(Vision-Language-Action, VLA)模型,可以同時結合影像輸入、語言指令與動作輸出,負責將規劃轉化為實際操作指令。
更重要的是,這些模型還能直接使用 Google 搜尋,以獲取完成任務所需的額外資訊,例如機器人可以先查詢舊金山的垃圾回收規範,再依據規定進行垃圾分類。
另一項名為「動作轉移」(motion transfer)的技術更進一步突破訓練限制。這項技術允許 AI 把針對特定機器人設計的技能,轉移到其他不同型態的機器人上,且不必重新進行繁瑣的客製化訓練。「和可以在龐大的互聯網數據上進行訓練的大型語言模型不同,收集真實數據一直是機器人技術發展上的限制,」Google DeepMind 機器人首席軟體工程師 Kanishka Rao 說明過往機器人開發上的痛點,也展現出動作轉移技術正好為「訓練數據不足」這個挑戰,提供新解方。
分類衣物、打包行李都沒問題,機器人即將迎來「ChatGPT 時刻」嗎?
Gemini Robotics 1.5 系列模型的技術突破,最終目標就是讓機器人能在日常生活中執行更多元的任務。像是在家庭場域內,機器人可以依照顏色將衣物分類;在示範打包行李的過程中,當 Google DeepMind 的研究人員要求機器人放入帽子時,機器人不僅完成指令,還透過 Google 搜尋目的地的天氣,並主動幫研究人員多放入一把雨傘。
面對機器人的技術新突破,科技產業也期待這些進展能推動醫療、製造等產業的轉型,讓機器人扮演更重要的角色。至於學界對這項發展則同時表現出樂觀與審慎,例如牛津大學應用人工智慧教授 Ingmar Posner 認為,機器人能夠從網路數據中學習,這可能意味著機器人即將迎來「ChatGPT 時刻」;然而,曼徹斯特機器人與人工智慧中心聯合主任 Angelo Cangelosi 則提醒,這些行為不應被過度解讀為真正的思考,因為機器人進行的「推理」其實只是發現像素、影像、詞彙與標記之間的規律。
通用型機器人仍有技術與安全挑戰待解
儘管技術已取得顯著突破,通用型機器人要從實驗室走向普及仍挑戰重重。「製造通用機器人的主要挑戰之一是,人類直覺的事情對機器人來說實際上相當困難,」Google DeepMind 機器人首席軟體工程師 Kanishka Rao 說。此外,DeepMind 也承認,機器人需要在靈巧度、可靠性與安全性方面進一步提升,才能在與人類共處的環境中安全運作。
另一方面,隨著具身 AI 的潛力逐步釋放,安全性與人機互動的規範也亟需建立,因此 DeepMind 正開發新的安全與校準方法,確保這些機器人能以負責任的方式運行,以考量行動風險,並遵循 Gemini 安全政策。
目前 Gemini Robotics-ER 1.5 已向開發者開放,但實際控制機器人的 Gemini Robotics 1.5 模型仍僅限於特定合作夥伴使用。
Gemini Robotics 1.5 系列模型的問世,標誌著「會思考的機器人」正逐步成形,為通用型機器人的發展邁出了關鍵一步。從衣物分類、行李打包,到醫療與製造等產業轉型,儘管仍有不少問題待解,但隨著技術正以前所未有的速度進化,機器人走向通用化的場景,也從想像變成近在不遠的現實。
*本文開放合作夥伴轉載,資料來源:《Financial Times》 、Google DeepMind 、《arsTechnica》、《silicon Angle》,首圖來源:Google DeepMind 。



