跨越恐怖谷：為什麼「精準對嘴」是 AI 機器人進入家庭的關鍵拼圖？

當機器人的外觀與行為愈來愈接近人類，我們未必會感到親切，反而可能產生一種難以言喻的不安。這種心理現象被稱為「恐怖谷效應」（Uncanny Valley），至今仍是人形機器人邁向普及的核心障礙。

人類對於臉部動作的敏感度極高。我們或許能容忍機器人走路姿態笨拙、手部動作僵硬，卻對臉部的任何細微失誤毫不寬容。哥倫比亞大學機械工程教授 Hod Lipson 指出，機器人之所以令人感到詭異，主要原因在於說話時嘴唇的動作與聲音不同步。即使是當前最先進的人形機器人，其嘴部動作也僅停留在類似布偶的簡單開合，甚至許多機器人根本沒有臉部設計。

而研究顯示，人類在面對面交談時，將近一半的注意力會集中在對方的唇部動作上。當唇形與語音之間出現哪怕只是瞬間的不匹配，都足以讓人從「願意建立情感連結」轉變為「感到不適」。

隨著人形機器人逐漸進入家庭與工作場域，這種心理摩擦必須被有效降低。也因此，研究者開始重新思考，機器人是否應該「更像人」，還是應該「更像在理解人」？

從規則控制到觀察學習：唇形同步的關鍵突破

針對這個長期被忽視的問題，哥倫比亞大學創意機器實驗室（Creative Machines Lab）近期發表了一項重要研究，展示了一款能夠學習唇形同步的機器人臉部系統。這項研究的核心突破在於：機器人不是依據預設規則來控制嘴唇，而是透過觀察學習，直接從音訊生成對應的唇部動作。

在硬體層面，研究團隊打造了一張覆蓋矽膠皮膚的機器人臉部，內建 26 個微型馬達，並採用磁鐵連接器實現複雜的唇形變化。這套設計能夠形成涵蓋 24 個子音與 16 個母音的唇形，足以覆蓋絕大多數人類語言的發音需求。

在軟體層面，研究團隊設計了一套學習管道。首先，他們讓機器人面對鏡子，透過數千次隨機的臉部表情與唇部動作，學習自身馬達活動與外觀變化之間的關係。這種方式類似於嬰兒第一次在鏡中觀察自己的臉，逐步建立起「視覺到動作」的語言模型。

接著，研究團隊讓機器人觀看大量人類說話與唱歌的影片，學習人類在發出不同聲音時嘴唇如何移動。最後，一個名為「臉部動作轉換器」（facial action transformer）的模組將馬達指令轉換為與音訊同步的嘴部動作。

這套框架的關鍵優勢在於，它分析的是語言的聲音結構，而非語意內容。Lipson 教授強調，他們刻意避開了語言特定性的問題，直接從音訊映射到唇部動作，系統中不存在「語言」的概念。這使得機器人能夠說出多種語言，包括訓練資料中未曾出現的法語、中文與阿拉伯語。研究團隊甚至讓這張名為 Emo 的機器人臉部演唱了一首由 AI 生成的歌曲。

研究團隊坦承，目前的唇形同步技術仍有改進空間，例如「B」等爆破音與「W」等需要嘟嘴的音素仍有困難。但他們相信，隨著機器人與人類互動的時間愈長、觀察的對話情境愈多，這些能力將持續精進。

研究證實，語言與表情是人機協作的效率關鍵

人類與機器人協作的歷史已相當悠久，但過去的機器人大多以明顯的機械形態存在，例如工廠產線上的機械手臂或家中的掃地機器人。然而，隨著大型語言模型的成熟，科技公司正積極讓機器人具備即時語言溝通的能力，這也讓「人機互動」這門學科愈發受到重視。

因此，語言與臉部表情不只是溝通工具，而是人類判斷信任與協作意願的關鍵線索。2024 年一項來自柏林、涵蓋 157 名受試者的研究發現，機器人透過語言表達同理心與情緒的能力，對於與人類有效互動至關重要。同年，義大利的另一項研究則指出，在複雜的協作任務（如組裝作業）中，機器人的主動語言表達顯著提升了人機協作的效率。

若我們希望機器人在家庭與工作場域中發揮作用，就必須能夠像與人交談一樣與它們對話。Lipson 教授認為，任何需要與人互動的人形機器人都將受益於唇形同步技術。他進一步指出，當唇形同步能力與 ChatGPT 或 Gemini 等對話式 AI 結合時，機器人與人類之間的連結將達到全新的深度。

部分經濟學家預測，未來十年將有超過十億台人形機器人被生產。Lipson 教授斷言，在這個未來中，不可能所有人形機器人都沒有臉。而當它們終於擁有臉時，若眼睛與嘴唇無法正確移動，它們將永遠停留在恐怖谷效應之中。

機器人得要與人相似，卻又不能太像人

不過機器人愈來愈像人類，一個不可迴避的問題隨之浮現：我們是否希望機器人逼真到讓人無法分辨？

研究團隊對此有清楚的立場。這項技術的目標不是欺騙，而是降低互動時的不適感。Lipson 教授強調，他們必須在獲取效益的同時將風險降到最低。他提出一個具體的設計建議：可以透過外觀設計明確區分機器人與人類，例如要求人形機器人具備藍色皮膚，使其不可能被誤認為真人。

這種設計哲學反映出一種務實的平衡，人形機器人需要足夠像人，才能讓互動自然、讓人願意接納；但它們也需要保留足夠的「非人」特徵，以避免引發身份混淆或倫理爭議。未來的人形機器人設計，很可能會在這條「像人」與「不被誤認為人」的界線上持續探索。

【推薦閱讀】
◆ FedEx 為何不急著用人形機器人？物流巨頭點名真正需要的是「超級人形」
◆ 從搬運工到國家安全節點：人形機器人競賽升級，Foundation 將技術推向地緣政治的火藥庫
◆ AI 生成的廣告不只是假人，還有假文化——品牌語彙恐被演算法淡化

＊本文開放合作夥伴轉載，參考資料：《CNET》、《Columbia Engineering》，圖片來源：Columbia Engineering

（責任編輯：鄒家彥）

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

跨越恐怖谷：為什麼「精準對嘴」是 AI 機器人進入家庭的關鍵拼圖？

從規則控制到觀察學習：唇形同步的關鍵突破

研究證實，語言與表情是人機協作的效率關鍵

機器人得要與人相似，卻又不能太像人

TO 會員電子報

機器人基礎模型市場價值上看 1,500 億美元：瑞士新創 Flexion Robotics 如何打造會拆解任務的 AI 大腦？

中國兩大實體 AI 新創估值同破 200 億人民幣，智平方、自變量力拚特斯拉

南韓砸逾 8,800 億美元打造 AI 國家隊：拆解台、日、韓的 AI 國力競賽

人形機器人民主化：Hugging Face 的 LeRobot 要讓任何人都能做真機 AI 實驗