Search
Close this search box.

跨越恐怖谷:為什麼「精準對嘴」是 AI 機器人進入家庭的關鍵拼圖?

當機器人的外觀與行為愈來愈接近人類,我們未必會感到親切,反而可能產生一種難以言喻的不安。這種心理現象被稱為「恐怖谷效應」(Uncanny Valley),至今仍是人形機器人邁向普及的核心障礙。

人類對於臉部動作的敏感度極高。我們或許能容忍機器人走路姿態笨拙、手部動作僵硬,卻對臉部的任何細微失誤毫不寬容。哥倫比亞大學機械工程教授 Hod Lipson 指出,機器人之所以令人感到詭異,主要原因在於說話時嘴唇的動作與聲音不同步。即使是當前最先進的人形機器人,其嘴部動作也僅停留在類似布偶的簡單開合,甚至許多機器人根本沒有臉部設計。

而研究顯示,人類在面對面交談時,將近一半的注意力會集中在對方的唇部動作上。當唇形與語音之間出現哪怕只是瞬間的不匹配,都足以讓人從「願意建立情感連結」轉變為「感到不適」。

隨著人形機器人逐漸進入家庭與工作場域,這種心理摩擦必須被有效降低。也因此,研究者開始重新思考,機器人是否應該「更像人」,還是應該「更像在理解人」?

從規則控制到觀察學習:唇形同步的關鍵突破

針對這個長期被忽視的問題,哥倫比亞大學創意機器實驗室(Creative Machines Lab)近期發表了一項重要研究,展示了一款能夠學習唇形同步的機器人臉部系統。這項研究的核心突破在於:機器人不是依據預設規則來控制嘴唇,而是透過觀察學習,直接從音訊生成對應的唇部動作。

在硬體層面,研究團隊打造了一張覆蓋矽膠皮膚的機器人臉部,內建 26 個微型馬達,並採用磁鐵連接器實現複雜的唇形變化。這套設計能夠形成涵蓋 24 個子音與 16 個母音的唇形,足以覆蓋絕大多數人類語言的發音需求。

在軟體層面,研究團隊設計了一套學習管道。首先,他們讓機器人面對鏡子,透過數千次隨機的臉部表情與唇部動作,學習自身馬達活動與外觀變化之間的關係。這種方式類似於嬰兒第一次在鏡中觀察自己的臉,逐步建立起「視覺到動作」的語言模型。

接著,研究團隊讓機器人觀看大量人類說話與唱歌的影片,學習人類在發出不同聲音時嘴唇如何移動。最後,一個名為「臉部動作轉換器」(facial action transformer)的模組將馬達指令轉換為與音訊同步的嘴部動作。

這套框架的關鍵優勢在於,它分析的是語言的聲音結構,而非語意內容。Lipson 教授強調,他們刻意避開了語言特定性的問題,直接從音訊映射到唇部動作,系統中不存在「語言」的概念。這使得機器人能夠說出多種語言,包括訓練資料中未曾出現的法語、中文與阿拉伯語。研究團隊甚至讓這張名為 Emo 的機器人臉部演唱了一首由 AI 生成的歌曲。

研究團隊坦承,目前的唇形同步技術仍有改進空間,例如「B」等爆破音與「W」等需要嘟嘴的音素仍有困難。但他們相信,隨著機器人與人類互動的時間愈長、觀察的對話情境愈多,這些能力將持續精進。

研究證實,語言與表情是人機協作的效率關鍵

人類與機器人協作的歷史已相當悠久,但過去的機器人大多以明顯的機械形態存在,例如工廠產線上的機械手臂或家中的掃地機器人。然而,隨著大型語言模型的成熟,科技公司正積極讓機器人具備即時語言溝通的能力,這也讓「人機互動」這門學科愈發受到重視。

因此,語言與臉部表情不只是溝通工具,而是人類判斷信任與協作意願的關鍵線索。2024 年一項來自柏林、涵蓋 157 名受試者的研究發現,機器人透過語言表達同理心與情緒的能力,對於與人類有效互動至關重要。同年,義大利的另一項研究則指出,在複雜的協作任務(如組裝作業)中,機器人的主動語言表達顯著提升了人機協作的效率。

若我們希望機器人在家庭與工作場域中發揮作用,就必須能夠像與人交談一樣與它們對話。Lipson 教授認為,任何需要與人互動的人形機器人都將受益於唇形同步技術。他進一步指出,當唇形同步能力與 ChatGPT 或 Gemini 等對話式 AI 結合時,機器人與人類之間的連結將達到全新的深度。

部分經濟學家預測,未來十年將有超過十億台人形機器人被生產。Lipson 教授斷言,在這個未來中,不可能所有人形機器人都沒有臉。而當它們終於擁有臉時,若眼睛與嘴唇無法正確移動,它們將永遠停留在恐怖谷效應之中。

機器人得要與人相似,卻又不能太像人

不過機器人愈來愈像人類,一個不可迴避的問題隨之浮現:我們是否希望機器人逼真到讓人無法分辨?

研究團隊對此有清楚的立場。這項技術的目標不是欺騙,而是降低互動時的不適感。Lipson 教授強調,他們必須在獲取效益的同時將風險降到最低。他提出一個具體的設計建議:可以透過外觀設計明確區分機器人與人類,例如要求人形機器人具備藍色皮膚,使其不可能被誤認為真人。

這種設計哲學反映出一種務實的平衡,人形機器人需要足夠像人,才能讓互動自然、讓人願意接納;但它們也需要保留足夠的「非人」特徵,以避免引發身份混淆或倫理爭議。未來的人形機器人設計,很可能會在這條「像人」與「不被誤認為人」的界線上持續探索。

【推薦閱讀】

◆ FedEx 為何不急著用人形機器人?物流巨頭點名真正需要的是「超級人形」
◆ 從搬運工到國家安全節點:人形機器人競賽升級,Foundation 將技術推向地緣政治的火藥庫
◆ AI 生成的廣告不只是假人,還有假文化——品牌語彙恐被演算法淡化

*本文開放合作夥伴轉載,參考資料:《CNET》《Columbia Engineering》,圖片來源:Columbia Engineering

(責任編輯:鄒家彥)