多模態 AI 可以快速在文字、圖片、聲音與影像資料間快速轉換,並且分析資訊。光是這樣的功能就已經讓人類覺得備受 AI 威脅。但如果多模態 AI 能夠感知與理解的資訊再度擴充到視覺或是嗅覺呢?這在技術研發上目前有什麼進展?
要把嗅覺數位化,其實超困難
嗅覺其實是一種神秘的感官能力,許多 AI 可以辨識視覺或是聲音,但是很少看到 AI 專門在研究嗅覺與氣味。美國麻州新創公司 OSMO 研究人員藉助機器學習技術,逐步揭開了氣味的神秘面紗。他們開發的人工智慧模型,在描述某些化學物質的氣味方面達到了接近人類水平,成功縮小了科學界對嗅覺理解的關鍵差距。
該 AI 模型利用一個包含 5,000 種已知氣味的行業資料庫進行訓練,能夠根據分子結構準確預測氣味描述符。在研究中,當該模型與受訓的真人小組成員進行比較時,發現模型在 53% 的測試分子上表現優於人類評估。
這一突破性的研究讓氣味的數位化和人工智慧的結合能幫助企業創造更具創新性的產品,也將改變 AI 理解世界的方式。
讓 AI 有觸覺感知,可以感受物體的重量與質地
人類利用觸覺來完成幾乎所有日常任務,例如拿起咖啡或是握手這樣的動作,雖然對人類很簡單但是對於機器人來講仍是困難挑戰。
TouchGPT 這家澳洲新創公司專注於將觸覺感知集成到多模態 AI 中。通過嵌入在智慧手機中的傳感器,訓練 AI 來學習觸覺,並開發了具有數位觸覺感知的可穿戴設備。這些技術可被應用於遊戲、虛擬現實、醫療等領域,提升用戶的沉浸式體驗 。
透過智慧傳感器,TouchGPT 可以將接收到的觸覺數據轉化成文字(形容摸到的觸覺)、聲音(聽聲音了解物體的材質是軟是硬)、視覺(顯示材質的紋理)。這樣的數據轉換與分析可以拿來做許多應用,例如針對皮膚質地推薦適合的保養品,或是針對肌肉分佈建議適合的訓練方式等。
把數位觸覺感知,應用到工廠生產線上
麻省理工學院研究團隊開發了一項名為 GelSight 的突破性觸覺傳感器技術,這項技術利用攝影機來捕捉物體表面,並以此數據描繪詳細 3D 圖,且同時透過神經網絡分析觸摸模式的變化來測量物體的硬度和形狀。這不僅為機器人帶來了更加靈敏的觸覺感應,還有望在工業自動化中掀起一場變革。
GelSight 技術已廣泛應用於航空航太、汽車等領域,以及世界各地的多個機器人研究實驗室。以實際應用舉例來說,在航太與汽車製造業上便有可應用之處——檢查員每天在生產和維護線上,進行手動觸摸檢查,以決定飛機是否適航或汽車零件是否符合品質標準,以確保駕駛安全;GelSight Mobile 即可透過高精度觸覺感測功能,幫助檢查員可以更快、更準確地完成檢查工作,降低人為誤差。
這項技術不僅將觸覺數位化,還使其能夠以圖像化的方式呈現和分析,為自動化工廠中的機器人系統提供了全新的感知能力。
繼續閱讀《人機協作再進化!多模態 AI 來了》Highlight 其他內容:
多模態 AI 是什麼?探索它如何突破生成式 AI 實現多感官協作
Google 力求轉型、蘋果變身 AI 飆股,全都因為多模態 AI
*本文開放合作夥伴轉載,資料來源:《Gelsight》、《Neuroscience》、《TouchGPT》。首圖來源:openart.ai



