如果要讓 AI 機器人看見眼前物體,仰賴影像畫面的視覺辨識技術,至今還是最主要的手段,因此若物體被藏起來,例如置於封閉的箱子、櫃子當中,那麼 AI 機器人即便再聰明似乎也無能為力。
對此麻省理工學院的研究人員近日就開發出名為「mmNorm」的技術,利用與 Wi-Fi 頻率範圍相同的毫米波(mmWave)訊號,透視並重建隱藏物體的 3D 影像,其準確度比起傳統技術有著大幅進步。
雖然理論完備,但傳統方法仍有缺陷
MIT 訊號動力學小組主任 Fadel Adib 表示,雖然旗下團隊在類似問題的研究方面,已經投入相當長一段時間,但過程卻是一直碰壁,因為傳統方法雖然於理論、數學方面十分完備,但實際效果仍不盡理想。
研究人員解釋,若要透過毫米波雷達透視物體,通常需要藉由天線,發射、接收物體所反射回來的訊號,再進行 3D 影像重建,這種方法即是「背投影」(back projection)。
然而,背投影雖然對於大型物件,例如遭到雲層遮蔽的飛機之類非常有效,但卻也只能產生低解析度的影像,而且當背投影方法被應用於掃描小工具、器皿等,較為小型且隱蔽的物件時,通常會變得非常容易失效。
運用「鏡面反射」特性創造全新技術
MIT 研究團隊在思考如何解決上述問題時,意識到背投影方法忽略了雷達訊號的重要特性,那就是所謂的「鏡面反射」。換句話說,當物體被毫米波訊號擊中時,幾乎每個表面都會像鏡子一樣,將訊號直接反射回來。
Fadel Adib 進一步表示,由於鏡面反射是無法避免的現象,因此研究團隊發展出了新想法,即當天線接收到反射回來的訊號時,電腦不僅要運算出訊號被反射的位置,還要推估物體表面本身的「方向」,或者稱其為「表面法線」(surface normal)。
這套有能力推算毫米波訊號反射位置,推算物體表面方向,並導入特殊數學公式重建 3D 物件影像的技術,即是前面所提到的 mmNorm。
投票確定物體形狀,數學函數重建影像
在 MIT 所設計的實驗裝置中,研究人員將毫米波雷達安裝在機械手臂上,接著讓機械手臂於隱藏物品的周圍持續移動,並透過 mmNorm 技術進行測量和運算,比較不同位置天線所接收到的訊號強度,藉此推算物件表面的曲度,最後以影像方式重建出來。
研究人員解釋,直接指向物體表面的天線,理論上會接收到最強的反射,反之遠離物體表面的天線就會收到較弱的訊號,但由於每個天線幾乎都會接收到一定量的訊號反射,因此 mmNorm 技術會選擇以「投票」方式,決定表面法線的最終的方向。
此外,由於 mmNorm 技術會將空間中的所有點納入運算,推算出表面法線的正確方向,因此掃描出來的物體可能會產生不只一種形狀;為了找出正確的曲面形狀,研究人員借用了電腦繪圖技術,導入特殊的數學函數進行 3D 重建。
掃描準確度達 96%,多種物體材質都能用
研究團隊透過 mmNorm 技術,嘗試重建 60 多種擁有複雜形狀的物體,例如具備曲線把手的馬克杯,結果發現 mmNorm 的 3D 影像重建誤差,較過往技術減少了約 40%,準確率達到驚人的 96%,同時也能更精確地估算物體於封閉空間中的所在位置。
不僅如此,研究人員指出 mmNorm 技術甚至能夠分辨空間中的多個物件,例如藏在同一個盒子裡的叉子、刀和湯匙;對於木頭、金屬、塑膠、橡膠和玻璃等,多種材質組合而成的物品,mmNorm 亦有著很好的表現。
只不過創新的 mmNorm 技術仍有一定侷限,比方說藏在金屬或厚牆壁背面的物體,現金毫米波雷達的穿透力依然不足,影像重建的精確度也有待改善。
賦能 AI 機器人,安檢、搜救技術升級
共同參與 mmNorm 論文研究的 MIT 博士生 Tara Boroushaki 表示,新技術所帶來的顯著改進,為需要應用到 3D 影像重建技術的領域,提供了更輕鬆、更簡單的科技選擇。
舉例來說,未來的 AI 機器人可以透過 mmNorm 技術,在不拆封包裹的情況下,精確區分盒子裡的多種物品,辨識出其形狀和位置,然後規劃如何拾取物品並執行任務;mmNorm 技術甚至還可以跟擴增實境(XR)頭盔搭配使用,讓人類看到隱藏物品的逼真影像。
另一方面,mmNorm 技術也可以被融入到現有的安檢流程或軍事環境中,未來民眾無需打開袋子或盒子,就能夠輕鬆通過機場的安檢關卡;此類技術對於倉庫自動化、搜尋救援,或者協助消費者日常生活的家用 AI 機器人來說也至關重要。
吸引微軟支持,mmNorm 潛力無窮
MIT 研究人員表示,團隊希望 mmNorm 技術未來能發展出更多應用,並進一步改善影像重建的解析度,加強偵測訊號反射率較低的物體,並試圖克服較厚的阻擋,讓毫米波訊號有效穿透。
除了 MIT 之外,mmNorm 技術目前也獲得了美國國家科學基金會,以及科技巨頭的微軟支持,其用途在未來勢必會日益增加。
【推薦閱讀】
◆ 字節跳動發表通用機器人 AI 模型 GR-3,用 3 設計搶攻機器人「大腦」
◆ 機器人學習大躍進:TRI 大型行為模型訓練資料減少 80%,效能仍穩定提升
◆ 機器人公司 RealSense 脫離英特爾獲 5,000 萬美元融資,加速 AI 視覺發展
*本文開放合作夥伴轉載,參考資料:《TechRadar》、《MIT》,首圖來源:MIT Signal Kinetics Lab
(責任編輯:鄒家彥)



