
看圖說故事對人類來說輕而易舉,但是對電腦而言看到一張圖像能夠描繪其物件、場景與動作則需要靠電腦視覺、自然語言處理、深度學習等多種技術的匯集。圖像描述(Image Caption)近來在學術研究與產業越來越受到重視,因為它將是服務型機器人能夠進一步作出更深入應用的關鍵技術。
圖像描述讓機器人能邊看、邊講、邊做
台灣學術界機器人研究領域第一把交椅的台大電機系教授羅仁權指出,過去的機器人看到物件知道要閃躲,現在的機器人看到物件能夠知道如何反應並與人互動。例如,機器人在工廠看到作業員打瞌睡快要靠近機台時,可以發出警示或通知管理者;機器人也可協助居家老人照護,當糖尿病患者偷吃糖,機器人可通知照護者,若看到老人摔跤可以告知照護者位置等(未來可能可以將人扶起來)。不同於攝影機只能固定一處,移動式機器人可以四處遊走、巡邏,提供360度的視野。
機器人之所以能夠做到圖像描述,首先透過CNN模型(Convolutional Neural Network)將圖像中的物件、人、動物藉由定界框一一框起來,接著RNN(Recurrent Neural Network)模型能夠加以分類並了解是什麼物件,透過自然語言處理能找出影像中的主詞、動詞、受詞、形容詞或副詞等,經過不斷學習可串成一個句子用來形容影像。這當中電腦可能可以產出2千個不同句子,結合知識讓它不斷學習後,可以選出排名第一也就是最精準、人類可以理解的句子。
羅仁權指出機器人的能力可分為三個層級:第1、執行單一工作,辨識單一物件。第2、執行單一工作,辨識多個物件。第3、執行多個工作,辨識多個物件。若再結合圖像描述功能,機器人就可實現邊看、邊講、邊做的能力。由羅仁權率領的台大智慧機器人及自動化國際研究中心所研發的機器人已可達到此水準。
滿足業界所需,更即時、效能更高的ROS 2
羅仁權的研究團隊投入機器人研發多年,從2008年引進由Willow Garage公司推出的PR 2機器人開始投入機器人作業系統(ROS)的研究,至今隨第二代ROS 2的推出已累積10年的研發成果與大量程式碼。「ROS 1就像是一座寶山、寶庫,」羅仁權說,當時全世界有3000~5000個研究團隊每天在ROS上開發各種模組。ROS 1走主從式(Master/Slave)架構及TCP/IP協定,對學術研究來說沒有問題,但若是業界要採用,就會擔心Master越做越大,萬一出問題整個系統就受到影響。因此ROS 2決定改採分散式架構,並且走UDP協定結合DDS(資料分散式服務)技術,可達到更即時、可配置、可擴充且更高效能的好處。
羅仁權指出,若沒有ROS 1開發經驗直接從ROS 2開始學習進入障礙會很高。許多例如系統優化、邊走邊explore等功能都是在ROS 1就有。因此,建議開發者仍應該先從ROS 1打基礎比較能漸入佳境。由於ROS 1已有前人累積大量的模組與函式庫,因此目前各界也在努力開發ROS 1與ROS 2中間的bridge介接軟體,透過此整合軟體可讓ROS 1的程式在ROS 2上繼續使用。
從ROS 2 alpha 5版即開始投入開發測試,羅仁權研究團隊有豐富ROS開發經驗,目前鎖定家用的家事機器人為主要研發領域。台灣機器人產業大多以開發硬體零組件為主,且主要應用在工業機器人上。對此羅仁權認為未來服務型機器人的發展將進入快速成長期,未來五年市場規模將至少有4~5倍成長。服務型機器人需與人互動,因此在開發上除效能與反應之外更須兼顧安全性與互動性,而更重要的是應用,服務型機器人考驗開發團隊對應用領域的想像力。因此對想像力、好奇心的重視,也翻轉過去人才培育的方式。
ROS及ROS 2在去年創下1600萬次的下載次數,全球有龐大的社群在其上耕耘。身為IEEE國際工業資訊技術期刊總主編,羅仁權邀集業界共同舉辦以ROS 2為主題的技術論壇,期盼台灣業界與學界能掌握趨勢,抓住智慧機器人的龐大商機。
經濟部工業局廣告
(本文提供合作夥伴轉載。)



