Search
Close this search box.

家有阿「機」師,光看 YouTube 機器人就能自學成總舖師

3294481634_48b2b5baea_z

在所有我希望機器人能幫我做的眾多事情裡,煮飯絕對排第一,然後接著是洗衣服,然後才是當我的司機。噢,還有幫我寫文章。

但現在我們大概只能希望機器人的研發是往物美價廉的方向穩定發展。我們已經看到有些機器人會煮飯了,但他們其實只是跟著預設程式在動作。對終端使用者的我們來說,教機器人做事才是最困難的事,所以如果我們能在旁邊納涼,讓機器人自己看 YouTube 學做菜,那真是再美好也不過的事了。

而現在,這件事就要成真了!

美國馬里蘭大學就在進行這樣一個計畫,而該計劃的概念是從一份論文衍伸而來,這個論文的名稱叫做「機器人觀看網路影片學習計畫」,其內容是關於視覺處理:

透過觀看影片裡人類與物件的互動行為,以進而理解人類在做什麼、以及人類是如何做這些事情的。最後,讓有模仿能力的機器人重複一遍它所「學習」到的行為。

此外,美國密西根大學有個 YouCook 資料集,裡面有 88 個 YouTube 烹飪影片,而每個影片裡包含了非常口語化的烹調說明。密西根大學利用這些資料成立了兩個錯綜複雜的中立網絡:一個來辨識並分類影片中的物件,另一個則辨識並分類影片中人類的抓取物體的動作。

當機器人已經可以辨識物件時,讓它可以辨識人類抓取物體的動作就更加重要,因為機器人可以建有不同的終端效應器,這個裝置可以用於不同的抓取的目的,而不同抓取動作則可以提供機器人下個可能的行為的線索。論文內寫到:

「抓取」所帶來的資訊除了包含了動作本身,還可以用來預測,或做為辨識的功能。這也包含動作的開始與結束等資訊,所以也可以被用在即時分割影片上。

當我們使用機器人為我們做菜時,機器人知道要怎麼抓取物品是絕對必要的,所以它才能知道要使用哪個效應器。舉例來說,機器人的手其實是一個平行的抓握器與一個真空吸取抓握器所組成。當它需要用力抓取東西時,它就需要用真空吸取抓握器;但當需要拿一些小東西時,平行抓握器就比較好用。

抓取器又被分成以下六種:用力抓取、精密抓取,這兩種又各分為抓取小型物體、大型物體、球狀物體。物體則被細分成 48 個不同的等級,其中有各種物體像是「蘋果」到「攪拌器」等等。

根據 YouCook 資料集的結果顯示,整體上機器人的辨識能力約 83%,其中有 68% 成功將「抓取+物體」轉換成機器人執行動作的指令。

接下來,研究者希望能分出更細微的抓取動作的類別,然後用這些類別來更準確預測出影片中可能的下一個動作。到那個時候,我們應該就可以在 YouTube 搜尋我們想吃的東西,然後就可以在一旁放鬆享受,優閒等著機器人把菜煮好給我們吃。

(資料來源:IEEE Spectrum;圖片來源:Flickr