在台灣 AI 新創 UmboCV 實習,讓我感受到真切的深度學習實戰!

【我們為什麼挑選這篇文章】UmboCV 是台灣在人工智慧領域知名的新創「盾心科技」,專營在警備、監視安全系統上的影像辨識應用,前陣子才剛獲兩億台幣資金投資。

在學校所學和在業界的應用有所不同,謝謝 UmboCV 給學生精實實習的機會!(責任編輯:林子鈞)

作者 / 黃意堯

UmboCV實習滿一年又兩個星期的我,明天即將去當兵了。我在公司最後的專案做到一半還沒有做完,有點遺憾,但這一年的收穫真的是太大了,讓我迫不及待想把我的想法寫下來,跟大家分享。

我以前在學校,學的是機器學習,到了公司我發現,我來學的是實務機器學習。這一年,我在公司經歷過了四個不同的專案,分別是Data Labeling Tool, a Slackbot for Evaluation, Object Detection, Action Recognition. 這四個專案,讓我走過 machine learning 最基礎的表記 data 到最後的模型實作。

以下,我會分享幾點我覺得在這一年實習,學到最多的概念。希望這些概念可以幫助其他也正在做 Machine Learning 的朋友。

Machine Learning 就是個 Data Learning 的問題

到公司的第一天,大家就很強調 Data 的重要性。但這點大家都知道,所以這裡我想強調的是,Data 的重要性不是指 Data 有多少,而是指你對你的 Data 瞭解多深收集很多 Data 不難,Lable 很多 Data 不難,但收集到重要的 Data 而且標記高品質的 Data,才是最難的。我自己做到最後,經常自己下去 Lable data,因為沒有自己看過資料,是沒有辦法真正的深入瞭解你要解決的問題。這點也是在學校做研究跟在業界做研究最不一樣的地方。學校通常會拿公開的資料來做實驗,但在業界,我們通常會遇到沒有公開資料的問題,剛到公司時,也很常抱怨,沒有 Data,但後來發現,如果有人有跟你一樣的 Data,那你這個問題就沒有價值了。所以,停止抱怨,自己收集資料、標記資料、瞭解資料!

要建立一個可以有效率評估模型效能的系統

如果今天,做研究的目的是會了發表論文時,我們比較的對象,通常是官方的量測標準。但如果今天,我們做研究的目的,是為瞭解決顧客的問題,可不能只有一個冷冰冰的數字來決定了。為了評估機器學習的系統,我們會希望建立更多不一樣的量化方式,甚至我們會花費時間,來打造方便的 Demo 系統。我在實習階段,有做一個 slackbot,使用者可以上傳影片給這個 slackbot,它會回傳經過我們 deep learning 服務的結果。這只是一個例子,還有很多即時評估顧客資料的方法。這些事看起來很簡單,但他會大幅的加速我們對模型的理解。建立一個有效率評估模型效能的系統,不只是為了開發者,可以更快速的理解自己在做什麼東西,更可以讓其他使用者,也可以跟你一起互動,幫助你找到使用者的痛點!

Engineering 能力超級重要!

以前以為,做研究,就可以不用當一個碼農。來這邊實習以後,發現大錯特錯了!如果不具備超強的工程能力,對深深地影響做研究的能力!首先,你不會想花太多時間,在處理資料。工程能力好的話,就會使用更多有效率的工具,來幫助自己理解資料、觀察資料。第二,如果工程能力不好,會沒有辦法實作太複雜的模型,許多先進的 Deep Learning 模型,不是呼叫 Tensorflow 或 Pytorch 的 API 就可以搞定的,往往會需要寫到底層的 C 語言。第三,訓練機器學習的模型,最需要的就是時間了,如果說對計算機結構、作業系統,不夠瞭解的話,很容易開發出浪費時間的模型,在超大型 Dataset 上,也會被這些速度瓶頸,拖累開發速度。最後,在這個 AI 當紅的時代,每天都有一堆超強超厲害的模型被發表,如果你寫 code 比別人慢,你就等著被海量的方法淹沒吧!

學習團隊合作吧!你做不完事情的

如果說,你看完前 3 點,你就會發現,開發一個實務上可以使用的 Machine Learning 模式,至少需要包含資料整理、演算法研究,還有評估效能,每一步都必須要有做好的品質,才有可能開發出好的服務。一個人做不完的,團隊合作特別重要。如果有好的前端工程師,他可以幫助我們用更輕鬆更簡單的方式,理解資料。好的後端工程師,可以幫我們打造簡單易懂的評估系統。好的研究員,可以幫助我們更快速的開發模型,跟理解最新的研究方向這些東西,缺一不可!

在 UmboCV 實習的一年,讓我體驗到,開發一個 AI 系統到底有多難,也讓我明白 AI 在地化,真的不是一個簡單的事。這一年學到的東西真的太多了,完全打通了大學四年,學的所有學科,知道為什麼要學數學,為什麼要學工程,為什麼要學使用者經驗,為什麼要學網頁一個偉大的產品,必定是由好的文化跟豐富的知識組成, UmboCV 讓我看到了這一切!

About AI

【台灣新創快訊】台灣 AI 新創盾心科技,再獲 2 億台幣 A 輪融資

台灣發展 AI 慢了世界一步? AI 獨角獸商湯科技執行長徐立:後發仍有優勢

完整盤點 2017 年 AI 圈大小事,從語音辨識到深度學習全都包啦!

(本文經黃意堯授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈[UmboCV實習心得] 讓我懂的什麼叫實務機器學習〉,首圖來源:Wikimedia Commons CC Licensed。)