即便 AI 視覺辨識模型在過去幾年出現了顯著進步,然而,人工智慧跟人類在視覺辨識上的方法與特徵,相較之下依然有著許多不同。
舉例來說,常見的卷積神經網路(CNN)通常更專注於辨識紋理,但人類的視覺系統對於形狀的反應則較為強烈。
為了讓 AI 在視覺辨識的行為方面更像人類,一群學者近來於《自然·人類行為》(Nature Human Behaviour)期刊上,發表了全新技術「全地形神經網路」(ALL-TNN),透過論文解釋新方案如何讓 AI 的視覺辨識處理更加進化。
模擬人類觀察物體的方式
使用自然圖像進行訓練的 ALL-TNN 技術,本質上更加接近人類進行視覺處理的專門結構,亦能夠更好得模擬人類觀察物體的方式。比方說,人類通常會預期「飛機」更靠近一張照片的頂部,而非底部,ALL-TNN 技術即是讓 AI 能夠擁有相同的思考邏輯和輸出。
此外,相較於 CNN 與過往的類似技術,全新架構的 ALL-TNN 在整體效能消耗方面,亦顯著低於其他專門用於處理視覺辨識的神經網路系統。
德國奧斯納貝克認知科學研究所教授,同時也是身兼論文共同指導人的 Tim C. Kietzmann 指出,人類知識在大腦中排序方式,事實上跟現今的深度神經網路技術,比方說 CNN 有著本質上的不同。
傳統 CNN 採用的「權重共享」
目前大多數電腦視覺技術,包括應用於 Google Photos、Snapchat 等應用程式中的技術,基本上都使用某種形式的 CNN,即透過在許多空間位置上複製相同的特徵偵測器(又稱為「權重共享」),最終鋪陳為一張網路;當 CNN 以圖像化方式呈現時,其結果看起來就像是一張緊密重複的碎形圖案。
然而 ALL-TNN 技術所呈現出來的神經網路結構卻大不相同,它看起來會非常平滑,雖然互相關聯的神經元仍會組織成叢集,但絕對不會出現重複。
若以圖像化方式呈現 ALL-TNN,研究者形容,這個神經網路看起來會非常類似丘陵地區的地形圖,或者是在顯微鏡底下的微生物群。
刻意不讓 AI 作弊以貼近人類
Tim C. Kietzmann 表示,上述兩種技術在圖像化方面的差異,並不只是美觀與否,更呈現出「生物大腦」跟「電腦技術」在圖形辨識「權重共享」方面的根本性偏差。
Tim C. Kietzmann 說,人類大腦在某個位置學習到知識時,無法主動將知識「複製」並「貼上」到其他位置,然而人造的 CNN 技術卻可以;外界不妨將它當成一種「駭客手段」,藉此讓 AI 於圖像識別的學習上取得更高效率。
為了更加貼近人類識別圖像的方式,ALL-TNN 技術特地以截然不同的架構和訓練手法,從根本上避免了電腦科學技術所帶來的「作弊」。
簡而言之,研究人員直接放棄了「權重共享」,並讓神經網路中的每個空間和位置,皆擁有自己的可學習參數集;同時,為了避免產生混亂、無組織的識別特徵出現,ALL-TNN 研究者還在訓練中加入了「平滑性約束」,鼓勵鄰近的神經元學習相似但不相同的特徵。
跟人類相似度高出傳統技術 3 倍
在 ALL-TNN 擁有基本的理論架構與實踐後,研究人員開始測試這種新方法,是否能夠轉化為更類似於人類的視覺辨識行為。
研究人員聘請 30 位人類參與者,識別在螢幕上不同位置短暫閃爍的物件,並且讓採用 CNN、ALL-TNN 技術的系統進行相同測試。
結果發現,雖然 ALL-TNN 技術仍無法完美模擬人類的視覺處理系統,但它與人類圖像識別方法之間的相似性,遠遠高出 CNN 技術超過 3 倍。
ALL-TNN 仍有弱點:精確度不足
論文共同作者 Zejin Lu 強調,ALL-TNN 技術跟人類視覺相關性的提升,必須歸功於神經網路在空間學習方面採用的新結構。
Zejin Lu 表示,就像對於人類來說,當我們看見或想到特定物體時,通常都會為它於空間中安排一個典型的位置,例如鞋子在地板、飛機在天空,而以新方法訓練的 ALL-TNN 技術,即可以擁有類似的思考。
然而特別值得注意之處,在於 ALL-TNN 技術雖然更加接近人類觀察世界的方式,但卻不一定比傳統技術,例如 CNN 更擅長進行圖像分類。
研究人員指出,目前 CNN 仍是圖像分類領域的王者,其視覺辨識準確率高達 43.2%,相對之下 ALL-TNN 的準確率僅介於 34.5% 到 36% 之間。
參數量多出 13 倍,但能耗卻僅 1/10
即便精確度不足確實是 ALL-TNN 的劣勢,但新技術在運算效率方面,卻有著非常驚人的進步。
根據研究團隊測試,ALL-TNN 技術於運算資源上的消耗,僅僅只有傳統 CNN 的十分之一以下,更驚人的是 ALL-TNN 參數量事實上比 CNN 高出 13 倍,即 1.07 億個參數對抗 800 萬個參數。
深究 ALL-TNN 技術運作效率獲得提升的理由,主因在於新方法可以專注處理影像中最重要的部分,而非統一處理圖像中的所有細節。
Tim C. Kietzmann 表示,若從神經元的角度來看,ALL-TNN 運作時僅有一小部分的神經元,會在必要時被觸發並做出回應,因此資源消耗自然出現下降。
提醒 AI 業界不該一昧追求規模化
比傳統技術更加節能的 ALL-TNN,未來將有希望被部署於低功耗裝置上,為 AI 影像辨識廣泛拓展做出貢獻。只不過研究團隊認為,效率提升並非 ALL-TNN 技術主要追求的目標,也不是他們在論文結果中想要強調的成果。
研究團隊表明,他們希望像 ALL-TNN 這樣的神經網路架構,可以描繪出一個更加完整的體系,讓外界了解「人工智慧」與「人類智慧」之間的不同。
奧斯納貝克認知科學研究所教授 Tim C. Kietzmann 強調,一昧追求 AI 模型的規模提升,事實上跟人類大腦的物理特性不符,畢竟後者所存取的資料量,本質上比電腦來得更少,能源消耗也比機器低得多。
因此,類似 ALL-TNN 這種嘗試模仿類似人類行為的神經網路技術,其實是提供給外界另一種選擇與思考方向,避免 AI 業界不惜代價的追求規模化,只專注於使用更多資料、更多參數,甚至是投入訓練更大的模型。
Tim C. Kietzmann 直言,當今的 AI 業界已逐漸產生新共識:用規模的提昇來探索 AI 究竟如何產生認知,實際上是種非常無趣且缺乏意義的事情。
*立即報名 8/15 【AI Agent 知識工作革命論壇】,解析企業如何在各工作場景導入 AI Agent 完成任務

【推薦閱讀】
◆ 【打破 AI 記憶瓶頸】中國研究推出首個 AI「記憶作業系統」MemOS,稱比 OpenAI 準確逾 38%
◆ 【讓 AI 學會「想慢一點」】AI 思考模式大突破,AlphaOne 如何重塑推理能力?
◆ 【告別傳統 SEO】AI 時代流量大搬家,Adobe 新工具讓品牌「紅」到 AI 腦中
*本文開放合作夥伴轉載,參考資料:《IEEE Spectrum》、《Tech Xplore》,首圖來源:Bing AI
(責任編輯:鄒家彥)



