國際 AI 軍備競賽持續推進,中小型企業紛紛加入這場 AI 轉型旅程之外,大型公司更猛砸資源拼算力、模型。2023 年各種大型語言模型推陳出新,還有模型分數的評比佔據市場主要關注度,但除此之外,許多大型科技公司已經開始發展「大型多模態模型(Large Multimodal Model;LMM)」,刷新國際 AI 賽況。
什麼是多模態模型?
多模態模型的核心特徵在於其依賴大量資料、巨量參數和強大算力。這些模型能夠接受各種不同格式的提示(包括文字、圖片、音檔等),並生成跨格式的多元內容。例如,用戶可以將語音轉換成圖片、將文字轉換為語音等,這樣的功能讓多模態 AI 在智慧助手、智慧客服、影片分析等領域顯得尤為強大,更為 AI 的應用場景帶來前所未有的可能性。
相比之下,單一模態模型僅能處理單一資料來源,例如圖像辨識、物體定位或語音識別等。甚至在面對不同語言時,也可能需要不同的模型來處理。多模態模型的出現打破了這一限制。憑藉更強大的分析能力和更大規模的參數量,一個多模態模型就能夠處理多項任務,展現出比單一模型更強大的效能。
有鑑於此,許多人認為多模態模型是通向 AI 奇點(通用人工智慧)技術研究的開端。但這也暗示訓練多模態模型的成本高昂,這一技術遊戲似乎僅限於少數大型科技企業能參與。
多模態 AI 跟生成 AI 哪裡不同?
2022 年底,生成式 AI 通過文字輸入即可得到即時回覆已經展現出前所未有的技術潛力,多模態模型所展現的 AI 能力則將讓人更大吃一驚。
生成式 AI 泛指透過機器學習模型產生新內容,如文字、圖片、音樂、音訊和影片,這些模型通常僅使用單一類型的提示,例如 GPT-3 能夠生成連貫且有意義的文字內容。只需給它提供一個 Prompt 就能生成一段相關的文字回應,這用於寫文章、回答問題、創作故事等面向看似綽綽有餘,但玩過早期以 GPT-3 為模型的 ChatGPT 用戶都知道,該模型能理性對答且完全理解人類語意的程度仍有限。
相比之下,多模態模型擁有更高階的生成 AI 能力,就像是賦予 AI 理解和處理不同感官模式的能力。用戶可以輸入幾乎任何形式的提示,並獲得多元化的內容生成結果。
當面臨需要更廣泛背景資訊的問題時,多模態 AI 模型能夠無縫處理上下文密集型的任務,因為它們可以整合和分析多種模態(如文字、圖像、語音等)以獲取更多背景資訊。例如,在圖像字幕生成的應用中,多模態模型可以解釋圖像中的視覺訊息,並將其與相關的文字訊息結合。
此外,多模態 AI 系統還可以通過整合文字和語音辨識來理解使用者的指令,同時結合如使用者的手勢和臉部表情,來即時判斷他們的真實反應。這樣的技術有助企業創造更客製化與打動人心的使用者體驗。
大家都玩得起多模態 AI 嗎?
然而,發展多模態基礎模型需要相當大的運算資源,更是一場資源的競賽。
即使有許多單位對於這方面的發展感興趣,卻礙於資金缺乏而無法投入;基礎模型發展也不是速成的研究,對於具有發展資源的公司來說,發展基礎模型的準確度之餘,更重要的是開發這類模型的公司是否意識到所伴隨的相關風險,並且在模型訓練時確保相關數據品質與建立風險防範機制。
多模態 AI 有可能是截至目前為止最先進的 AI 應用,有望再度提升人類生活與工作的品質,但在這一波生產力革命之下,人類也應該謹慎應對。
繼續閱讀《人機協作再進化!多模態 AI 來了》Highlight 其他內容:
Google 力求轉型、蘋果變身 AI 飆股,全都因為多模態 AI
*本文開放合作夥伴轉載,資料來源:《Google》、《DataCamp》。首圖來源:Freepik 。



