多模態 AI 是什麼？探索它如何突破生成式 AI 實現多感官協作

國際 AI 軍備競賽持續推進，中小型企業紛紛加入這場 AI 轉型旅程之外，大型公司更猛砸資源拼算力、模型。2023 年各種大型語言模型推陳出新，還有模型分數的評比佔據市場主要關注度，但除此之外，許多大型科技公司已經開始發展「大型多模態模型（Large Multimodal Model；LMM）」，刷新國際 AI 賽況。

什麼是多模態模型？

多模態模型的核心特徵在於其依賴大量資料、巨量參數和強大算力。這些模型能夠接受各種不同格式的提示（包括文字、圖片、音檔等），並生成跨格式的多元內容。例如，用戶可以將語音轉換成圖片、將文字轉換為語音等，這樣的功能讓多模態 AI 在智慧助手、智慧客服、影片分析等領域顯得尤為強大，更為 AI 的應用場景帶來前所未有的可能性。

相比之下，單一模態模型僅能處理單一資料來源，例如圖像辨識、物體定位或語音識別等。甚至在面對不同語言時，也可能需要不同的模型來處理。多模態模型的出現打破了這一限制。憑藉更強大的分析能力和更大規模的參數量，一個多模態模型就能夠處理多項任務，展現出比單一模型更強大的效能。

有鑑於此，許多人認為多模態模型是通向 AI 奇點（通用人工智慧）技術研究的開端。但這也暗示訓練多模態模型的成本高昂，這一技術遊戲似乎僅限於少數大型科技企業能參與。

多模態 AI 跟生成 AI 哪裡不同？

2022 年底，生成式 AI 通過文字輸入即可得到即時回覆已經展現出前所未有的技術潛力，多模態模型所展現的 AI 能力則將讓人更大吃一驚。

生成式 AI 泛指透過機器學習模型產生新內容，如文字、圖片、音樂、音訊和影片，這些模型通常僅使用單一類型的提示，例如 GPT-3 能夠生成連貫且有意義的文字內容。只需給它提供一個 Prompt 就能生成一段相關的文字回應，這用於寫文章、回答問題、創作故事等面向看似綽綽有餘，但玩過早期以 GPT-3 為模型的 ChatGPT 用戶都知道，該模型能理性對答且完全理解人類語意的程度仍有限。

相比之下，多模態模型擁有更高階的生成 AI 能力，就像是賦予 AI 理解和處理不同感官模式的能力。用戶可以輸入幾乎任何形式的提示，並獲得多元化的內容生成結果。

當面臨需要更廣泛背景資訊的問題時，多模態 AI 模型能夠無縫處理上下文密集型的任務，因為它們可以整合和分析多種模態（如文字、圖像、語音等）以獲取更多背景資訊。例如，在圖像字幕生成的應用中，多模態模型可以解釋圖像中的視覺訊息，並將其與相關的文字訊息結合。

此外，多模態 AI 系統還可以通過整合文字和語音辨識來理解使用者的指令，同時結合如使用者的手勢和臉部表情，來即時判斷他們的真實反應。這樣的技術有助企業創造更客製化與打動人心的使用者體驗。

大家都玩得起多模態 AI 嗎？

然而，發展多模態基礎模型需要相當大的運算資源，更是一場資源的競賽。

即使有許多單位對於這方面的發展感興趣，卻礙於資金缺乏而無法投入；基礎模型發展也不是速成的研究，對於具有發展資源的公司來說，發展基礎模型的準確度之餘，更重要的是開發這類模型的公司是否意識到所伴隨的相關風險，並且在模型訓練時確保相關數據品質與建立風險防範機制。

多模態 AI 有可能是截至目前為止最先進的 AI 應用，有望再度提升人類生活與工作的品質，但在這一波生產力革命之下，人類也應該謹慎應對。

繼續閱讀《人機協作再進化！多模態 AI 來了》Highlight 其他內容：

Google 力求轉型、蘋果變身 AI 飆股，全都因為多模態 AI

多模態 AI 進入產業！金融、製造的 AI 轉型玩法又更多了

做精確癌症診斷、判讀地球資料，用多模態 AI 當科研助手

觸覺與嗅覺的數位革命！多模態 AI 將帶來怎樣的科技新體驗？

＊本文開放合作夥伴轉載，資料來源：《Google》、《DataCamp》。首圖來源：Freepik 。

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

多模態 AI 是什麼？探索它如何突破生成式 AI 實現多感官協作

什麼是多模態模型？

多模態 AI 跟生成 AI 哪裡不同？

大家都玩得起多模態 AI 嗎？

TO 會員電子報

Human-in-the-Loop 不再是黃金標準？亞馬遜揭 AI Agent 治理最大盲點

「3 成企業成功獲得 AI 投資回報，7 成企業尚未跨過應用門檻。」博弘雲端 Nextlink AI Solutions Day 與各領域專家共探零售業如何落實 AI Agent 商業價值

去完一趟 COMPUTEX，AI 就能落地嗎？導入的隱形成本藏在這裡

Anthropic 與白宮從對抗轉向合作：一場管制風波，正逼出 AI 安全新規則