Meta 日前推出一款最先進的多模態 AI 模型 Chameleon,能同時處理視覺和文本資料。Chameleon 採用創新的「早期融合」架構,能在圖像描述和視覺問答等指令中達到頂尖表現。與傳統模型分開處理視覺和文本不同,Chameleon 的統一標記空間使其能無縫整合,並生成交錯的文本和圖像序列。
Chameleon 的訓練分兩個階段進行,資料集包含 4.4 兆個項目,如:文本、圖像文本對和交錯的文本與圖像序列。研究人員報告稱,Chameleon-34B 在視覺問答和圖像描述基準測試中表現卓越,超越了 Flamingo 和 IDEFICS 等模型。
Chameleon 展現了 AI 應用能力的發展空間。研究顯示,使用者更喜歡 Chameleon 生成的多模態文檔。未來Meta 如果釋出 Chameleon 的模型權重,將有望成為私人模型的開源替代方案,推動 AI 研究邁向新方向。
Chameleon 的推出標誌著 Meta 在實現統一基礎模型願景上的重要一步,這些模型能夠靈活地推理和生成多模態內容,為 AI 技術應用開闢了新天地。
*本文開放合作夥伴轉載,資料來源:《VentureBeat》首圖來源:Unsplash 。



