諸多知名 AI 模型所倚賴的 Transformer 架構目前正面臨重大挑戰。OpenAI 的 Sora、Anthropic 的 Claude 和 Google 的 Gemini 等模型雖然表現出色,但背後的 Transformer 架構在處理大規模資料時,遇到了效率瓶頸,導致計算需求和能源消耗大增。
對此,研究人員正積極探索新的 AI 架構。其中,由史丹佛大學等機構聯合開發的「測試時訓練」(TTT, test-time training )模型引發關注。TTT 模型透過用內部機器學習模型,取代Transformer 的「隱藏狀態」,號稱能夠在處理更多資料的同時,顯著降低計算資源的消耗。
TTT 的核心優勢在於內部模型大小不隨數據量增加而擴大,而是將資料編碼為權重,理論上可以處理幾十億筆多媒體資料。然而,TTT 目前仍處於早期研究階段,實際表現有待進一步驗證。
除 TTT 外,狀態空間模型(SSM)也是 Transformer 潛在替代方案。AI 公司 Mistral 和Cartesia 等正在開發基於 SSM 的模型,如 Codestral Mamba 和 Mamba-2,同樣旨在提高計算效率和數據處理能力。
AI 技術面臨突破的未來與挑戰
新架構前景光明,不過專家提醒,目前對實際效能的評估仍需謹慎。未來 AI 技術的發展方向將取決於新架構在大規模應用中的表現,以及能否有效平衡計算效率與模型性能。隨著研究的深入,未來可能會出現效能更高、更為強大的 AI 模型,但也可能帶來新的倫理和社會挑戰。

*本文開放合作夥伴轉載,資料來源:《TechCrunch》,首圖來源:Unsplash。



