Meta 日前推出了名為 Meta Spirit LM 的公開共享多模態語言模型,這是該公司首個能夠無縫整合文字和語音輸入輸出的模型。
模型特點與版本
Spirit LM 由 Meta 的基礎人工智能研究(FAIR)團隊設計,目標是解決現有 AI 語音體驗的局限性,提供更具表現力和自然的語音生成。該模型能夠跨模態學習任務,包括自動語音識別(Automatic Speech Recognition,ASR)、文字轉語音(Text-to-Speech,TTS)和語音分類。
Meta 發布了兩個版本的 Spirit LM:
- Spirit LM Base:使用語音標記處理和生成語音。
- Spirit LM Expressive:包含額外的音高和語調標記,能捕捉更細微的情緒狀態。
公開共享非商業性質
Spirit LM 是完全公開共享的,但目前僅供非商業用途使用。Meta 釋出了模型參數、程式碼和相關文件,希望藉此鼓勵 AI 研究社群探索新方法,將語音和文字整合到 AI 系統中。
應用潛力
Spirit LM 設計用於學習各種模態的新任務,如:
- 自動語音識別(ASR)
- 文字轉語音(TTS)
- 語音分類
Spirit LM Expressive 模型更進一步,將情緒暗示納入語音生成中,可以檢測和反映憤怒、驚訝或喜悅等情緒狀態,使AI互動更接近人類。
更廣泛的研究努力
Spirit LM 是 Meta FAIR 向公眾發布的一系列研究工具和模型的一部分。Meta 的總體目標是實現先進的機器智能(AMI),強調開發既強大又易於使用的 AI 系統。
未來展望
通過提供更自然、更具表現力的AI生成語音方法,並將模型公開共享,Meta 使更廣泛的研究社群能夠探索多模態 AI 應用的新可能性。Spirit LM 代表了機器學習領域的一個有前景的進步,有潛力推動新一代更接近人類的 AI 互動。
然而,目前 Spirit LM 僅供非商業用途,這可能限制了 Spirit LM 在商業應用中的直接使用。未來,隨著研究的深入和可能開放商業使用權,我們可能會看到更多基於 Spirit LM 技術的實際應用。
*本文開放合作夥伴轉載,資料來源:《VentureBeat》首圖來源:《Unsplash》



