NVIDIA 秀出 AI 黑科技 Fugatto,能改人聲、還能創造全新音效

繪圖晶片大廠輝達(NVIDIA)於 11 月 25 日展示了最新的 AI 模型 Fugatto,這款 AI 模型主打音樂和音訊生成,不僅可以修改人聲,還能創造出各種新奇的聲音,鎖定音樂、電影和遊戲的製作團隊。

Fugatto:文字指令生成音樂和音效,還能修改現有音訊

Fugatto 是「基礎生成式音訊轉換器作品 1 號」(Foundational Generative Audio Transformer Opus 1)的縮寫。它可以透過文字描述或音訊檔案,生成或轉換音樂、人聲和音效。

例如,它可以根據文字提示創作一段音樂、從現有歌曲中移除或添加樂器、改變人聲的口音或情緒,甚至創造出前所未聞的聲音。

與其他 AI 技術不同的是,Fugatto 可以接收和修改現有的音訊。例如,它可以將一段鋼琴演奏的旋律,轉換成人類演唱的歌聲,或是改變一段錄音中的口音和情緒。

輝達應用深度學習研究副總裁 Bryan Catanzaro 表示:「如果我們回顧過去 50 年的合成音訊發展,音樂聽起來之所以不同,是因為電腦和合成器的出現。我認為生成式 AI 將為音樂、電子遊戲和想要創作的普羅大眾,帶來新的可能性。」

Fugatto 目前尚未公開釋出,輝達:需謹慎評估風險

輝達表示,目前沒有立即公開發布 Fugatto 的計畫。

Catanzaro 表示:「任何生成式技術都帶有一定的風險,因為人們可能會用它來生成我們不希望他們生成的內容。我們需要謹慎處理,這就是為什麼我們沒有立即發布它的計畫。」

生成式 AI 模型的創造者,仍在努力研究如何防止該技術被濫用,例如使用者生成假訊息,或透過生成受版權保護的角色來侵犯版權。

OpenAI 和 Meta 也尚未公布,何時會公開發布他們的音訊或影片生成模型。

Fugatto 採用 ComposableART 技術,可結合多種指令

Fugatto 採用名為 ComposableART 的技術,可以結合訓練期間單獨出現的指令。例如,可以要求 AI 以法語口音,用悲傷的語氣說話。

Fugatto 也能在指令之間進行插值,讓使用者可以更精細地控制文字指令,例如口音的比重或悲傷的程度。

Fugatto 可生成隨時間變化的聲音,創造更豐富的音景

Fugatto 還可以生成隨時間變化的聲音,例如,它可以創造出暴雨穿過一個地區的聲音,雷聲漸強,然後慢慢消失在遠方。它也讓使用者可以精細地控制音景的變化。

此外,與大多數只能重現訓練數據的模型不同,Fugatto 允許使用者創造出它從未見過的音景,例如暴風雨漸漸平息,迎來黎明,伴隨著鳥兒的歌聲。

Fugatto 模型龐大,訓練數據多元

Fugatto 是一個基於團隊先前在語音建模、音訊編碼和音訊理解等領域工作的基礎生成式轉換器模型。完整版本使用了 25 億個參數,並在搭載 32 個 NVIDIA H100 Tensor Core GPU 的 NVIDIA DGX 系統上進行訓練。

Fugatto 是由來自世界各地(包括印度、巴西、中國、約旦和南韓)的多元化團隊所開發。他們的合作讓 Fugatto 的多重口音和多語言功能更加強大。

*本文開放合作夥伴轉載,資料來源:《Reuters》、《NVIDIA》首圖來源:Unsplash