Search
Close this search box.

【OpenAI 又亮刀了】新技術「語音引擎」用 15 秒聲音就能假扮你!希望世界做好 4 個準備

OpenAI 近來動作頻頻,先前才放大招、展示文本轉影片的 AI 模型「Sora」──只要輸入文字或靜態圖片作為提示,就能生成長達 60 秒的影片,內容包含精準的場景、複雜的運鏡等,引發大幅討論。如今,OpenAI 再次亮刀,端出語音生成 AI 模型「聲音引擎」(Voice Engine)的初步成果,再次激起社會對 AI 的敬畏和恐懼。

OpenAI 「語音引擎」是什麼?全面開放了嗎?

根據 OpenAI,只要在「語音引擎」(Voice Engine)輸入文字和一個 15 秒音訊樣本,就能產生和原始說話者極度相似的自然語音。OpenAI 也在官網上秀出樣本音訊、生成音訊提供比對。OpenAI 目前還沒公開語音引擎的正式發布日期,僅提供預覽版

事實上,OpenAI 在 2022 年就首次開發了語音引擎,並用來支援 OpenAI 文字轉語音 API,以及 ChatGPT 朗讀功能的預設語音。OpenAI 表示,他們意識到合成語音濫用的可能性,因此採取謹慎和知情的方式先和一小部分合作夥伴測試這項功能,探索語音引擎技術的潛在用途。

目前,OpenAI 探索的語音引擎應用有 5 種:語音朗讀、翻譯影片或 Podcast、為偏遠地區提供的互動諮詢服務、為無法說話的障礙人士(non-verbal)提供治療應用和教育服務幫助有突發性或退化性語言疾病的患者恢復聲音

為防止濫用,這些合作夥伴皆同意 OpenAI 的使用條款──未經同意,他們不會使用該模型來冒充個人或組織,並且會向聽眾揭露這些聲音是由 AI 生成,不是真人。此外,OpenAI 也為這些生成音訊添加浮水印,以追蹤該音訊來源並主動監控音訊的使用方式。

值得關注的是,OpenAI 語音引擎的運作方式,不是根據用戶資料進行訓練或微調。OpenAI 向《TechCrunch》表示,使用後音訊就會被刪除,不用為每個說話者建立客製化的模型。

「語音引擎」的問世,將帶來什麼危機?

《TechCrunch》指出,OpenAI 的新技術可能會讓一些工作者失業,例如配音員,尤其是比較廉價的入門工作任務。

不過, 語音引擎帶來的危機不只是失業,還可能被用來惡意、快速地複製名人聲音,產生仇恨言論等造假與道德問題。OpenAI 表示,能複製人聲的生成式 AI 工具有嚴重風險,尤其正值美國選舉年,因此他們正在和政府、媒體、娛樂、教育等國內外夥伴合作,確保語音引擎的開發納入各領域意見。

掌握 AI 趨勢 & 活動資訊一點都不難!訂閱電子報,每週四一起《AI TOgether》

感謝訂閱!隨時注意信箱的最新資訊

OpenAI 會怎麼用這項技術?呼籲世界做好 4 大準備

針對新技術語音引擎,OpenAI 表示,他們目前選擇僅供預覽、不廣泛發布,目的是讓外界了解這項技術的潛力、預警以應對未來可能出現的挑戰。OpenAI 表示,藉由擴大測試語音引擎,希望鼓勵社會採取的行動包含:

  1. 逐步淘汰基於語音的身分驗證方式,例如用來存取銀行帳戶和其他敏感資訊的安全措施。
  2. 推進保護個人聲音使用的 AI 政策
  3. 提升大眾對於 AI 語音詐騙的警覺心
  4. 加速開發和採用追蹤 AI 生成影音來源的技術等應用

OpenAI 認為,無論他們最終是否全面開放,重要的是讓世界各地的人們都了解語音引擎技術的發展方向,並且針對語音引擎帶來的機會和挑戰,和政策制定者、研究人員、開發人員、創作者等保持對話。

 

【延伸閱讀】

◆ 傳 OpenAI 與微軟聯手打造 AI 超級電腦!砸逾千億美元背後有個但書

◆ 誰說會寫程式才能進 AI 產業!4 個不需技術背景的工作分享給你

◆ 【台積電衝 AI 不能沒它】4 個半導體隱形贏家現身!悄悄在台打開 5,000 億商機大門

 

*本文開放合作夥伴轉載,資料來源:OpenAI《TechCrunch》《The Verge》。首圖來源:Shutterstock