Search
Close this search box.

NVIDIA 傳收購 Gretel 壯大「合成資料」宇宙,為何巨頭紛紛轉向合成資料?

NVIDIA 正在大力衝刺合成資料佈局。《WIRED》引述消息人士消息報導,NVIDIA 已經以 9 位數收購了合成資料新創 Gretel,收購價格超過 Gretel 的最新估值 3.2 億美元。

這次收購,正值 NVIDIA 推出新合成資料工具之際。NVIDIA 在今年年度開發者大會 GTC 發表 Isaac GR00T Blueprint,要讓開發人員以少量人類示範資料,就可產出操控任務的大量合成動作資料。事實上,NVIDIA 已佈局合成資料多年,除了 2022 年推出 Omniverse Replicator,去年 6 月也推出一系列可以產生合成資料的開放式 AI 模型。

合成資料新創 Gretel 是誰?

Gretel 自 2019 年創立,為想要建立生成式 AI 模型,但無法得到足夠的訓練資料,或對於使用真實資料有隱私擔憂的開發者,提供一個合成資料平台和一套 API。

Gretel 提供合成資料的方式,並非自建 AI 模型並提供授權,而是將現有的開源模型進行微調,增加隱私與安全功能後再打包出售。該平台支援各種資料類型,包含結構化資料、時間序列資料和非結構化文本。根據 Pitchbook,在 NVIDIA 收購之前,Gretel 已透過三輪融資籌集了 6,550 萬美元。

《WIRED》報導,Gretel 約 80 名員工將併入 NVIDIA 團隊,其技術也將納入這家晶片巨頭的雲端生成式 AI 開發者服務中。NVIDIA 和 Gretel 的發言人皆拒絕針對收購消息發表評論。

各方對合成資料看法不一,純合成數據有風險?

合成資料是由電腦生成的資料,目的是模仿真實世界資料。理論上,合成資料可以創造近乎無限的 AI 訓練資料,並有助於解決自 2022 年 ChatGPT 問世以來,一直困擾 AI 產業的資料稀缺問題。瑞士洛桑聯邦理工學院博士後研究員 Ana-Maria Cretu 指出,合成資料還可用於將真實資料匿名化的隱私保護用途。

不過,合成資料的使用也有隱憂。2024 年《Nature》期刊一篇論文顯示,如果 AI 使用其他模型產生的數據反覆微調,模型可能會「崩潰」,無法產出有價值的內容。

這起研究掀起了社群討論。新創 Scale AI 執行長 Alexandr Wang 指出,這篇論文的研究發現,是他認為訓練 AI 應以真實資料混搭合成資料的原因。Gretel 的聯合創辦人 Alex Watson 則認為,該研究討論純粹依賴合成數據的訓練方式太極端,並不符合 AI 模型的實際開發情境。

無論如何,AI 巨頭已搭上合成數據列車

合成數據是否導致 AI 模型崩潰的擔憂,並沒有阻止 AI 巨頭們朝此方法邁進。OpenAI 執行長 Sam Altman、Anthropic 執行長 Dario Amodei 皆對外表示 AI 模型可以生成更多資料的能力,而 Amodei 認為可以在訓練過程注入少量的新資料來確保品質。

大型科技巨頭如 Meta、微軟、Google DeepMind 也開始轉向使用合成數據。《WIRED》指出,不論是用於生成資料,還是維護真實資料隱私性,都突顯了開發合成資料技術的複雜性。

立即下載《2025 AI 工具應用報告》

【推薦閱讀】

生成式 AI 和數位孿生對佈局跨國生產線有什麼實質好處?專訪洛克威爾自動化業務總監李懿庭

NVIDIA 為進階「代理式 AI 」鋪路,發表新推理模型幫 Llama 轉骨

NVIDIA 推出全球首款開放人形機器人模型 GR00T N1,黃仁勳 GTC 演講重點一次看

*本文初稿為 TechOrange 使用 AI 編撰,經《TechOrange》編撰,資料來源:《WIRED》《TechCrunch》《SiliconANGLE》,首圖來源:Unsplash