Google 宣布開放技術 SynthID Text,這項技術能讓開發者在生成式 AI 模型生成的文本中加上浮水印並進行檢測。SynthID Text 現已在 AI 平台 Hugging Face 和 Google 更新的 Responsible GenAI Toolkit 中提供下載。
Google 在 X 平台的貼文中表示:「我們正在開放原始碼釋出 SynthID Text 浮水印工具,免費提供給開發者和企業,協助他們識別 AI 生成的內容。」
那麼,SynthID Text 的運作原理是什麼?
當用戶輸入像「你最喜歡的水果是什麼?」這樣的提示時,文本生成模型會依序預測每一個最有可能出現的「符號」(token),這些符號可能是一個字元或單字,是生成模型進行訊息處理的基本單位。模型會為每個符號分配一個機率分數,表示該符號出現在輸出文本中的可能性。Google 表示,SynthID Text 透過「調整符號生成的機率」在這些分布中加入額外資訊。
Google 解釋:「模型選擇單字的最終分數模式,與經過調整後的機率分數結合形成浮水印。這些分數模式將與預期的浮水印和未加浮水印的文本分數進行比較,協助 SynthID 檢測文本是否由 AI 工具生成,或是可能來自其他來源。」
Google 表示,SynthID Text 自今年春季起已整合至其 Gemini 模型,並且在生成過程中不會影響文本的品質、準確性或生成速度,即使文本經過改寫或修改,也能有效識別。
然而,該技術仍存在一些限制。Google 承認,SynthID Text 在面對短文本、經過改寫或翻譯的文本,以及針對事實性問題的回應時,效果較為有限。Google 解釋:「對於事實性提示的回應,調整符號分布的空間較小,且不會影響事實的準確性。這包括像『法國的首都是哪裡?』這樣的問題,或是像『朗誦威廉·華茲華斯的詩』這類查詢,變化空間有限。」
值得注意的是,Google 並非唯一研究 AI 文本浮水印技術的公司。OpenAI 也研究了數年,但因技術和商業考量,尚未推出相關技術。
如果這類技術能夠廣泛應用,或許能有效減少現有「AI 檢測工具」的錯誤標記問題,這些工具經常將風格較為一般的文章誤判為 AI 所撰寫。然而,問題在於,這些技術是否會獲得廣泛採納?還是某一特定標準或技術會脫穎而出?
在這方面,一些法律機制可能會迫使開發者採取行動。中國政府已經對 AI 生成的內容引入強制浮水印規定,而加州也在考慮推行類似措施。
這項議題的緊迫性不容忽視。根據歐盟執法機構的報告,預計到 2026 年,網路上 90% 的內容可能會由 AI 合成生成,這將為打擊假訊息、宣傳、詐騙與欺騙行為帶來新的挑戰。AWS 的研究顯示,目前網路上近 60% 的句子可能已由 AI 生成,這主要是因為 AI 翻譯工具的廣泛使用所致。
本文開放合作夥伴轉載。資料來源:《TechCrunch》,首圖來源:Unsplash。



