Search
Close this search box.

中國 AI 審查系統外洩——台灣被提 15,000 次,AI 技術如何平衡自由與控制?

科技媒體《TechCrunch》近期報導了一個由中國開發的大型語言模型(LLM)審查系統資料庫,該資料庫包括超過 13.3 萬筆敏感內容訓練範例;這些資料被用於訓練 AI 以自動辨識並自動標記出中國政府認定的「敏感內容」,涵蓋範圍包括政治諷刺、腐敗批評、社會問題、軍事情報,以及與台灣相關的議題等。

此系統不僅可作為強化國家言論控制的工具,還可能被用於進一步訓練中國自研 AI 模型(如 DeepSeek)。與過去中國使用基於關鍵詞的傳統審查機制相比,這種 AI 驅動的審查機制能更精準且有效地辨識各種多樣化的敏感內容,即使是間接或隱晦的表達也難以逃脫。

審查機制被「內建」在 AI 訓練模型當中

該資料庫是由安全研究人員 NetAskari 發現的,儲存於百度伺服器上一個不安全的 Elasticsearch 資料庫當中。不過,這並不表示百度直接參與了該系統的開發,因為許多機構、企業也都會在這類服務商的伺服器上儲存資料。

資料庫中的紀錄顯示,這些資料最新的更新日期為 2024 年 12 月,雖然沒有明確指出開發者身份,但其規模和系統都表明了這很可能來自一個背靠某官方或其附屬機構的項目。

該 LLM 審查系統的目的在於識別與政治、社會生活和軍事相關的敏感話題,並將這些內容標記為 「最高優先級」、需要立即處理。系統優先處理的內容範圍包括環境污染、食品安全醜聞、金融詐騙、勞資糾紛,以及任何形式的 「政治諷刺言論」。

台灣與軍事議題也成重點審查對象

訓練資料中包含大量與台灣和軍事問題相關的內容。《TechCrunch》的檢索顯示,光是中文單字 「台灣」 在資料中就被提及了 15,000 多次,顯示出這些議題在審查系統中具有高度敏感性。

資料庫中也記錄了許多帶有政治隱喻和社會批判的內容。例如,一位企業主在社交平台上抱怨地方警察敲詐企業家的情況,反映出中國經濟困境加劇的現實;另一篇內容哀嘆中國農村的貧困,描述只剩下老人和孩子的破敗小鎮。這些案例均反映出中國社會內部的矛盾和治理挑戰。

優先應對「開源模型被極權國家改寫濫用」的風險

目前讓專家紛紛擔憂的是,AI 模型的設計原本就可以隨著吸收更多數據而不斷改進,而專制政權正掌握 LLM 作為新一代輿論控制工具,未來可能會競相開發和部署越來越先進的 AI 審查技術,引發一場「AI 審查擴張」競賽。UC Berkeley 研究人員表示,此資料庫是「明確證據」,顯示中國政府或其附屬機構希望能使用 LLM 來鎮壓輿論。

另外,對於國際 AI 社群而言,又如何應對「開源模型被極權國家改寫濫用」之風險?許多基礎 AI 模型以開源形式發布,本意是促進技術創新和民主化,但這也為專制政權提供了改造這些技術來用於審查和監控的機會。或許在推動 AI 開放發展的同時,我們應該先思考的是,如何防止這些技術被用於侵犯基本人權,防範 AI 技術成為加強箝制自由的工具。

【推薦閱讀】

◆ 中國 AI 資料中心從熱潮到泡沫的反轉劇:AI 建設為何淪為「不良資產」?
◆ 中美 AI 模式正面對決:中國押注低成本創新,美國技術自由市場面臨挑戰
◆ 中國研發出最強監視相機?可捕捉 100 公里外人臉與衛星序號

*本文開放合作夥伴轉載,參考資料:《TechCrunch》《NetAskari》,首圖來源:Unsplash

(責任編輯:鄒家彥)