(文字整理:LC、鄒家彥)
科技公司推出「開源」AI 模型,卻被發現這些開源產品僅釋出部分權重或程式碼,而非完整的系統,這種選擇性透明的做法讓技術圈開始質疑「開源」一詞是否已偏離原意?
科技媒體《VentureBeat》近日刊登一篇由密西根大學電機工程與電腦科學教授 Jason Corso 撰寫的文章:《開源人工智慧之爭:為何選擇性透明會帶來嚴重風險》,文中 Corso 認為這種作法反應出「開源」一詞在 AI 時代可能被過度消費,也引發社群對其實質意涵的再度檢視。
不只是理想,開源 AI 能為企業提供更高的投資報酬率
根據 IBM 最近對 2,400 位 IT 決策者的調查顯示,企業對開源 AI 工具的興趣正在快速增長——這不僅出於技術需求,更是出於經濟考量,因為開源 AI 能提供更高的投資報酬率(ROI);企業首選開源 AI 的原因包括更快的開發速度和更強的創新能力,而這兩點也正是決定 AI 投資報酬率的關鍵因素。
開源 AI 不只加速創新週期,也讓資源分配更具彈性。與專注於短期利益的閉源模式不同,開源 AI 等於敞開大門允許更多元且量身定制的應用在各行各業發展,特別是那些可能缺乏專有模型資源的領域。這種共享與協作的精神,正是推動科技平等發展的重要力量。
但真開源的力量是社群審查、集體改善
Corso 在文中以 LAION 5B 大型數據庫為例(Large-scale Artificial Intelligence Open Network 5 Billion),它是目前開放取得中規模最大的圖文對應資料集,包含超過 58 億筆圖片與文字描述的配對資料;許多 AI 模型如 Stable Diffusion 和 Midjourney 都用它來學習如何生成圖像
——這個數據庫是開源的,社群成員皆能查看裡面的所有資料,也因為如此,成員發現了一個嚴重問題:這個數據庫中竟然有超過 1,000 個連結都跟兒童性虐待內容的網站有關係。如果這個數據庫是封閉的,這些內容可能永遠不會被發現,只會繼續被用來訓練 AI 模型,可能導致 AI 生成不當內容。
也正是因為 LAION 5B 的開放性質,社群才能督促其創建者與行業監管機構合作,找到解決方案並發布改進後的 RE-LAION 5B,讓整個社群共同優化這個大型數據庫。
但是,相較於目前定義的真開源,許多公司實際上實施的僅僅是「半開源」策略(也有人說是「開放權重(Open Weights)」模型。)以 Meta 為例,Corso 指出雖然公司稱 Llama 3.1 405B 是「第一個開源 AI 模型」,但實際上只公開分享該系統的預訓練參數或權重和一些軟體,用戶可以隨意下載和使用該模型,但原始程式碼和資料集等關鍵元件仍然封閉。
雖然這樣的釋出對生態系有其貢獻,但也引發技術社群對「何為真正的開源」的質疑。Corso 以 Meta 上例指出,當模型缺乏完整程式碼與資料分享時,將迫使使用此類人工智慧系統的創新者盲目信任未共享的組件。
AI 開源需要明確標準,不只是道德選擇而是產業根基
面對當前關於「AI 開源」的定義與爭論,產業需建立一套明確的標準與審查機制。比如真正的 AI 開源是否應包括系統源碼、模型參數、數據集、超參數(Hyperparameter)等數據完整分享,而非僅公開部分內容。統一標準才能讓業界有評估 AI 可信度的指標,避免淪為企業的宣傳噱頭。
在目前大公司壟斷 AI 技術和資源分配不平均的情況下,真正開放原始碼的 AI 或許是帶動整個產業發展之關鍵;就像 Linux 和 PHP 等開放原始碼的軟體曾經幫助網際網路蓬勃發展一樣,開源 AI 可以讓更多人參與其中,促進新想法的誕生,避免大家都在做重複的工作。
這個選擇不只是關於商業策略,更是關乎我們希望 AI 未來如何發展的大議題。在 Corso 看來,若科技公司缺乏推動真正開源合作的決心,產業恐怕將面臨信任的流失:
「如果沒有科技公司大膽的領導和合作來進行自治,這種資訊差距可能會損害公眾的信任和接受度。擁抱開放、透明和開源不僅是一種強大的商業模式,它還意味著選擇一種讓所有人受益而非只讓少數人受益的人工智慧未來。 」
未來我們勢必面對一個選擇:我們要讓少數大公司掌控所有 AI 技術,還是建立一個更多人能公平參與、更安全且更有創意的開放環境?
立即下載《2025 AI 工具應用報告》

【推薦閱讀】
◆ DeepSeek R2 要來了?V3 模型默默更新,硬體靠 Mac Studio 就可跑
◆ NVIDIA 為進階「代理式 AI 」鋪路,發表新推理模型幫 Llama 轉骨
◆ 馬斯克推「地表最強」AI 模型 Grok 3!搶先試用的專家評價如何?
*本文開放合作夥伴轉載,參考資料:《VentureBeat》、《perplexity》,首圖來源:pixabay
(責任編輯:鄒家彥)



