Search
Close this search box.

【開源 AI 更省錢嗎】研究揭 Token 消耗最高達 10 倍,企業選擇該注意什麼?

小心掉入開源 AI 省錢陷阱!研究指 Token 消耗量多 10 倍,最超值模型誰勝出?

越多企業採用 AI 技術,選擇導入哪種人工智慧模型,早已成為團隊內部的重大決策。

雖然開源 AI 模型表面上似乎更加便宜、成本更低,但近期一項新研究卻提出警告,指出由於開源 AI 模型需要額外的運算能力,導致原先預計能夠節省的成本,長遠來看反而會讓企業支出更大的開銷。

每 Token 成本較低,但總執行成本卻更高

根據 Nous Research 日前公開的全新研究,當各種 AI 模型在執行相同任務時,開源人工智慧模型消耗的運算資源,通常會比閉源競爭對手來得更多。

研究人員測試了市面上多款知名人工智慧模型,包括來自 Google 與 OpenAI 的閉源系統,以及 DeepSeek 和 Mistral AI 的開源模型。

根據研究人員說法,他們對各種不同的 AI 模型提出三大類任務,包含簡單的知識問題、複雜數學問題和邏輯類謎題,並測量各個模型完成相同任務時,合計所需要的總運算量。

結果發現,開放權重 AI 模型所使用的 Token 數量,通常會比起封閉權重模型多 1.5 到 4 倍,對於簡單的知識問題則最多高出 10 倍,儘管開源 AI 模型的每 Token 運算成本較低,但合計下來單次查詢的執行成本反而會更高。

簡單問題卻複雜思考,成為開源模型痛點

研究人員指出,開源 AI 模型的低效率在大型推理模型(LRM)中尤其明顯。原因在於,開源 AI 模型通常會利用更加擴展的思維鏈(CoT),嘗試解決所有類型的問題,導致 AI 模型在思考本應只需極少運算量的簡單問題時,意外消耗掉上千個 Token。

舉例來說,對於「澳大利亞的首都是哪裡?」這類的基本知識問題,推理模型就會花費數百個 Token 進行思考,然而該問題本來只需要用一個詞回答即可。

推理模型平均花費數百個 Token 思考簡單問題,開源跟閉源模型的差距尤其明顯,唯有 GPT-OSS 獨樹一格。圖片來源

在人工智慧領域,一個 Token 通常是指一個詞、一句話或一段數據,它可以是獨立一個單字、單字的一部分,甚至是一個標點符號,AI 模型通常都是透過 Token 的拆解與組合,理解人類所輸入的自然語言。

換句話說,當 AI 模型處理、輸出的 Token 越多,完成一項任務所需的運算資源就越多、思考時間就越長。因此,測量模型的 Token 效率,即模型相對於其解決方案複雜度所使用的運算單位數量,自然就變得非常重要。

衡量成本需更全面,長期使用將抵銷優勢

由於大多數私有閉源模型並不會公開其原始推理過程與思維鏈,僅會呈現一部分濃縮出來的推理摘要,以防止競爭對手抄襲技術,所以研究人員只能透過計算 Token 數量,衡量各個 AI 模型的實際運算效率。

研究結果指出,在相同的 AI 運算任務中,開放模型使用的 Token 數量,通常會比閉源模型來得更多,主要差距反映於簡單的知識問題上,而對於數學和邏輯問題,兩者的效率差距則可以縮小至兩倍以內。

研究人員直言,Token 效率對 AI 模型的運作成本影響巨大,但過往卻鮮有系統性研究對外公開,雖然開源 AI 模型的執行成本原則上更便宜,但卻需要產出更多 Token 推理特定問題,這種成本優勢若長期運作,就會很容易遭到抵消。

GPT 系列表現亮眼,Magistral 無奈墊底

對於企業來說,Nous Research 的研究是個重要的參考方向,畢竟 AI 的運算成本將隨著使用量增加而迅速成長,因此企業在評估人工智慧模型時,若只專注於準確度和每 Token 定價,就很可能會忽略實際任務的整體運算需求。

研究人員強調,閉源 AI 模型更優秀的 Token 效率,通常可以彌補這些模型較高的 API 定價,況且許多模型開發商都已經開始加速迭代優化,希望透過更少的 Token 來降低推理成本,反觀開源模型方面大多走向相反的道路,藉由提升 Token 使用量優先換取更高的推理性能。

在測試了市面上多款開源、閉源模型後,研究人員發現 OpenAI 旗下的兩套主要模型,即閉源的 o4-mini 與開源的 GPT-OSS,皆表現出十分卓越的 Token 效率,特別是在處理數學問題方面。

此外,由 NVIDIA 調教的 llama-3.3-nemotron-super-49b-v1 也獲得相當不錯的成績;至於兩套 Magistral 模型則意外墊底。

各模型、各類別 AI 任務合計 Token 效率比較;數字越低代表 Token 效率越高。圖片來源

未來 AI 模型開發,應更專注 Token 效率

研究人員建議,在未來的 AI 模型開發中,除了準確性之外,Token 效率更應該成為開發者主要的最佳化目標;當透過更加密集的思維鏈推理,實現更有效率的上下文運用後,亦能於高難度任務中,減緩上下文推理的理解失誤。

最後研究人員特別點出,身為商業模型卻對外開源的 OpenAI GPT-OSS,其簡潔的設計思路,在未來也許可以當成其他開源模型的 Token 效率基準,進一步促使其他開源 AI 模型繼續進化。

【推薦閱讀】

◆ 【馬斯克出招】Grok 2.5 模型「有條件開源」,其他 AI 巨頭會被逼著跟進嗎?
◆ 開放 + 閉源 AI、至少用 5 個 AI 模型!企業 AI 為何迎來「混搭時代」?
◆ 每問一次 Gemini 問題 = 用微波爐幾秒?Google 首度公開能源消耗數據

*本文開放合作夥伴轉載,參考資料:《Gizmodo》《VentureBeat》,首圖來源:Bing AI

(責任編輯:鄒家彥)