由國科會所打造的「可信任 AI 對話引擎」TAIDE,終於在睽違 10 個月後發布更新,不僅升級到以 Llama 3.1 版本為基礎,模型參數量更達到 8.5B 等級,甚至允許商用方便學研界、產業界投入應用和開發。
工研院預估,2030 年工業機器人市場規模將達 1,200 億美元!
立即下載《AI 機器人產業生態分布圖》,一張圖掌握臺灣 AI 機器人的供應鏈佈局
訓練 2896 小時,上下文長度達 131K
TAIDE 擁有「台灣版 ChatGPT」稱號,國科會最新釋出的 TAIDE 8B 模型,主要以 Meta 旗下的 Llama 3.1-8B 開源 AI 模型為基礎,再導入台灣不同領域的文本與訓練素材,提高 AI 模型於正體中文方面的回應能力,以及增進特定任務上的效能表現。
回顧 TAIDE 的研發歷史,在 2024 年 4 月國科會推出基於 Llama 2 的 TAIDE LX-7B 及 TAIDE LX-13B,當年 5 月再公開基於 Llama 3 的 TAIDE 8B 模型,並且於近日將 TAIDE 8B 升級至 Llama 3.1 版本,進一步擴充效能及精確度。
根據網站介紹,Llama-3.1-TAIDE-LX-8B-Chat 使用正體中文資料預訓練,並透過指令微調強化辦公室常用任務,以及 AI 多輪問答對話能力,尤其適合聊天對話或任務協助的使用情境。
升級後的 TAIDE 8B 最大內容長度(context length)可達 131K,並且利用了 NVIDIA H100 GPU 訓練 2896 小時,導入的正體中文訓練資料 token 量達 45B。
國科會預算刪減,執行成效受影響
國科會旗下國研院國網中心副主任姚志民向媒體表示,雖然 Meta 的 Llama 模型已經更新到了 3.3 版本,但台灣不可能每次升級都跟進,依然需要謹慎評估。
姚志民說,由於繁體中文資料取得量通常有限,所以國科會只有在準備好素材之後,才會適當評估要不要針對現有模型發起重新訓練。
此外,面對近來政府機關預算遭到刪減的問題,國科會指出 TAIDE 計畫也受到衝擊,畢竟資料取得及模型開發,一定要有經費於背後支持,當預算出現減少,計畫執行成效肯定會受到影響。
強化醫療衛教、華語教學應用
TAIDE 嚴格把關模型的訓練資料,提升 AI 生成資料的可信任性和適用性,並且針對台灣在地文化、用語、國情等知識進行加強,目前模型下載數已經達到 17 萬次以上,並且為教育單位的 AI 專案,例如台南大學的台英語學習機器人、陽明交通大學的台客語聊天平台提供動力。
近期 TAIDE 於進行華語教材生成、醫療衛教詢答等應用研發上也有建樹,比方說在華語教材生成方面,國科會表示,TAIDE 就可以被用來依照等級、分類等資訊生成課文。
另外關於醫療衛教方面,國科會則透過蒐集肺癌、乳癌、大腸癌等 3 項衛教資訊,導入 TAIDE 模型以提升相關知識應用,希望降低個案管理師的工作負擔。

【推薦閱讀】
◆ 為什麼臺灣一定要發展大型語言模型?專訪「生成式 AI 對話引擎 TAIDE 」核心模型訓練與 RLHF 小組召集人蔡宗翰教授



