OpenAI 發布了新一代人工智慧模型家族,代號「Strawberry」,正式名稱為 OpenAI o1。目前推出兩個版本:o1-preview 和專注於程式碼生成的 o1-mini。ChatGPT Plus 和 Team 用戶可立即使用,企業和教育用戶將於下週初取得使用權限。
然而,o1 目前功能有限。它無法瀏覽網頁或分析檔案,圖像分析功能也暫時停用。每週使用次數受限,o1-preview 為 30 次,o1-mini 為 50 次。此外,o1 的使用成本較高,API 輸入成本是GPT-4o 的三倍,輸出成本則是四倍。
o1 的推理能力突破性進展
o1 最顯著的特點是其「思考」能力。它能在回應問題前進行自我查證,全面考慮問題的各個方面。透過強化學習訓練,o1 學會了在私密的思維鏈中進行推理,並根據結果獲得獎勵或懲罰。
OpenAI 使用新的優化演算法和包含推理數據的訓練資料集,使 o1 在綜合多項子任務結果方面表現出色。因此 o1 特別適合處理需要長時間推理的複雜任務,如檢測律師信箱中的特權郵件或構思產品行銷策略。
o1 在多個領域展現優越性能
在國際數學奧林匹亞競賽的資格考試中,o1 正確解答了 83% 的問題,遠超 GPT-4o 的 13%。在 Codeforces 線上程式設計競賽中,o1 達到參賽者的 89 百分位。GitHub 測試顯示,o1 在優化演算法和應用程式程式碼方面表現出色。
o1在數據分析、科學和編程等領域的表現普遍優於前代模型。它還改善了多語言能力,特別是在阿拉伯語和韓語方面。然而,o1 也存在一些缺點,如回應速度較慢,有時需要 10 秒以上才能回答問題。
OpenAI 面臨激烈競爭
OpenAI 並非唯一研究這類推理方法的 AI 公司。Google DeepMind 最近的研究顯示,通過給予模型更多計算時間和指導,可以顯著提升模型性能。
OpenAI 選擇不在 ChatGPT 中展示 o1 的原始「思維鏈」,部分原因是考慮「競爭優勢」。雖然 OpenAI 率先推出 o1,但競爭對手可能很快跟進。OpenAI 的真正挑戰在於如何讓 o1 廣泛可用且價格更低,並持續升級 o1 模型以保持競爭力。
*本文開放合作夥伴轉載,資料來源:《TechCrunch》首圖來源:《Unsplash》



