知名 AI 開源平台 Hugging Face 的研究人員,包含該公司的共同創辦人兼首席科學家 Thomas Wolf 在內,在短短 24 小時之內,就打造出了 OpenAI 全新服務 Deep Research 的開放版本,讓無法負擔每月 200 美元開銷的使用者也能親身體驗。
Deep Research 強到令人印象深刻
OpenAI 於今年 2 月 3 日發表了全新的「Deep Research」深度研究功能,簡單來說,該功能即是一種 AI 代理服務,允許 AI 主動瀏覽網頁並深度蒐集相關內容,最終做出結論以回答使用者的複雜問題。
Hugging Face 研究人員表示,OpenAI 的 Deep Research 功能「令人印象深刻」,其產出研究的效果更是好到讓人震驚。
然而,即便 Deep Research 的功能十分強大,但目前只有訂閱 OpenAI 服務,付出至少 200 美元月費的 ChatGPT Pro 使用者允許存取,財力不夠雄厚的一般消費者或開發者,暫時還無法享受深度研究所帶來的效益。
打造開源「代理框架」,挑戰 OpenAI
因此 Hugging Face 的研究人員決定在 24 小時之內,嘗試創造出 Deep Research 的複製品,並且將專案命名為「Open Deep Research」。
研究人員指出,DeepResearch 功能的實現主要有兩大部分,第一部分是 OpenAI 所開發的大型語言模型(LLM),例如 GPT-4o、o1、o3,並且在網站上給予使用者切換選擇。
至於第二部分則是 OpenAI 所開發的「代理框架」(agentic framework),它會引導 LLM 使用網路搜尋工具及閱讀 PDF 文件等,並按步驟組織出一連串動作。
Hugging Face 研究人員將 Open Deep Research 的實踐重點擺在「代理框架」,畢竟 OpenAI 官方對此沒有公開任何消息,因此他們決定打造出屬於自己的開源版本。
短期開發成果豐碩,AI 已能自主操作
在大約 24 小時的短期開發挑戰中,Hugging Face 目前於 Open Deep Research 上的實踐,模型方面先選擇了 GPT-o1;開發人員表示,雖然 o1 模型仍被關在付費牆後方,但它的表現相對於完全開源模型,例如 DeepSeek R1 其實來得更好。
由於 Open Deep Research 的代理框架完全開源,所以除了 GPT-o1 之外,理論上使用者可以將框架套入其它自己喜歡的 LLM,並且讓 AI 代理功能完全於地端存取。
目前 Hugging Face 研究人員已經能在 GPT-o1 及開源代理框架的幫助下,讓 AI 自動操作一款簡單、以文字為基礎的瀏覽器,還有一套「文字檢閱器」工具組並讀取網路上的檔案;換句話說,Open Deep Research 已擁有自主瀏覽網頁、捲動頁面、處理檔案甚至運算資料的能力。
此外,在評估 AI 助理能力的 GAIA 測試中,Open Deep Research 的得分率為 54%;相比之下採用 GPT-o3 模型,原版的 OpenAI Deep Research 的得分率為 67.36%。
關鍵仍是模型實力,免費 AI 代理有待進步
Open Deep Research 在 Hugging Face 網站上的 Demo,由於流量過大因此經常出現錯誤,不過,原始碼已經提交到了 GitHub,方便有興趣的開發者使用、檢查和及回饋。
自 Deep Research 功能公開以後,網路上嘗試複製類似功能的開發項目並不算少,但除了代理框架之外,LLM 依然還是 Deep Research 功能表現優劣的關鍵。
在缺少如 GPT-o3 這類超級強大的推理模型驅動之下,當前市面上依然鮮有對手能夠能夠擊敗 OpenAI,因此如 Open Deep Research 這類替代方案,其成效顯然還有進步空間。
【推薦閱讀】
◆ OpenAI 再推 AI 代理「Deep Research」!有何特色、適合誰使用?
*本文開放合作夥伴轉載,資料來源:《Hugging Face》、《TechCrunch》。首圖來源:OpenAI



