Hugging Face發起一項挑戰,嘗試在24小時內重現OpenAI最新發表的Deep Research系統,並開源其關鍵技術。OpenAI在2月初推出Deep Research,結合大型語言模型與代理框架,能夠透過網頁瀏覽、資訊整理與多步推理來回答複雜問題。Hugging Face的開源挑戰不僅試圖驗證這套技術的可行性,也希望提供開源替代方案,讓開發者能自行部署類似系統。

OpenAI的Deep Research之所以備受矚目,在於它在GAIA(General AI Assistants)基準測試的表現大幅超越單純仰賴語言模型的人工智慧系統。根據OpenAI發表的資料,Deep Research在GAIA測試中的單次提示作答準確率達到67%,而即便是最具挑戰性的第三級多步推理與工具使用問題,仍可維持47.6%的正確率。不過,OpenAI並未公開其代理框架的細節,這讓Hugging Face決定嘗試重現相關技術,並釋出開源版本,讓更廣泛的開發者社群能夠參與改進。

Hugging Face在24小時內完成第一個版本,以自家開發的smolagents框架為基礎,搭配大型語言模型來執行搜尋、資訊整理與多步推理。這個系統能夠自主規畫解題流程,決定何時查詢額外資訊,並以程式碼的方式表達執行步驟。相較於OpenAI未公開的技術,這項開源專案強調模組化設計,允許開發者選擇不同的語言模型,並且結合使用其他開源工具。

特別的是,Hugging Face的團隊選擇使用CodeAgent技術來提升代理系統的效率。相較於常用的JSON格式,透過程式碼來表達執行步驟,能使推理過程更精簡,並減少API呼叫次數,根據研究團隊測試結果,改用CodeAgent之後,代理系統在GAIA測試中的表現從46%提升至55.15%。此外,與JSON格式相比,使用Python來描述行動流程也能更直覺地表達邏輯關係,讓代理系統能夠有效處理多步推理問題。

這項開源計畫仍處於早期階段,儘管在部分測試中已有所進展,但要完整實作OpenAI Deep Research的功能,仍存在許多挑戰。特別是在瀏覽器操作方面,OpenAI採用了名為Operator的進階網頁瀏覽器,使Deep Research不僅能夠深入解析網頁內容,還能進行互動式操作。相比之下,Hugging Face的初版開源系統目前僅支援基礎的文字網頁瀏覽,尚未具備視覺辨識或更精細的網頁互動能力。此外,OpenAI的系統可能還包括內部最佳化的提示詞工程與資料檢索技術,這些重點細節在開源社群中仍需透過試驗逐步改進。

熱門新聞

Advertisement