圖片來源: 

GitHub

美國柏克萊大學研究人員上周開源他們自建的推理(reasoning)AI模型,訓練成本只要450美元。

柏克萊大學(UC of Berkeley)Sky Computing實驗室下的NovaSky團隊,上周發表了Sky-T1-32B-Preview推理模型,宣稱在常見的理解及程式標竿測試效能,和OpenAI的o1-preview相當。

研究團隊的動機在於,推理模型如OpenAI o1或Gemini 2.0 Flash Thinking Mode能內部產生很長的思維鏈(chain of thought),擅長解決複雜問題。但是這些模型技術細節及模型權重不對外開放,難為學術及開源社群使用。現有Still-2、Journey開源推理模型較側重數學領域,研究團隊因此希望能開發出涵蓋更廣領域的開源推理模型。

研究團隊是以QwQ-32B-Preview模型生成訓練資料。經過拒絕採樣(rejection sampling),最後的訓練資料集為約17,000筆資料,包括APPs和TACO資料庫的5,000行程式、NuminaMATH資料集下的AIME、MATH及Olympiads子資料集,以及約1,000筆STILL-2生成的科學和解題資料,以求涵蓋各領域。

新模型是以QwQ- 32B-Instruct作為基礎模型微調。在8顆H100的平臺上使用DeepSpeed Zero-3 offload優化技術,並以Llama-Factory花了19小時訓練完成。

完成的Sky-T1-32B-Preview模型在數學和編碼基準測試中,效能表現與OpenAI的o1-preview相當。而且所有測試項目結果也優於基礎的Qwen-2.5-32B-Instruct。

若不計算硬體,這個模型訓練成本不到450美元,研究人員說,這顯示低成本訓練方法也能有效複製高階推理能力。Sky-T1-32B-Preview模型程式碼、權重等資源已經開源於GitHub上。

熱門新聞

Advertisement