圖片來源: 

Hugging Face

大型語言AI模型開發被認為是一個燒錢任務,但一個中國研究團隊近日成功開發出超過千億參數的大型語言模型(large language model,LLM),而且只花了10萬美元。

一個由北京智源人工智能研究院、中國科學院、中國電子科技大學、新加坡南洋理工大學研究人員組成的研究團隊近日發表其研究成果,展示了一個1,010億個參數及0.31TB tokens的語言模型,不但只花了10萬美元,而且效能不亞於知名模型如GPT-3和GLM-130B。且開發一個更能準確評估模型智商(IQ)的方法。

研究人員說明,LLM現今大量應用在多種語言處理及多模任務,但是訓練LLM成本高昂,以致於只有少數公司負擔得起。使成本負擔問題雪上加霜的是,現在模型愈來愈大,像Llama-1用了1到1.1TB token資料來訓練,Llama-2則上看2TB。

LLM研究另一問題是怎麼評估。主流評估方法分成2類,一是知識導向的評估(knowledge-oriented evaluation),如MMLU及E-Eval標竿測試,二是NLP任務評估。研究人員指出,這些評估方法都不夠好。例如PPL雖有一定效度,但不夠穩定。若如果某些評估資料集之前曾用於訓練,則可能發生資料洩露(data leakage)而導致評估測試失準。研究人員也認為,知識評估不足以量測模型的智商。

為解決LLM訓練成本的問題,研究團隊使用成長策略(growth strategy)訓練出一個1010參數的模型。成長意謂參數在模型訓練過程中,參數量不是固定的,而是由小量逐漸增長。研究人員指出,以訓練1000億參數的模型而言,採用積極成長策略的訓練方法可節省超過50%的成本。此外,在模型變大的過程中,小模型的知識會被長大的模型繼承,使大模型功能反而更好。

在其研究中,研究團隊以漸進成長策略利用FreeLM為基礎,開發出一個1,010億個參數的雙語(中文、英文)模型,因而取名為FLM-101B。除了發展低成本訓練方法,研究團隊也發展了評估LLM智商(IQ)的新系統性標竿測試法。新方法考量了智慧的4個面向,包括象徵比對(symbolic mapping),意指能將知識泛化到未見過的情境;規則理解(rule understanding):能了解人類給定的規則而執行回應;樣式探勘(pattern-mining):推論及歸納的能力;以及抗干擾(anti-interference)、不受噪音影響的能力。

研究團隊指稱,使用主流知識導向標竿測試,以及新開發的系統IQ評估標竿測試的結果,FLM-101B效能與功能兼具。

最棒的一點是,研究團隊從頭打造這個千億參數的鉅大LLM只花了10萬美元,也是他們已知造價最低的模型。最後,研究團隊也將這個模型的檢查點、程式碼及相關工具全部開源出來,公開於Hugging Face平臺上

熱門新聞

Advertisement