圖片來源: 

Hugging Face

機器學習模型與資料集共享平臺Hugging Face上周公布第二屆的開源大型語言模型(LLM)排行榜,表現最佳的是由阿里巴巴所釋出的Qwen 2,且在前十名的LLM中,就有5個來自中國。

Hugging Face主要使用六大測試基準,包括大規模的多工語言理解MMLU-Pro,知識問答GPQA,多步驟的軟性推理MuSR,啟發式數學MATH,指令遵循能力IFEval,以及具挑戰性的任務BBH等。

而排名在前十大的開源LLM依序是阿里巴巴 Qwen 2 -72B,Meta Llama 3-70B,微軟Phi-3-Medium-4K-Instruct,零一萬物的Yi-1.5-34B,CohereForAI的c4ai-command-r-plus,Abacus.AI的Smaug-72B,Qwen 1.5-110B,Phi-3-Small-128K-Instruct,以及Yi-1.5-9B。

完整的排行榜中可以看到每個開源模型的平均表現,以及於不同基準測試中的表現,其中,Qwen 2 -72B在各項基準的平均表現為43.02,明顯凌駕第二名Meta Llama 3-70B的36.67。

Hugging Face共同創辦人暨執行長Clement Delangue在結果出爐的當時表示,該平臺總計使用了300個H100 GPU來測試市場上的開源LLM,不僅是由源自中國阿里巴巴的Qwen 2 -72B勝出,中國在開源LLM市場上也占據主導地位,此外,對最近更新的模型來說,過去的基準變更太容易了,如同高中生在解決國中生的問題一樣。

Delangue還發現兩件有趣的事,一是打造模型的開發者愈來愈注重各種主要的測試基準,而忽略或犧牲了其它基準;其次則是越大的模型並不總是越聰明。

不過,就在Google上周釋出開源的Gemma 2之後,DeepMind的首席研究人員Armand Joulin便宣布,Gemma 2-27B已是市場上最好的開源模型。Gemma採用與Gemini同樣的研究及技術而打造,第二代提供了9B及27B兩種版本,Joulin宣稱就算Gemma 2-27B的模型規模比其它競爭對手小了2.5倍,卻已是最好的開源模型。

另一方面,Large Model Systems Organization(lmsys.org)也呼應了Joulin的說法,指出在Google釋出Gemma 2以來便開始蒐集開發者的測試意見,已有超過5,000名開發者認為Gemma 2-27B已勝過Meta Llama 3-70B,為市場上最好的開源模型,不過,lmsys.org的調查一來專注於聊天機器人領域,二來是由開發者進行比較與投票,與Hugging Face所採取的方式不同。

熱門新聞

Advertisement