Hugging Face第二屆LLM排行榜出爐，中國LLM表現出色

圖片來源:

Hugging Face

機器學習模型與資料集共享平臺Hugging Face上周公布第二屆的開源大型語言模型（LLM）排行榜，表現最佳的是由阿里巴巴所釋出的Qwen 2，且在前十名的LLM中，就有5個來自中國。

Hugging Face主要使用六大測試基準，包括大規模的多工語言理解MMLU-Pro，知識問答GPQA，多步驟的軟性推理MuSR，啟發式數學MATH，指令遵循能力IFEval，以及具挑戰性的任務BBH等。

而排名在前十大的開源LLM依序是阿里巴巴 Qwen 2 -72B，Meta Llama 3-70B，微軟Phi-3-Medium-4K-Instruct，零一萬物的Yi-1.5-34B，CohereForAI的c4ai-command-r-plus，Abacus.AI的Smaug-72B，Qwen 1.5-110B，Phi-3-Small-128K-Instruct，以及Yi-1.5-9B。

在完整的排行榜中可以看到每個開源模型的平均表現，以及於不同基準測試中的表現，其中，Qwen 2 -72B在各項基準的平均表現為43.02，明顯凌駕第二名Meta Llama 3-70B的36.67。

Hugging Face共同創辦人暨執行長Clement Delangue在結果出爐的當時表示，該平臺總計使用了300個H100 GPU來測試市場上的開源LLM，不僅是由源自中國阿里巴巴的Qwen 2 -72B勝出，中國在開源LLM市場上也占據主導地位，此外，對最近更新的模型來說，過去的基準變更太容易了，如同高中生在解決國中生的問題一樣。

Delangue還發現兩件有趣的事，一是打造模型的開發者愈來愈注重各種主要的測試基準，而忽略或犧牲了其它基準；其次則是越大的模型並不總是越聰明。

不過，就在Google上周釋出開源的Gemma 2之後，DeepMind的首席研究人員Armand Joulin便宣布，Gemma 2-27B已是市場上最好的開源模型。Gemma採用與Gemini同樣的研究及技術而打造，第二代提供了9B及27B兩種版本，Joulin宣稱就算Gemma 2-27B的模型規模比其它競爭對手小了2.5倍，卻已是最好的開源模型。

另一方面，Large Model Systems Organization（lmsys.org）也呼應了Joulin的說法，指出在Google釋出Gemma 2以來便開始蒐集開發者的測試意見，已有超過5,000名開發者認為Gemma 2-27B已勝過Meta Llama 3-70B，為市場上最好的開源模型，不過，lmsys.org的調查一來專注於聊天機器人領域，二來是由開發者進行比較與投票，與Hugging Face所採取的方式不同。

熱門新聞