| Nvidia | Common Crawl | DCLM | Nemotron
Nvidia發布6.3兆Token大型英文資料集Nemotron-CC
Nvidia發表6.3兆個Token的Nemotron-CC英文語料庫,含1.9兆合成資料。經實驗測試,以高品質子集Nemotron-CC-HQ訓練的80億參數模型,在MMLU分數上比Llama 3.1 8B模型提升5分
2025-01-13
| Nvidia | Common Crawl | DCLM | Nemotron
Nvidia發布6.3兆Token大型英文資料集Nemotron-CC
Nvidia發表6.3兆個Token的Nemotron-CC英文語料庫,含1.9兆合成資料。經實驗測試,以高品質子集Nemotron-CC-HQ訓練的80億參數模型,在MMLU分數上比Llama 3.1 8B模型提升5分
2025-01-13