Nvidia開源Nemotron-4 340B家族，以供開發者建置大型語言模型

圖片來源:

Hugging Face

Nvidia上周開源了Nemotron-4 340B模型家族，它包含了基礎模型、指令模型及獎勵模型，可用來生成合成資料，藉以訓練大型語言模型（LLM），現已可自Hugging Face下載，之後也能透過Nvidia網站以API及NIM微服務來存取模型。

Nvidia表示，高品質的訓練資料對一個客製化LLM的性能及準確度都很重要，但強大的資料集既難存取又昂貴，現在開發者可藉由開放模型授權來免費存取Nemotron-4 340B，以生成合成資料，並建置強大的LLM。該模型家族支援醫療照護、金融、製造、零售與其它領域的商業應用。

其中，Nemotron-4 340B的基礎模型在9兆個Token上進行訓練，可利用NeMo框架進行客製化，以支援特定領域；而指令模型則是用來創建模仿真實世界資料特徵的各種合成資料，以提高不同領域的資料品質；再利用獎勵模型進行過濾，進而獲得更高品質的回應。總之，Nemotron-4 340B的3種模型建立了一個管道，以生成及優化用來訓練LLM的合成資料。

此外，上述模型已針對NeMo框架及TensorRT-LLM函式庫進行最佳化，前者可用來支援端對端的模型訓練，後者則是用來加速推論。

熱門新聞