Hugging Face推出依用量計價的Nvidia NIM推論即服務

圖片來源:

Hugging Face

AI開發資源平臺Hugging Face昨（29）日宣布使用Nvidia NIM技術的雲端推論即服務（inference-as-a-service）上線，支援企業生成式AI應用。

這項名為Hugging Face Inference-as-a-Service powered by NVIDIA NIM的服務，是以Nvidia NIM為底層核心，現在已加入Hugging Face Enterprise Hub服務。這新服務讓企業用戶可以無伺服器方式，在Hugging Face Hub中，透過API和寫幾行程式碼使用最新Meta Llama和Mistral模型執行推論。Inference-as-service也可搭配Hugging Face的AI訓練服務Train on DGX Cloud使用。

NIM是Nvidia於今年3月公布的容器化推論微服務，它內含預建的容器、預訓練的AI模型、標準API、Nvidia的軟體與推論引擎等，目的是讓企業在容器中執行模型推論，且可將其部署到想要的環境，包括雲端、資料中心或工作站上。NIM的設計是結合Nvidia GPU加速的基礎架構，來加快模型部署和推論，支援企業開發的助理服務（copilot）、聊天機器人等生成式AI應用程式。今年6月Nvidia提供40多個NIM微服務，供企業試用包括Meta Llama 3、Microsoft Phi-3、Mistral Large、Google Gemma等開源模型，而在Hugging Face上，也已可試用支援Meta Llama 3的NIM服務。

Hugging Face Inference-as-a-Service則是雙方合作的最新結果，為執行在DGX Cloud的NIM服務，全部使用Nvidia H100 Tensor Core GPU。這服務採用依使用量計價（pay-as-you-go），提供API供企業用戶使用生成式AI模型進行推論，Hugging Face強調靈活計價模型使其適合各種規模的企業。模型方面則支援Llama及Mistral AI主要模型，包括Llama 3、3.1版8B、70B，以及Mistral 7B和Mixtral-8x22B模型。

Hugging Face Inference-as-a-Service已成為Hugging Face企業平臺Enterprise Hub的最新服務。費用依企業使用的模型而定。例如使用Llama-3-8B-Instruct時，一般回應時間（輸入500 token、輸出100 token）下費用為1秒0.0023美元。若使用Meta-Llama-3-70B-Instruct，費用為2秒0.0184美元。

熱門新聞