圖片來源: 

Hugging Face

AI開發資源平臺Hugging Face昨(29)日宣布使用Nvidia NIM技術的雲端推論即服務(inference-as-a-service)上線,支援企業生成式AI應用。

這項名為Hugging Face Inference-as-a-Service powered by NVIDIA NIM的服務,是以Nvidia NIM為底層核心,現在已加入Hugging Face Enterprise Hub服務。這新服務讓企業用戶可以無伺服器方式,在Hugging Face Hub中,透過API和寫幾行程式碼使用最新Meta Llama和Mistral模型執行推論。Inference-as-service也可搭配Hugging Face的AI訓練服務Train on DGX Cloud使用。

NIM是Nvidia於今年3月公布的容器化推論微服務,它內含預建的容器、預訓練的AI模型、標準API、Nvidia的軟體與推論引擎等,目的是讓企業在容器中執行模型推論,且可將其部署到想要的環境,包括雲端、資料中心或工作站上。NIM的設計是結合Nvidia GPU加速的基礎架構,來加快模型部署和推論,支援企業開發的助理服務(copilot)、聊天機器人等生成式AI應用程式。今年6月Nvidia提供40多個NIM微服務,供企業試用包括Meta Llama 3、Microsoft Phi-3、Mistral Large、Google Gemma等開源模型,而在Hugging Face上,也已可試用支援Meta Llama 3的NIM服務。

Hugging Face Inference-as-a-Service則是雙方合作的最新結果,為執行在DGX Cloud的NIM服務,全部使用Nvidia H100 Tensor Core GPU。這服務採用依使用量計價(pay-as-you-go),提供API供企業用戶使用生成式AI模型進行推論,Hugging Face強調靈活計價模型使其適合各種規模的企業。模型方面則支援Llama及Mistral AI主要模型,包括Llama 3、3.1版8B、70B,以及Mistral 7B和Mixtral-8x22B模型。

Hugging Face Inference-as-a-Service已成為Hugging Face企業平臺Enterprise Hub的最新服務。費用依企業使用的模型而定。例如使用Llama-3-8B-Instruct時,一般回應時間(輸入500 token、輸出100 token)下費用為1秒0.0023美元。若使用Meta-Llama-3-70B-Instruct,費用為2秒0.0184美元。

熱門新聞

Advertisement