環顧三大公有雲業者,微軟Azure提供的機密運算解決方案是最多元的。單就運算服務而言,他們提供多種機密虛擬機器(Confidential VM):若是一般用途,主要對應DC系列的執行個體,目前Azure用戶可選擇採用AMD第三代EPYC處理器的DCasv5系列、DCadsv5系列,或是採用英特爾第四代Xeon Scalable處理器的DCesv5系列、DCedsv5系列;若是記憶體最佳化,主要對應EC系列的執行個體,目前Azure用戶可選擇採用AMD第三代EPYC處理器的ECasv5系列、ECadsv5系列,或是採用英特爾第四代Xeon Scalable處理器的ECesv5系列、ECedsv5系列。
在2023年11月,微軟預告將推出機密GPU虛擬機器NCC H100 v5系列,宣布開放預覽版本,提供搭配資料中心GPU產品Nvidia H100的Azure機密虛擬機器,適合常用AI模型的訓練、微調與使用。
到了今年9月底,他們宣布這款運算服務正式上線,目前開放美國東部2、歐洲西部這兩個區域使用。
為何微軟要提供Azure NCC H100 v5系列?他們表示,針對CPU提供機密運算環境之餘,也需要針對GPU提供機密運算環境,理由在於:GPU廣泛用於高效能運算、機器學習、圖形上色等工作當中,而這些作業可能也涉及大量敏感資料的處理,若能提供機密GPU虛擬機器,用戶在雲端環境安全執行工作負載時,將有更多選擇與彈性,提供完整的安全運算堆疊,可涵蓋GPU,透過Azure提供的機密運算環境,可協助用戶組建與部署AI應用時,資料與AI模型在每一個環節都能獲得保護。
市面上的資料中心GPU產品不少,為何微軟在這套雲端服務會搭配Nvidia H100?事實上,它是第一款也是目前唯一標榜機密運算特色的GPU,可惜的是,這款產品推出之後,雖然Nvidia在2023年5月底曾號召多家伺服器廠商,向企業推廣自建加速機密運算的平臺(採用Nvidia H100 GPU搭配支援AMD SEV-SNP或Intel TDX的處理器,建置基於虛擬機器而成的信任執行環境),但截至目前為止,並未出現突顯與善用Nvidia機密運算技術特性的解決方案,Azure後續宣布他們正在發展機密GPU虛擬機器,顯然能促使更多人注意到Nvidia的硬體安全技術進展。
微軟也揭露NCC H100 v5系列的組態配置。首先,每臺需虛擬機器搭配1個Nvidia H100 NVL,這款GPU加速器內建94 GB容量的HBM3記憶體;處理器的部分,則是搭配內建SEV-SNP的AMD第四代EPYC,提供AI訓練與推理的CPU效能;第三個關鍵在於,提供能夠橫跨CPU與GPU的信任執行環境(TEE),資料、模型、運算得以安全卸載至GPU處理;關於加密防護的應用需求,能運用硬體產生的加密金鑰保護虛擬機器的記憶體,而在機密虛擬機器與GPU之間的PCIe介面存取,也能套用加密;最後一個部分是見證(Attestation)機制的實作,能針對CPU與GPU的使用,產生遠端可驗證的見證報告,當中會擷取這兩個元件的關鍵安全性硬體與韌體組態。
簡而言之,NCC H100 v5系列支援硬體可信任執行環境的使用,能夠保護虛擬機器,可避免主機高權限元件遭駭與攻擊者侵入的風險,能抵擋源自Hypervisor層級,以及其他主機層級管理程式碼對虛擬機器記憶體與狀態的不當存取行為,同時,用戶能在釋出金鑰與發布敏感應用系統之前,在這些虛擬機器內部提出見證請求,藉此驗證虛擬機器確實執行在正確設定的信任執行環境。
而且,在這套運算服務中,指派給虛擬機器的GPU會設為啟用機密運算模式,在這樣的執行狀態當中,GPU的HBM3記憶體與安全性重要設定暫存器將受到隔離,防止遭到未授權的存取。
實際上,這套機制如何運作?當Azure機密虛擬機器載入GPU裝置驅動程式後,即可與GPU建立安全通道,CPU與GPU之間所有後續的資料傳輸,都會透過這個管道進行;同時,用戶可提出執行見證程序的請求,在正式推出敏感應用系統與釋出加密金鑰這類機密資訊之前,也能藉此驗證虛擬機器與GPU都採用正確設定的可信任執行環境。
基於上述的保護與驗證,幾乎所有的應用程式,包含運用Nvidia CUDA技術進行加速的軟體系統在內,均能在這類機密虛擬機器直接執行、無須額外修改。
關於機密運算的啟用是否會影響效能的問題,微軟最近宣布NCC H100 v5系列消息之餘,也特別公布這款運算服務用於vLLM系統架構的AI推論效能測試結果。
根據他們揭露的統計圖表,機密運算的啟用,對於大型語言模型處理的效能,不會造成顯著的負擔(效能降低幅度有限),但用於較小的模型時(例如具備27億參數的Phi-2、具備15參數的GPT2-XL),因為PCIe流量加密處理與系統核心的創新等因素,使得存取延遲增加而導致負擔加重,微軟表示,若要緩解機密運算帶來額外的效能負擔,可透過增加批次處理的規模或輸入詞元(token)的長度。
產品資訊
微軟Azure NCC H100 v5
●原廠:微軟
●建議售價:美國東部2區域每月6,348.60美元
●執行個體服務選擇:NCC40ads_H100_v5
●搭配處理器:AMD第四代EPYC(Genoa)
●搭配GPU:Nvidia H100 96 GB
●運算資源配置:
40顆vCPU、320 GiB記憶體、1臺本機硬碟800GiB、8臺遠端儲存硬碟、1個GPU、GPU記憶體96 GB、網路介面2個(40000 Mbps)
【註:規格與價格由廠商提供,因時有異動,正確資訊請洽廠商】
熱門新聞
2024-11-29
2024-11-20
2024-11-15
2024-11-15
2024-12-19