輝達新資料中心GPU登場，加快AI大模型處理、支援機密運算

關於Nvidia發展的GPU架構Ampere，以及率先導入此架構的資料中心GPU產品A100，上市時間距今已超過兩年之久，後續也推出相當多款採用Ampere架構的GPU產品，範圍涵蓋了資料中心、專業繪圖、家用娛樂、邊緣運算等應用領域。而在今年3月舉行的GTC春季大會，他們終於宣布推出新一代GPU架構Hopper，以及第一款採用此架構的資料中心GPU產品H100。

這款GPU加速器內建了Transformer Engine運算加速引擎，並配備最新的第4代NVLink互連技術，能夠支撐巨型的AI語言模型、深層的推薦系統、基因體學運算，以及複雜的數位雙生（digital twins）。

在運用的生產技術上，H100採用了台積電4N節點製程，內含800億顆電晶體，提供強勁的AI與HPC加速運算能力，而且率先採用PCIe 5.0的I/O介面，以及容量為80 GB的HBM3記憶體，以此提供3 TB/s或2 TB/s的記憶體頻寬。

相較之下，Nvidia目前主推的A100使用台積電7奈米N7製程，內含542億顆電晶體，採用PCIe 4.0的I/O介面，以及40 GB容量的HBM2、80 GB容量的HBM2e記憶體，以此提供1,555GB/s、1,935GB/s或2,039GB/s的記憶體頻寬。

在運算效能的突破上，Nvidia在最初發布時，曾揭露一些他們測試的成效。例如，若搭配InfiniBand互連網路使用，H100可以達到30倍於A100的AI與HPC效能——運用Nvidia釋出的單體大型語言模型Megatron-Turing NLG 530B（Megatron 530B）時，在因應聊天機器人即時對話AI延遲需達到低於1秒之下的要求時，可提供30倍的吞吐量。

針對研究人員與開發者訓練大型模型時，使用H100能將所需時間從數週驟減至數天——處理帶有3,950 億個參數的Mixture of Experts（MoE）模型時，速度可提升至A100的9倍。

而在經歷了將近半年之久的現在，終於又有新的H100效能表現資訊。根據MLCommons在9月8日公布的最新AI推論效能測試結果，也就是MLPerf Inference v2.1，Nvidia首度提交H100的測試數據，相較於A100，這款最新推出的資料中心GPU可提供4.5倍的效能——在自然語言處理運用BERT這套模型的測試中，A100每秒可處理1756.84個樣本，H100每秒可處理7921.10個樣本。

Nvidia表示，這些推論基準測試是H100首次公開展示，並預告此產品將在今年稍晚上市，以及未來將參與MLPerf訓練測試。

效能提升幅度創造新紀錄，但功耗也跟著水漲船高

GTC 2022春季大會期間，Nvidia執行長黃仁勳發表H100時，強調這款新一代資料中心GPU帶來多項運算效能的突破，舉例來說，在FP16、FP32、FP64、TF32等資料型別的處理效能上，H100都可達到A100的3倍，若用上這款GPU新支援的FP8資料型別，則可提供4,000 TFLOPS效能，相較於A100用現行支援資料型別FP16進行相關處理，H100現在可達到6倍的效能增長幅度。

在熱設計功耗（TDP）上，黃仁勳也提到H100是專為氣冷與液冷系統設計，並且是第一款為了效能而將功耗提升至700瓦的GPU。而在檢視H100的技術規格來看，SXM版本的最大熱設計功耗確實是700瓦，PCIe版本則是350瓦。相較之下，現行的A100，SXM版本為400瓦，PCIe版本則有250瓦、300瓦等兩種配置（GPU記憶體分別為40 GB、80 GB）。

700瓦的耗電量看起來很驚人，這似乎對整個GPU伺服器生態形成不小的挑戰。因為，從3月發表H100至今，除了Nvidia當時發表的AI整合應用設備DGX H100，確定是搭配此款GPU，截至目前為止，我們一直都沒看到有任何伺服器廠商，公布他們可搭配H100 SXM版本的伺服器產品機型。

值得注意的是，Nvidia在H100的資料規格表與技術架構文件中，均提到SXM版本的伺服器搭配方式有兩種，一是採用8個H100的DGX H100，另一是透過搭配HGX H100整合伺服器主機板的合作廠商，當中將會配置4個或8個H100，其中的4-GPU組態將包含NVLink連結，以支援GPU之間的連接與CPU、GPU之間的連接；8-GPU組態將包含NVSwitch晶片，並且針對GPU之間的連接去提供完整的NVLink頻寬——黃仁勳在GTC 2022春季大會主題演講提到，在HGX系統主機板上，8個SXM版本的H100，將會透過4個NVSwitch晶片來連結，每個NVSwitch晶片將提供3.6 TFLOPS的SHARP網內運算能力。

關於連接的特性上，這裡所用到的NVSwitch晶片是第三代技術，每個交換器可提供64個第4代NVLink連結埠，吞吐量可達到13.6 Tbps（第二代NVSwitch為7.2 Tbps），除此之外，第三代NVSwitch晶片也內建硬體加速，能用於集合型處理，如群播（multicast）、SHARP網內運算減量處理等。

串流複合處理器的設計突破

在Nvidia歷代GPU架構當中，關於串流複合處理器（Streaming Multiprocessor，SM）內部的配置方式，以及新增的運算方式，經常是技術創新的關鍵。在這次報導當中，我們先介紹Tensor Core核心，以及新增的指令集DPX。

以現行的資料中心GPU產品A100而言，內含108個SM，今年登場的新一代GPU產品H100，SXM5版本內含132個SM，PCIe版本內含114個SM；而在每個SM內部設計上，A100採用6,912 顆FP32（CUDA）核心，432顆Tensor Core核心；到了H100，SXM5版本採用16,896顆FP32核心、528顆Tensor Core核心，PCIe版本採用14,592顆FP32核心、456顆Tensor Core核心。顯然H100不論在SM處理器、FP32核心、Tensor Core核心，都比上一代資料中心GPU產品配置了更多數量。

除此之外，H100也翻新部分運算核心設計。例如，相較於A100採用的第三代Tensor Core，H100使用第4代Tensor Core核心，運算速度可增長至6倍；針對相同的資料型別，H100執行矩陣乘積累加運算（Matrix Multiply-Accumulate，MMA）時，可提供2倍於A100的處理能力；若運用H100新支援的資料型別FP8，對比於使用FP16的A100而言，計算能力可增長至4倍之多。

H100另一個有別於過往資料中心GPU產品的新增運算功能，就是號稱可加速動態程式編寫（Dynamic Programming）的DPX指令集，黃仁勳表示，這種程式化處理方式，能將複雜的問題截斷，成為可透過遞迴處理方式解決的簡單子問題，使處理複雜度與所需時間減至由多項式處理的規模，他認為，若能運用這種方式，H100的DPX可將演算法的效能提升至原本僅靠CPU進行運算時的40倍，若是基於上一代GPU來處理這類狀況，DPX也能提供7倍的強化效果。

Nvidia表示，DPX可廣泛用於路線最佳化、基因體學、圖形處理最佳化等多種領域的演算法。舉例來說，在動態倉儲環境下，可能會運用Floyd-Warshall演算法，協助機器人在自動行進時尋找最佳路線；若要針對DNA、蛋白質進行分類、基因定序、摺疊處理時，則會用Smith-Waterman 演算法進行特徵比對、序列對準。

針對多種AI語言模型採用的Transformer模型，新設置專屬的加速引擎

關於H100新增的加速引擎Transformer Engine，是專為自然語言處理的深度學習標準模型Transformer所設。事實上，Transformer是一套廣受BERT、GPT-3等知名語言AI模型所採用的模型，若以Nvidia前一代產品為基準，配備此引擎的H100在神經網路運算上，可達到6倍的速度，並兼顧精準度。

基本上，Transformer Engine結合特製的Hopper Tensor Core技術與軟體，能夠動態處理Transformer網路的多個層級，可用於加速Transformer模型的訓練與推論，黃仁勳表示，訓練Transformer模型所需時間，能從數週縮減至數天。這當中利用16位元精度與新增的8位元浮點資料格式（FP8），再搭配進階的軟體演算法，而能進一步加速AI效能與處理能力。

對於FP8與16位元計算，它能以聰明的方式進行管理與動態選擇，在兩者之間的每一個曾集中，自動處理重新分派（re-casting）與規模擴展。因此，同樣面臨大型語言模型的處理，相較於A100，H100可獲得AI訓練速度提升至9倍，以及AI推論速度增長至30倍的成效。

多執行個體GPU技術邁入第二代

為了能夠更充分運用資料中心GPU，Nvidia從A100開始實作硬體層級的GPU分割技術，稱為多執行個體GPU（Multi-Instance GPU，MIG），能將單個GPU加速器區隔為7個較小、完整隔離的GPU執行個體。

到了最新推出的H100，引進第二代MIG技術，處理能力可提升至原先的7倍，能在雲端環境中橫跨每個GPU個體，提供安全的多租戶服務組態。

對此，黃仁勳表示，Hopper架構增加了每個GPU執行個體的完整隔離，以及I/O虛擬化能力，支援雲端環境的多租戶應用需求。以H100為例，雲端服務租戶可同時承載7個，A100只能承載1個。

以每個GPU執行個體而言，若以A100的第一代MIG為基準，H100的第二代MIG可提供近3倍的運算容量，以及近3倍的記憶體頻寬。單就性能而言，黃仁勳認為，H100的單一GPU執行個體，可提供相當於2張Nvidia T4 GPU的效能。

關於機密運算的支援，也是本次H100的最大賣點之一，黃仁勳強調過往這類資料保護應用僅限於CPU系統，而Hopper是率先提供GPU機密運算的解決方案，足以保護用戶AI模型、演算法的機密性與完整性，使開發者與服務業者在共用或遠端IT基礎架構環境當中，安心散布、部署各種寶貴的專屬AI模型，兼顧保護智慧財產與拓展業務模型的需求。

Nvidia宣稱這是第一款配備機密運算的加速器，能在處理AI模型與客戶資料時，提供保護。同時，企業也能運用這款產品，針對醫療照護、金融服務等隱私敏感產業的聯邦學習AI應用，以及雲端共用基礎架構，實施機密運算。

事實上，H100不僅是整個GPU支援機密運算，在MIG層級的信任執行環境（TEE），也提供實作機密運算的能力——內部的7個GPU執行個體均可支援，每個皆可配置專屬的NVDEC、NVJPG等兩種解碼器單元，也包含獨立的效能監控機制，可搭配Nvidia的開發者工具使用。

導入新一代NVLink與NVLink Switch，提升I/O頻寬

在晶片互連介面的部分，H100導入第4代NVLink，可結合第三代NVSwitch晶片，以及外部的NVLink交換器來延伸NVLink，能夠越過伺服器、向外建立可縱向擴展規模的網路系統，形成所謂的NVLink Switch System，不僅最多能同時連接256個H100，相較於前一代透過HDR Quantum InfiniBand網路連接的方式，還能提供9倍的存取頻寬。

Nvidia表示，NVLink Switch System能夠連結大量GPU，用於2比1的錐形、胖樹型（fat tree）拓樸，在多對多連結的狀態下，所有節點的存取頻寬可達到57.6 TB/s，足以支撐1 EFLOP的FP8型別AI運算，同時，還能以此提供隔離與保護機制。

產品資訊

Nvidia H100
●原廠：Nvidia
●建議售價：廠商未提供
●處理器製程：TSMC 4N
●I/O介面：PCIe 5.0
●外形：SXM5、PCIe雙槽介面卡（氣冷）
●GPU架構：Nvidia Hopper
●GPU核心：SXM5版本為16896顆CUDA核心、528顆Tensor Core，PCIe版本為14592顆CUDA核心、456顆Tensor Core
●GPU記憶體：80 GB，SXM5版本搭配HBM3，PCIe版本搭配HBM2e
●記憶體頻寬：SXM5版本為3 TB/s，PCIe版本為2 TB/s
●運算效能：雙精度（FP64）SXM5版本為30 TFLOPS，PCIe版本為24 TFLOPS
●GPU互連介面：第4代NVLink，SXM5版本為900 GB/s，PCIe版本為600 GB/s
●耗電量：SXM5版本為700瓦，PCIe版本為350瓦

【註：規格與價格由廠商提供，因時有異動，正確資訊請洽廠商】

效能提升幅度創造新紀錄，但功耗也跟著水漲船高

串流複合處理器的設計突破

針對多種AI語言模型採用的Transformer模型，新設置專屬的加速引擎

多執行個體GPU技術邁入第二代

導入新一代NVLink與NVLink Switch，提升I/O頻寬

熱門新聞