提供PCIe與OAM外形，英特爾首款資料中心GPU產品問世

自從Nvidia在2016年推出Tesla P100，將GPU拓展至資料中心等級的產品，後續發表Tesla V100、A100，以至近期炙手可熱的H100，連帶也吸引其他晶片廠商開始積極發展資料中心GPU、AI加速器，像是AMD在2020、2021年底的SC超級電腦大會期間，推出Instinct MI100系列，以及Instinct MI200系列，下一代產品Instinct MI300系列即將於今年12月初發表；英特爾在2021年預告將推出資料中心GPU產品，2023年1月終於上市，隨後於5月底、9月底，以及11月初，陸續公布效能測試優勢，以及超級電腦系統、市售伺服器的採用現況。

兩年前對外揭露正在發展的資料中心GPU架構，去年底定名為Data Center GPU Max系列

在2021年8月的Intel架構日，英特爾首度公開介紹他們發展的資料中心GPU架構：Xe HPC，以及採用此架構的產品，代號為Ponte Vecchio，隔年11月初舉行的SC22超級電腦大會期間，GPU產品正式定名為Intel Data Center GPU Max系列（以下簡稱為Intel Max GPU）。

當時英特爾預告將推出3款資料中心GPU，分別是：雙寬尺寸PCIe介面卡外形的1100，以及OAM外形的1350、1550，內建的Xe核心數量、HBM2e記憶體容量，以及熱設計功耗，都有不同配置，而在運算效能的突破上，英特爾以競爭產品Nvidia A100為基準，聲稱Intel Max GPU可達到1.5倍至2.4倍。

而在採用客戶的部分，英特爾表示，美國能源部阿貢國家實驗室正在建造的超級電腦Aurora，預計將會採用Intel Max GPU，以及此時一同揭露的Xeon Max系列處理器，並預告2023年1月將推出這兩種Max系列產品，以及2024年發表下一代資料中心GPU，代號為Rialto Bridge，未來將會推出在單一封裝結合x86核心與Xe核心的XPU晶片，代號為Falcon Shores。

至於搭配Intel Max GPU伺服器方面，有兩家廠商率先響應，一家是聯想，他們在SC大會公布與展出ThinkSystem SD650 V3，以及展出ThinkSystem SD650-I V3。

另一家是Dell，當時宣布推出PowerEdge XE系列3款機型，其中一款XE9640採用這款GPU。

今年上半Intel Max GPU細部規格、系統搭配，以及應用案例陸續出爐

今年1月10日，英特爾一口氣推出第四代Xeon Scalable處理器、Xeon Max系列處理器，以及Intel Max GPU，但所有焦點都在第四代Xeon Scalable處理器，對於Intel Max GPU，英特爾延續Intel架構日公布的相關資訊，重申這款產品使用超過1千億顆電晶體，並在單一封裝納入47片晶磚，而在運算效能方面，他們提出新數據：在與Xeon Max系列處理器一起使用的伺服器當中，執行分子動力學模擬器LAMMPS時，相較於第三代Xeon Scalable處理器的伺服器，可獲得12.8倍的效能。在此同時，聯想也在公布ThinkSystem V3系列機型，順勢揭露ThinkSystem SD650-I V3的規格。

接著是5月底的ISC High Performance 2023超級電腦大會，英特爾揭露更多Intel Max GPU的能耐。

他們宣稱，若同樣用於廣泛的科學工作負載，以Nvidia於2022年新推出的資料中心GPU產品H100 PCIe為對手，OAM外形的Intel Data Center GPU Max 1550領先幅度平均可達到30%，同時，英特爾也引用於工程模擬軟體廠商Ansys的測試數據，指出Intel Data Center GPU Max 1550執行AI加速的高效能運算系統，效能是Nvidia H100 PCIe的1.5倍。

關於超級電腦方面的應用布局，英特爾揭露美國能源部阿貢國家實驗室Auroa系統的安裝進度與系統規格——涵蓋63,744臺GPU、21,248顆CPU，以及1,024臺DAOS儲存系統節點，並透過早期程式碼測試，將Aurora測試與開發平臺「Sunspot」，與美國能源部旗下兩臺超級電腦比較預測核融合反應爐等離子體活動的效能，其中一臺是採用SXM外形Nvidia A100 GPU的「Polaris」，另一臺是正在建置、採用OAM外形AMD Instint MI250 GPU的「Crusher」。

英特爾展示這些超級電腦在單GPU與多GPU組態的效能差異，他們表示，採用Intel Data Center GPU Max 1550的系統運算效能，可達到AMD Instint MI250的兩倍。若用於量子力學應用系統，如QMCPACK，以Nvidia H100為比較基準，Intel Data Center GPU Max 1550領先幅度為20％，擴充至數百臺節點時，整體效能也將呈近乎線性的增長。

此外，英特爾還特別提到英國劍橋大學的Open Zettascale實驗室，他們已部署Max GPU測試平臺，並於分子動力學和生物成像應用看到正面的早期成果。

在市售伺服器產品的搭配上，英特爾也公布2023年底之前的供應規畫。首先是機型名稱有變化，Intel Max GPU仍然提供3款機型， 1100、1550照舊，但不提供1350而是1450，關於這項傳言，4月中有一些科技媒體報導。

伺服器廠商的產品方面，以OAM外形的1450與1550而言，Supermicro、浪潮將提供支援8臺OAM配置的伺服器，Dell、聯想將提供支援4臺OAM配置的伺服器；若是PCIe介面卡外形的1100，會有5大廠牌伺服器搭配，包含Dell、HPE、浪潮、聯想、Supermicro。若用戶不想透過這種形式測試Intel Max GPU是否合用，也可以透過英特爾發展、正在測試的雲服務Intel Developer Cloud評估。

今年5月底召開的ISC超級電腦大會期間，英特爾展示Intel Data Center GPU的兩種外形，副總裁暨超級運算事業群總經理Jeff McVeigh向大家介紹此產品的PCIe介面卡款式，以及OAM外形的款式（右下圖）。

而在ISC大會期間，英特爾也在他們的演講舞臺上，展出Supermicro設計、採用Xeon Max系列處理器及8臺OAM外形GPU的8U尺寸氣冷伺服器，預計7月開始供貨，Supermicro也預告9月將推出4U尺寸的Intel Max GPU液態冷卻伺服器。除此之外，他們也介紹聯想設計、採用4臺OAM外形GPU的液態冷卻伺服器。

搭配Intel Max GPU的市售伺服器產品一一浮出檯面，VMware為了擴展Private AI架構陣容也找上Intel合作

9月下半英特爾年度用戶大會Innovation期間，對於Intel Max GPU，除了重申先前強調的產品特色，他們在一場演講當中，公布多款AI產品用於大型語言模型Llama 2的推論效能測試結果，當中也包含Intel Max GPU。英特爾提到Intel Data Center GPU Max 1550在晶片封裝內放置兩片GPU晶磚，他們只用其中一片執行AI推論，結果顯示：輸入長度為32到2千個Token的狀態下，若用70億參數的模型進行推論，每個Token的反應延遲可低於20毫秒；若用130億參數的模型進行推論，每個Token的反應延遲介於29.2到33.8毫秒之間。他們表示，用戶可以同時執行兩個執行個體，每一片晶磚負責一個執行個體，可提供更大的吞吐量、獨立服務更多用戶。

在9月底舉行的Innovation年度大會主題演講舞臺上，英特爾技術長Greg Lavender展示OAM外形Data Center GPU，此產品過去曾多次亮相，當時著重AI加速晶片的本體呈現，這次秀出的應是實際用於伺服器的型態，外層已包覆起來。

在今年的Innovation大會期間，英特爾針對旗下伺服器處理器與兩大加速器產品，以及最佳化軟體用於大型語言模型，首度公開以Llama 2的70億參數模型與130億參數模型執行AI推論的效能，當中可看出Intel Data Center GPU的表現，介於Xeon Scalable處理器與Gaudi2加速器之間。

企業與組織若想要實際測試Intel Max GPU，英特爾9月正式上線的Intel Developer Cloud服務，當中就提供搭配這款GPU的裸機執行個體。

在此同時，另一款支援Intel Max GPU的伺服器產品終於上市，那就是去年底預告將支援的Dell PowerEdge XE9640，他們公布細部規格，也在臺灣舉行的2023戴爾科技論壇公開亮相。

到了11月，適逢VMware Explore 2023 Barcelona大會，以及SC23超級電腦大會的舉行，連帶有Intel Max GPU相關消息。

首先，在月初這場VMware歐洲年度用戶大會活動期間，他們宣布8月底登場的VMware Private AI架構，先支援Nvidia的產品與技術，現在擴及英特爾、IBM這兩家公司合作。而採用Intel AI的VMware Private AI參考架構裡面，目前主要著墨在第四代Xeon Scalable處理器、Intel AI軟體套餐的運用，VMware公布《AI without GPUs: A Technical Brief for VMware Private AI with Intel》，9月底他們曾發布《AI without GPUs: Accessing Sapphire Rapids AMX instructions on vSphere》，Intel Max GPU也是其中一員，但未透露實際搭配應用方式。

隔週登場的SC23大會，英特爾宣布更多Intel Max GPU的近況。

以運算效能而言，若同樣執行通用原子、分子與電子結構系統（GAMESS）的軟體，Intel Max GPU超越Nvidia A100的比例超過1倍以上。而在他們與伺服器廠商Dell合作發布的效能測試結果當中，以金融業市場風險分析應用的工作負載來比較，結果顯示以4臺Intel Data Center GPU Max 1550對上8張Nvidia H100 PCIe，效能超越比例是26％（但英特爾對媒體秀出的圖表是1.16倍？），而在伺服器空間使用效率方面，可達到4.3倍。

在多種高效能運算工作負載類型的測試當中，Intel Data Center GPU Max 1550平均可贏過Nvidia H100 PCIe的幅度是36％。

在11月SC23超級電腦大會，英特爾揭露多種產業HPC效能測試比較，他們強調Intel Data Center GPU Max Series 1550（OAM外形），以36%的幅度領先競爭產品Nvidia H100 PCIe。可惜的是，這次未呈現以Nvidia H100 SXM為對手的表現差異，若差距幅度也這麼大，相信會更有說服力。

SC23大會也同步揭開最新全球500大超級電腦榜單，其中有4臺使用Intel Max GPU，美國能源部阿貢國家實驗室的Aurora拿下第二，建置規模大致如ISC大會公布的，英特爾補充此系統有166座機櫃，10,624臺運算刀鋒模組，並透露此系統是在6月完成建置，其他3臺分別是：第41名英國劍橋大學的Dawn、第52名德國萊布尼茲超級電腦中心的SuperMUC-NG Phase 2、第196名美國能源部洛斯阿拉莫斯國家實驗室的Crossroads。其中的Dawn，應該就是英特爾5月ISC大會揭露的劍橋大學Open Zettascale實驗室系統。

值得注意的是Dawn、SuperMUC-NG Phase 2均採用伺服器廠商的產品搭建超級電腦，前者搭配Dell PowerEdge XE9640，後者則是聯想ThinkSystem SD650-I V3 Neptune DWC，均配備直接液態冷卻（DLC）技術。關於Intel Max GPU的搭配，我們看到聯想在SD650-I V3 Neptune DWC規格變更歷程的資訊，提到部分GPU款式支援變化——4月撤下對Intel Data Center GPU Max 1350的支援，8月針對中、港、澳的客戶提供搭配Intel Data Center GPU Max 1450的選項。

除了上述兩款機型，SC23大會期間我們看到兩家伺服器廠商揭露搭配Intel Max GPU的產品。首先是Supermicro展出8U尺寸且支援OAM外形GPU的伺服器SYS-821GV-TNR，強調可搭配Intel Data Center GPU Max 1550，這款機型應該是5月底ISC大會英特爾展示的產品，而在Supermicro網站的Intel加速器產品專區當中，也提到該公司有一款4U伺服器SYS-421GE-TNRT，可搭配10張PCIe介面卡形式的多款Nvidia GPU加速卡，或是Intel Data Center GPU Max 1100。

HPE旗下有兩款伺服器也能搭配Intel Data Center GPU Max 1100，根據該公司11月初更新的伺服器產品規格資訊，ProLiant DL380 Gen11可搭配2張，ProLiant DL380a Gen11能搭配2張或4張。而10月中在臺舉行的HPE Discover More Taipei 2023大會現場也展出可搭配這張GPU，以及可搭配的伺服器ProLiant DL380a Gen11。

Intel Max GPU的下一代產品是代號為Falcon Shores的「GPU」

根據2022年11月Max系列GPU發表揭露的產品上市規畫，下一代會是代號為Rialto Bridge的資料中心GPU，預計2024年登場，之後則是在單一封裝結合Xe架構與x86核心的產品，代號為Falcon Shores，

然而到了2023年3月初，英特爾突然宣布原本接班的Rialto Bridge將終止發展，下一代的產品會採用代號為Falcon Shores的GPU架構，預計2025年推出，將採用小晶片（chiplet）設計架構，能整合英特爾與長期合作客戶新型矽智財，涵蓋，CPU核心、其他小晶片，。

而在幾天之後舉行的資料中心與AI投資者線上說明會當中，他們介紹今年第四季即將問世的第五代Xeon Scalable處理器之餘，在資料中心GPU Max系列的發展藍圖，也將後繼產品標示為「次世代加速器架構，代號為Falcon Shores」，而專屬AI加速器產品Habana Gaudi系列，在現行產品Gaudi 2，以及後繼產品Gaudi 3，之後是哪一款產品接替呢？英特爾在此，也相當巧合地將這個位置標示為「次世代加速器架構」，但並未列出研發代號。

到了5月底召開的ISC23大會，英特爾直接表明下一代Max系列GPU就是Falcon Shores，它同時是現行Intel Data Center GPU Max與Habana Gaudi 3的接班者，並且以「次世代GPU」稱呼Falcon Shores。英特爾提到這款產品結合系統層級的CPU與獨立GPU，採用模組化、基於多片晶磚而成的架構，提供更多使用彈性，可因應新興與快速變遷的工作負載執行需求，他們預告GPU不只是廣泛支援HPC與AI領域常用的多種資料型別，舉凡FP64、BF16、FP8，最多能內建288 GB的HBM3記憶體，支援高達9.8 TB/s的記憶體總頻寬，大幅改善I/O存取，而且能運用CXL互連技術的程式運作模型，同時，可經由他們發展的oneAPI展現統一的GPU程式處理介面使用。

英特爾副總裁暨超級運算事業群總經理Jeff McVeigh坦承，他們太快走向XPU的發展。他表示，倘若平臺層級具備的彈性能夠更理想地處理動態工作負載，英特爾會在合適的時機進行整合，例如此類工作負載趨於成熟時，以及更了解這些運算元件的正確搭配比例，屆時就能更有效率地完成相關的組建與設計，因此，英特爾決定改變GPU與XPU產品演進的過程。

按照他們調整後的規畫，Falcon Shores是預計在2025年推出的GPU產品，至於產品的技術組成，Jeff McVeigh提出進一步說明，他表示，當中將結合Gaudi產品線的矽智財——像是深層的脈動陣列（Deep Systolic Array）、內建標準乙太網路而提供具有規模延展性的AI效能，可廣泛用於各種系統，以及Xe GPU產品線的矽智財——支援FP64的程式處理，提供彈性的CPU與GPU混合搭配比率，可橫跨多家廠商、使用熟悉的GPU程式處理介面，同時，這個平臺也能運用CXL技術，提供更理想的程式處理，以及記憶體容量擴充能力。

到了11月SC23超級電腦大會期間，英特爾重申Falcon Shores會是用於HPC與AI領域的下一代GPU，相關產品宣傳力道聚焦在Habana Gaudi系列。

為何會出現厚此薄彼的現象？此產品線目前最新的解決方案Habana Gaudi 2，是在2022年5月推出，搭配這款AI加速器的市售伺服器，有Supermicro的SYS-820GH-TNR2、緯穎SV600G2、浪潮信息NF5688M7，到了2023年下半Gaudi 2突然暴紅，原因應是MLCommon公布的AI效能測試數據，突顯其運算效能日益接近Nvidia H100，在性價比方面，有競爭優勢。

Join Thomas Jorgensen as he takes you on a closer look at the @Supermicro_SMCI Habana Gaudi®2 server. If you are at #SC23 this week, stop by our booth at #1325 and explore this fantastic server!

Learn more: https://t.co/VoNsv3EgKq #Supermicro #SupermicroSC23 pic.twitter.com/vEcMYe5Nko

— Supermicro (@Supermicro_SMCI) November 16, 2023

例如，今年6月揭露的AI訓練效能測試結果MLPerf Training 3.0，英特爾以48臺伺服器、總共搭配384臺Gaudi2的組態，完成GPT-3訓練需311.94分鐘；Nvidia以64臺DGX H100伺服器、總共搭配512臺H100 GPU的組態，完成GPT-3訓練需64.26分鐘。此時彼此的差距雖然不小，Gaudi2卻是少數在檯面上能在這方面應用與其競爭的對手。

11月揭露MLPerf Training 3.1，因為當中的GPT-3測試增加FP8資料型別的支援，受測伺服器效能大幅提升，連帶拉近Intel Gaudi2與Nvidia H100的差距。英特爾以48臺伺服器、總共搭配384臺Gaudi2的組態，完成GPT-3訓練需153.58分鐘，節省一半時間，Nvidia以64臺DGX H100伺服器、總共搭配512臺H100 GPU的組態，完成GPT-3訓練需58.30分鐘。

9月MLPerf Inference 3.1公布，在GPT-J-99與GPT-J-99.9測試中，英特爾搭配8臺Gaudi2的伺服器，線上查詢每秒78.58個樣本，離線為84.08個樣本；Nvidia搭配8臺H100的伺服器DGX H100，有兩個數據，其中一組領先幅度較大，線上查詢每秒82.26個樣本，離線每秒為106.32個樣本，另一組遜於Gaudi2伺服器，線上查詢每秒48.98個樣本，離線每秒為64.51個樣本。

相較之下，Intel Max GPU上市近一年，英特爾多次公開內部效能測試成效，頻頻向Nvidia A100與H100這兩款資料中心GPU叫陣，卻遲遲未見其向MLCommons提交Max GPU測試數據，今年針對Gaudi 2提交的AI測試數據目前卻已累積3次以上。（若再加上去年的MLPerf Training 2.0、2.1，總共有5次之多）。

除此之外，英特爾Innovation大會期間，他們揭露Gaudi 2效能測試數據的數量，也明顯多於Intel Max GPU。

兩相比較之下，Intel Max GPU雖然有較多伺服器廠商支持，但在媒體與市場聲勢上，似乎不如Gaudi2。現在英特爾預告未來將把這兩個產品送做堆，等於用Falcon Shores進行整合，是否能在AI加速硬體市場獲得更大競爭優勢，仍有待觀察。

產品資訊

Intel Data Center GPU Max系列
●原廠：英特爾
●建議售價：廠商未提供
●機型與外形：1550為OAM，1100為PCIe介面卡
●製程：基礎晶磚採用Intel 7製程，運算晶磚採用TSMC N5製程，Xe Link晶磚採用TSMC N7製程
●I/O介面：PCIe 5.0 x16
●GPU架構：Intel Xe HPC
●GPU核心：1550內建128顆Xe核心、128顆光線追蹤器、1024個XMX引擎、1024個Xe Vector處理引擎，1100內建56顆Xe核心、56顆光線追蹤器、448個XMX引擎、448個Xe Vector處理引擎
●GPU互連介面與頻寬：Xe Link，53 Gbps
●GPU記憶體：1550搭配128 GB HBM2e，1100搭配48 GB HBM2e
●記憶體頻寬：1550為3276.8 GB/s，1100為1228.8 GB/s
●運算效能：FP64尖峰值為52 TFLOPS，BF16尖峰值為839 TFLOPS
●耗電量：1550為600瓦，1100為300瓦

【註：規格與價格由廠商提供，因時有異動，正確資訊請洽廠商】

兩年前對外揭露正在發展的資料中心GPU架構，去年底定名為Data Center GPU Max系列

今年上半Intel Max GPU細部規格、系統搭配，以及應用案例陸續出爐

搭配Intel Max GPU的市售伺服器產品一一浮出檯面，VMware為了擴展Private AI架構陣容也找上Intel合作

Intel Max GPU的下一代產品是代號為Falcon Shores的「GPU」

熱門新聞