繼2月中舉行投資者大會宣布多款中央處理器與加速運算晶片的發展藍圖,英特爾在5月召開的2022年度首場全球用戶大會期間,宣布更多後續消息,並且公開展示今年即將發表的多款最新產品。

首先是眾人引頸期盼、代號為Sapphire Rapids的下一代Xeon處理器,終於開始出貨,並且定名為第4代Xeon Scalable。第二個亮相的產品是代號為Arctic Sound-M(ATS-M)、該公司第一款資料中心等級的GPU加速卡,主打多媒體轉碼、視覺特效圖形處理、AI推論等應用。

第三個登場的產品,是本次大會期間唯一正式發表的資料中心解決方案,那就是英特爾在2019年底併購Habana Labs之後,最新推出的第二代深度學習加速處理器,分別是用於AI訓練加速的Habana Gaudi2,以及AI推論加速的Habana Greco。最後則是去年在英特爾架構日首度揭露、代號為Ponte Vecchio的另一款資料中心GPU,他們在這次大會特別秀出搭配此晶片的OEM模組外觀,並預告將在6月初舉行的歐洲國際超級電腦大會期間,公布更多細節。

下一代伺服器處理器名稱確定,晶圓與產品外形首度公開

在2021年4月,英特爾發表代號為Ice Lake的第三代Xeon Scalable系列處理器不過,在更前一年,外界就已經知道下一個接班的伺服器處理器平臺,其代號為Sapphire Rapids,而且屆時將引入更多新一代技術規格,像是DDR5記憶體、PCIe 5.0介面、CXL 1.1互連介面,並且實作進階矩陣延伸指令集(AMX)、資料流加速器(DSA)、加速器接合架構指令集(AIA)、類神經壓縮器(INC),此外,他們預告將推出內建HBM記憶體的Sapphire Rapids。

到了2021年,英特爾在多場公布公司重大策略最新進展的活動當中,提及Sapphire Rapids將導入Intel 7節點製程,以及EMIB封裝,並且能透過多個運算晶磚(Compute Tiles)實現模組化設計。

在10月底舉行的Innovation 2021大會期間,英特爾預告Sapphire Rapids在AI效能會有很大的提升,將達到第三代Xeon Scalable的30倍,受益於可延伸的軟體最佳化機制,以及內建的AMX引擎,他們希望能夠啟用更多的AI應用案例,而不需要搭配獨立GPU。

 

 

到了2022年2月的英特爾投資者大會,對於Sapphire Rapids並未揭露更多新的資訊,英特爾僅提到會在第一季推出產品,搭配Intel 7節點製程的高效能核心(P-core),而在AI各個工作流程當中,相較於Nvidia A100資料中心GPU,可提供將近2倍的效能。

而對於內建HBM記憶體的Sapphire Rapids,英特爾也展示其運算效能成效。若以計算流體動力學這類型高效能運算的工作負載而言,相較於第三代Xeon Scalable處理器,搭配此種組態的Sapphire Rapids的系統可提供2.8倍的效能。

此次新消息宣布的重點,在於公布Xeon處理器未來3年的發展藍圖,像是2023年推出的Xeon處理器,代號是Emerald Rapids,2024年發表的Xeon處理器,將區分為基於P-core,以及基於高效率核心(E-core)的產品,代號分別是:Granite Rapids、Sierra Forest。

同時,內建HBM記憶體的Sapphire Rapids,則與Ponte Vecchio並列,納入英特爾專攻高效能運算、人工智慧的超級電腦領域,在2023年各自推出下一代產品之後,英特爾預告2024將推出融合x86 CPU與Xe GPU的異質運算架構,成為單顆插槽型態的Xeon處理器。

而在本月舉行的2022年度用戶大會Intel Vision,英特爾宣布下一代伺服器處理器平臺Sapphire Rapids,正式定名為第四代Xeon Scalable,而且進入初步出貨狀態,而其主要特色與不同應用的效能提升幅度,先前都已陸續揭露,他們這次仍繼續強調,但額外提到用於虛擬無線存取網路(vRAN)的部署,能因此獲得2倍容量的增長。

關於這款處理器晶片的樣貌,在Intel Vision大會期間,英特爾有多位主管親自拿出實際產品,例如,執行副總裁暨資料中心與AI事業群總經理Sandra Rivera,在大會第一天的主題演講公開展出晶圓;

企業副總裁暨雲端與企業解決方案事業群總經理Janet George,在Data Center and AI Business Insight這場演講,秀出標示第四代Xeon Scalable字樣的晶片。

關於這款新處理器的效能改善成效,英特爾在本次用戶大會期間,也公布新的比較數據,包含AI機器學習、儲存I/O、微服務。

加速運算系統繪圖處理副總裁暨超級電腦事業群總經理Jeff McVeigh,在Intel Vision 大會第二天的Accelerated Computing & Graphics Business Insight演講,亮出內建HBM記憶體的第四代Xeon Scalable。

針對高頻寬記憶體的搭配使用方式,英特爾也在這場大會期間的其他演講,揭露屆時這款內建HBM的Xeon處理器會有3種模式,分別是:純HBM模式、快取模式、扁平模式(Flat Mode),

   

同時,他們也公布新的效能比較數據。

揭露首款資料中心GPU用途,鎖定多媒體視訊、圖形處理、推論運算,跨入雲端遊戲與VDI支援

在2021年8月的英特爾架構日期間,他們公布Xe GPU的多種架構,以及獨立GPU品牌Intel ARC系列,而在2022年2月的英特爾投資者大會上,他們突然宣布將推出一款資料中心等級的多媒體超級電腦GPU,代號為Arctic Sound-M,當時已開始提供樣品給客戶,預計年中出貨。英特爾表示,這將會是第一個以硬體實作AV1編碼器整合至GPU的產品,頻寬可提升30%,並強調這是目前唯一開放原始碼的多媒體解決方案。

當時,他們公開了一段40秒動畫影片,展現產品樣貌,並且初步揭露用於4大領域的性能。以多媒體AI分析為例,可提供150 TOPS運算能力;在視訊轉碼的部分,可同時支援8個4K視訊串流,或是30個以上的1080P畫質視訊串流;對於虛擬桌面基礎架構(VDI)的承載,能執行超過60個虛擬功能(Virtualized Functions);而在雲端遊戲(Cloud Gaming)的應用上,可支援30個以上的遊戲串流處理。

在產品定位上,Arctic Sound-M鎖定多媒體與資料分析用途的超級電腦系統,可大幅提升多媒體轉碼品質、串流處理密度,以及雲端遊戲應用,而在未來發展藍圖規畫上,英特爾預計在2023年底、2024年初推出Arctic Sound下一代產品。

到了5月的英特爾Vision大會,他們公開展示了Arctic Sound-M實際產品,在第一天的主題演講,英特爾執行副總裁暨加速運算系統與繪圖處理事業群總經理Raja Koduri拿出了一張標示「Intel Data Center GPU」的PCIe介面卡,而這就是Arctic Sound-M。

為何英特爾近期積極發展資料中心GPU?在本次Vision大會上,另一位高層主管Jeff McVeigh提出更進一步說明。該公司預估超級運算營收在2026年將達到450億美元,而智慧型視覺處理雲(Intelligent Visual Cloud)相關業務將達到150億美元的規模,這當中就包含了上述Arctic Sound-M主打的四大應用:AI推論/多媒體AI分析、視訊轉碼/多媒體處理與傳遞、虛擬桌面基礎架構、雲端遊戲,他們認為,長期以來,Xeon處理器平臺已成為業界黃金標準,不過,從2020年起,這些工作負載的即時處理需求大增,像是視訊會議、線上影音與社群網站的網路串流多媒體播放,資料中心面臨了高密度、大量數位內容的快速進出,於是,多種加速運算技術開始進駐資料中心,例如建置大量GPU來處理圖形內容的傳遞、視訊的編碼、專屬的AI推論工作,為了解決這種日益複雜的異質運算軟硬體架構,打破各自為政的專屬環境隔閡,英特爾針對資料中心推出了Arctic Sound-M處理器。

Jeff McVeigh強調這是一款伺服器級GPU產品,採用Xe-HPG的GPU架構,可廣泛處理各種工作負載,性能大致如同2月所揭露的那樣,不過,有些部分有更具體的展示。

雲端遊戲

在影像渲染處理上,Arctic Sound-M可同時承載40個以上的遊戲HD畫質處理(40個以上的Android執行個體運行賽車遊戲Riptide GP,再以720P解析度進行編碼,再以視訊串流方式傳送至個人端設備進行解碼與顯示)。

關於軟體支援的部分,Jeff McVeigh表示,在最底層的圖形渲染處理層當中,會透過DirectX、OpenGL、Vulkan等底層的圖形處理標準API來進行,接著,其上層會用到英特爾oneAPI中的影片處理程式庫oneVPL,負責所有已完成渲染的電腦遊戲畫面的視訊編碼工作,然後更上層的FFmpeg、WebRTC會用於網路串流服務的處理,同時,這裡也將運用Intel Bridge技術,而該技術原本是讓基於Arm架構Android平臺編譯而成的遊戲程式二進位碼,也能在Xeon處理器平臺裡面執行,如今英特爾運用上述形式將,將整個雲端遊戲堆疊與Unreal、Unity這兩家廠商的引擎,提供給服務供應商進行完整部署。

多媒體內容處理與傳遞

面對英特爾看好的另一個GPU商用領域:多媒體內容處理與傳遞,他們希望達到的幾個目標。

首先,在提供最佳視覺品質的狀態下,能做到最高密度的部署,同時,還要在傳輸這些數位內容之際,能減少整體網路頻寬的耗用,降低這些資料進出資料中心的成本;第二,存取這些內容的各種端點設備,所支援的視訊壓縮格式可能不盡相同,因此,伺服器端需為此轉碼,以因應不同解析度的呈現需求,而且要降低所需的整體頻寬。

對此,Arctic Sound-M內建了基於AI的技術,可改善畫面品質、降低使用頻寬,並能傳遞最大量的視訊串流。Jeff McVeigh表示,單張GPU加速卡可支援30個1080P畫質視訊內容的同時串流,影格率可達到每秒為60楨;若是一整臺伺服器搭配4張Arctic Sound-M,可支援120個視訊串流;再以此擴展至一整櫃、耗電量1萬瓦的組態,此時可支援1,300個視訊串流。

而在頻寬耗用量的抑制技術上,Arctic Sound-M所憑藉的是內建AV1壓縮格式的硬體編解碼支援,在呈現同樣的高品質畫面時,比起目前常見的H.264,能以較低的影像傳送位元率來進行;若以相同的影像傳送位元率來呈現畫面時,Arctic Sound-M搭配AV1編解碼時,可呈現相對較佳的畫質。

 

 

根據英特爾的估計,基於這樣的搭配,相較於使用H.264,影像散布成本可節省30%,因此,他們推論,若有一個多媒體串流服務的使用者規模為10萬人,單就低位元率帶來的效益而言,相較於採用其他廠商的GPU產品與常用的多媒體編解碼規格,若大量採用Arctic Sound-M搭配AV1,每年節省的營運費用可達到2千3百萬美元。

而在這類應用的軟體堆疊架構當中,上述的oneVPL程式庫仍將在此扮演重要角色,負責所有影片格式的編碼與解碼,而且能夠橫跨CPU與GPU進行處理,並且整合FFmpeg、開放原始碼的多媒體資料流處理框架GStreamer,同時,也能運用英特爾主導的開放原始碼軟體堆疊Open Visual Cloud,加速用戶發展多種雲端服務,舉凡多媒體處理與傳遞、多媒體分析、沉浸式多媒體、雲端圖形處理、雲端遊戲。

虛擬化桌面基礎架構

全球疫情促使企業推動遠端辦公,而各種IT應用系統的前端使用者操作,大多涉及圖形介面的呈現,為了加速遠端桌面系統與服務的部署

而在這樣的應用場景之下,Arctic Sound-M本身可支援SR-IOV技術,而能提供硬體隔離虛擬化功能,可支援62個遠端(虛擬)桌面同時運作。關於軟體解決方案的搭配,它也支援多種虛擬桌面基礎架構,可適用於開放原始碼的KVM、VMware ESXi等兩大類型的Hypervisor,以及對應的產品,像是Citrix XenApp、VMware Horizon。

為了加大對企業與雲服務業者VDI應用市場的推廣力道,英特爾在此釋出利多,他們宣布在虛擬化功能的使用上,用戶不需為此支付額外的軟體授權費用。Jeff McVeigh表示,這麼做可大幅縮減整體部署成本,若面對數量越多的VDI使用者、更大量的虛擬GPU執行個體,可以節省更多費用。

英特爾提出的優惠,顯然是衝著Nvidia而來,因為該公司的GPU虛擬化應用軟體,就是如此。根據目前公告的授權計費資訊來看,有些根據同時上線人數來收取授權費,例如vPC、 RTX vWS、vApps,有些根據GPU數量來計費,像是vCS的1個授權,可允許用戶同時執行10臺虛擬機器。

推論處理

關於部署在各種室內外環境、廠區的攝影機所擷取的視訊影像處理,舉凡瑕疵檢測、人流管制、電子圍籬,都可能會需要用到視訊與AI推論的運算──需進行視訊解碼、畫面尺寸調整,接下來才會進行物件分類等推論處理,此時,可使用GPU加速卡來加速執行。

以上述應用情境而言,英特爾表示,在視訊推論上,若採用其他廠商熱設計功耗為150瓦的GPU,可同時支援100個視訊串流的解碼、調整大小、物件分類,如果是英特爾相同功耗的Arctic Sound-M能同時處理114個串流,若再搭配Xeon處理器,可支援到139個,而在AI推論的部分,Arctic Sound-M可提供150 TOPS的運算效能。

  

在軟體堆疊的部分,推論處理仍基於英特爾oneAPI,底層除了oneVPL,還有深度神經網路程式庫oneDNN,而這已經整合到TensorFlow、PyTorch、OpenVINO等常用AI框架,Jeff McVeigh說,只需更動兩行程式碼,就能從CPU與GPU獲得加速執行的支援,他批評其他專屬的解決方案,總是環繞著GPU來處理,就算這麼做無法帶來最理想的可能結果,並強調英特爾著重的是整個平臺,關心的是如何達到最佳平衡、如何利用平臺上的所有資源以獲得最好的成效。

綜合這4種用途對應的軟體生態系統,Jeff McVeigh宣布英特爾將會提供這些軟體堆疊,而且會是經過完整驗證、優先處理的容器,能在裸機環境中透過Kubernetes平臺進行調度,或是在虛擬機器裡面執行,也能運用SR-IOV虛擬化I/O處理,同時,還會提供工具,讓大家可以在單一節點當中或對整個資料中心進行相關的管理。 

硬體架構

關於Arctic Sound-M這項產品的技術,他不諱言是源於英特爾個人端獨立GPU產品ARC系列(Xe HPG架構),但已針對雲端環境的建置需求進行最佳化,可支援高密度部署與總體持有成本的考量。

在產品外形上,Arctic Sound-M將會提供兩種選擇,一種是熱設計功耗為150瓦的版本,特色在提供最大的尖峰狀態執行效能(當中嵌入1顆GPU),另一種是熱設計功耗為75瓦的版本(當中嵌入2顆GPU),鎖定最高密度的部署應用。它們都採用PCIe 4.0介面、搭配GDDR6記憶體,並透過SR-IOV的支援而內建這類硬體隔離虛擬功能;在圖形內容的運算處理元件配置上,它們內建Xe核心、Xe多媒體引擎、Xe光線追蹤引擎、Xe矩陣延伸引擎(XMX)。

除了透露更多產品規格,若要將這款資料中心GPU廣泛供應到市場,系統廠商的搭配意願將是另一個關鍵。對此,英特爾也宣布Dell Technologies、 Supermicro、Cisco、HPE、浪潮、新華三(H3C)等廠商,將推出15種以上的系統設計,預計在今年第三季就能開始提供這樣的產品組合。

熱門新聞

Advertisement