剖析英特爾Core Ultra處理器關鍵特色

代號為Meteor Lake的Core Ultra處理器是英特爾第一款整合AI加速引擎NPU的行動PC處理器。據英特爾的內部測試，在使用Core Ultra筆電處理Stable Diffusion圖像生成模型推論，進行20次迭代的圖像生成任務時，分別在CPU、GPU、NPU執行，結果顯示在不論在處理時間或功耗方面，NPU的表現都優於CPU，甚至功耗也遠低於GPU。上圖為Core Ultra處理器實體（圖片來源／英特爾）

英特爾在新款Core Ultra處理器晶片中，不只內建CPU、GPU，還整合了一個可用於推論加速的AI引擎NPU，來提高這款處理器對於生成式AI的處理能力，還採用了許多創新的設計方式，提升其性能和降低功耗。

在Core Ultra處理器所內建的這個NPU神經處理單元的前身，來自英特爾旗下Movidius公司所設計的視覺運算單元（VPU），英特爾將其整合到Core Ultra處理器中，並以NPU為名，以提高行動PC的AI推論處理能力。在9月舉辦的年度創新日上，英特爾也首度揭露關於這個NPU更多技術細節和架構。

新處理器內建NPU，在AI加速推論和節電表現優於CPU，功耗也遠低於GPU

英特爾表示，內建NPU的Core Ultra處理器，能夠以更省電方式提供低功耗的AI推論能力，相較於前一代處理器，當執行AI工作負載時，可以獲得高達8倍功耗效率的改進，特別適用於處理需要持續性的AI應用或AI卸載任務。

儘管目前英特爾尚未公布這顆NPU的確切AI算力，但從英特爾公布的測試數據，能夠一窺這個NPU在AI任務方面的表現。

根據英特爾的內部測試，在使用Core Ultra筆電處理Stable Diffusion圖像生成模型推論，進行20次迭代的圖像生成任務時，分別在CPU、GPU、NPU執行，結果顯示不論在處理時間或功耗方面，NPU的表現都優於CPU，甚至功耗也遠低於GPU。例如NPU上執行所有任務需要20.7秒，僅是CPU處理時間的不到一半，同時功耗更降低了75%，只有10瓦，大大提高了能源效率，甚至優於37瓦的GPU，整體效率更提升了7.8倍。若將NPU與GPU結合使用，處理時間還能進一步縮短，僅需11.3秒。

實際處理AI任務時，英特爾表示，NPU除了將與CPU、GPU協同合作，以加速AI工作負載，還能根據任務的類型來分配適合的硬體資源處理，滿足不同應用場景的需求。例如對於執行低延遲的AI應用，需要處理輕量且單一模型的推論任務時，因為不需要複雜運算和大量記憶體，這些任務將由CPU來執行。若是需要大量平行運算和高吞吐量處理的AI任務，就會使用GPU處理。至於需要持續處理的AI任務，例如圖片生成等，可以利用低功耗的NPU來完成。藉由這種協同工作的方式，在不同AI任務之間達到效能和能耗最佳化。

翻新行動PC處理器架構，採用模組化、多晶磚設計

相較過往的行動PC處理器，Core Ultra處理器採用了許多創新的設計方式，例如這款處理器採用了新的系統單晶片（SOC）架構，也就是模組化、多晶磚（Tile）架構，由SOC、運算、繪圖、I/O等多個晶磚組合而成，同時將不同功能的CPU、GPU、NPU整合到單一的SoC晶片中。此外，還能透過一組頻寬高達128GB/s的Scalable Fabric高速通道與內部各元件，包括NPU、繪圖、影像和媒體元件及I/O晶磚等進行連接，藉此縮短資料交換的時間。

Core Ultra處理器採用Intel 4 製程（相當於台積7奈米製程），並且使用了效能核心（P-core）和效率核心（E-core）的效能混合架構來設計CPU，最高配置可達14核心（6個P-core和8個E-core），兼具有高效能和省電的特性。此外，還改善核心排程方式，達到更高CPU利用率。還搭配性能更強的GPU，每瓦的效能比前一代Iris Xe GPU高出2倍。

在這系列處理器中，還採用了Foveros先進封裝技術，透過3D堆疊，實現不同功能的晶片堆疊，不論是晶片連接密度、能源效率和傳輸速度都大幅提升不少。

電源管理採用模組及彈性架構，實現能源使用效率優化

在電力管理上，英特爾在這款處理器中建立了模組化和可擴展的 PM 電源管理架構，可提高頻寬和能源效率。在I/O介面設計上，英特爾採用新做法，取代過去僅靠中央的Ring Fabric通道進行資料交換的做法，改直接透過SOC內的SOC Fabric通道來與記憶體控制器、媒體等不同元件連接，讓資料傳輸過程減少壅塞的情況。此外，也支援了最新PCIe 5.0與 Thunderbolt 4 。

Core Ultra處理器將在12月14日推出，宏碁將率先推出該處理器的行動PC。

英特爾CEO：不只行動PC，未來伺服器CPU設計得有新變革，因應生成式AI應用需求

攝影_余至浩

生成式AI在今年掀起一股新的AI風潮，不少大型雲端業者、科技公司都在今年大規模部署GPU伺服器，用來訓練自己的LLM模型，然而，現今的晶片設計主要是針對雲端運算需求而非專門為LLM模型訓練而設計，這導致LLM模型的訓練成本非常龐大。以OpenAI的GPT-3模型為例，該模型擁有1,750億個參數，需要龐大算力，訓練成本高達165萬美元。使用GPT-3開發的ChatGPT在推論方面的成本更高，每月燒掉4千萬美元。這不僅大大增加了企業成本，對地球資源、環境永續性也可能產生影響。

在9月英特爾創新日會後一場記者會上，英特爾執行長Pat Gelsinger明白表示，未來伺服器晶片發展需要新變革，來因應生成式AI的應用需求，整合更多先進技術，包括先進電晶體技術、先進封裝技術、先進通訊及先進記憶體技術等。尤其，他特別點出，現今的晶片封裝技術是阻礙AI發展的一大瓶頸，得加以解決。

經過一段時間的研發，英特爾近日發表可用於下一代先進封裝的玻璃基板，與傳統的基板相比，這種新型基板可以大幅提升半導體封裝的電晶體數量，而且具備有省電和更好的散熱特性，可用於封裝生成式AI晶片。這項技術最快3年後開始量產。

又以先進記憶體技術為例，英特爾開始支援MCR DIMM規格的記憶體，如明年將推出的Granite Rapids處理器，就已導入這項技術，藉以增加伺服器平臺的記憶體頻寬，以滿足資料密集型的的工作負載，如LLM模型參數訓練所需的記憶體。在矽(silicon)架構上，英特爾引進3D矽堆疊設計，以提供更高的處理效能，來滿足LLM模型的運算需求。

近年來，許多企業應用程式中都開始結合AI功能，這也使處理器中提供AI支援能力變得越來越重要，Pat Gelsinger表示，這是英特爾決定要建構AI產品線的原因，除了將AI技術帶進行動PC之外，英特爾還有兩大人工智慧產品，分別是Xeon可擴展處理器和AI訓練加速器Gaudi。

英特爾在第4代Xeon可擴展處理器中開始內建了AMX進階矩陣延伸功能，使得它能夠針對在CPU上執行的AI算法進行加速，尤其在處理大型語言模型等工作負載時，搭配Xeon Max系列可提供高達20倍的加速效能。英特爾明年還將有一款主打高效能的Granite Rapids伺服器處理器將推出，將進一步提升其AI處理效能。

針對AI模型訓練，英特爾則是推出了AI訓練加速器Gaudi，目前已發展到了第二代產品，搭載更多張量處理器核心與HBM。根據測試結果，在執行多模態的BridgeTower模型的性能表現上，Gaudi2效能表現優於去年發表的Nvidia H100 GPU，有高達1.4倍。此外，下一代Gaudi3很快將在明年推出，甚至還有一款支援雙精度浮點運算（FP64）的Falcon Shores GPU未來將問世。

相關報導

熱門新聞