Intel副總裁暨AI產品部總經理Naveen Rao手拿NNP-T晶片,還找來百度站臺,預計明年投入NNP的商用生產。

圖片來源: 

攝影/翁芊儒

Intel在2016年併購了AI新創Nervana後,就開始投入神經網絡處理器(NNP)的研發,直到去年5月終於正式發表了首款NNP,今年8月也更近一步揭露了訓練用與推論用晶片的相關規格,預計將在明年商用上市。而Intel在本月的AI Summit 2019活動上,也展出NNP的實際運算效能,並找來合作夥伴臉書與百度站臺,分享目前的使用情形。

Nervana NNP是用於雲端資料中心的ASIC晶片,又分為訓練晶片(NNP-T)與推論晶片(NNP-I)。

左圖為NNP-T、右圖為NNP-I。

NNP-T的軟硬體架構

NNP-T代號Spring Crest,採用台積電16奈米製程(CLN16FF+)及CoWoS(Chip on Wafer on Substrate)封裝技術所製造,整體零件包含270億個矽晶體、多達24個Tensor核心處理叢集(Tensor Process Cluster,TPC)、4個8GB的高頻寬記憶體(High Bandwith Memory,HBM)、60MB的片上分散式記憶體(on-chip distributed memory),並以2.5D異質整合技術來封裝。

從右邊架構圖可見,NNP-T架構主要有24個Tensor處理叢集,4個高頻寬記憶體,共有16個雙向頻寬傳輸連結(Inter-Chip Links,ICL)。

在效能表現上,TPC能在1.1GHz的頻率下達到119 TOPS,功耗則取決於空氣冷卻的情況,約為150到250瓦。且為了降低訓練模型的體積,來減少儲存空間與頻寬,TPC支援了bfloat16(BF16)浮點數格式,Intel宣稱,經過BF16最佳化之後,在幾乎不損失模型精度的情況下,可將深度學習模型壓縮至原先的一半,但仍達到與單精度浮點數格式(FP32)相同的效能表現。

而且,除了NNP-T,Intel也要在下一代Xeon處理器家族Cooper Lake中,以Deep Learning Boost為基礎來內建BF16指令集,讓CPU處理器也能執行深度學習模型的訓練工作。Cooper Lake處理器也預計在明年上半年上市。今年4月先發表的第二代處理器家族Cascade Lake,其內建的DL Boost只能用於加速模型的推論工作。

Intel在下一代Xeon處理器家族Cooper Lake中內建BF16指令集,上圖為運用FP32與BF16兩種浮點數格式,來訓練Resnet-50的模型準確率比較:兩者不相上下,但BF16能降低運算資源的消耗。

除了硬體,Intel也釋出NNP-T搭配的軟體堆疊工具,上層支援了TensorFlow、PyTorch、PaddlePaddle等深度學習框架,以及Intel自家開源的深度學習編譯器nGraph,底層軟體則包括深度學習運算與通訊程式集MKL(Math Kernel Library),也基於Tensor核心釋出彈性、可編程的指令集架構(Instruction Set Architecture,ISA),讓NNP-T具有低程度的可程式化能力(Low-level programmability)。

480張NNP-T互連的關鍵:雙向頻寬傳輸的晶片內連結(ICL)

Intel在AI Summit中,展示了由480張NNP-T加速卡集合而成的超級電腦,這臺超級電腦由10個機架所串聯,一排機架有6個機箱,一個機箱又有8張加速卡。而現場也展示了運用32張NNP-T加速卡,來執行影像辨識模型ResNet-50的訓練成效,大約在70個epochs中就能達到了95%正確率。

這臺超級電腦由10個機架所串聯,一排機架有6個機箱。

一個機箱有8張加速卡。

Intel表示,之所以能擴充至480個節點互連來執行高效能運算,是因為每個NNP-T都具備16組112Gbps、共3.58Tbps的雙向頻寬傳輸的晶片內連結(Inter-Chip Links,ICL),且實現了完全可編程的路由器,讓核心運算單元能直接將數據傳輸到連結中,而不佔用晶片內HBM的儲存資源,來達到更低的延遲與更高的效能,最多可以擴充到1024個節點,也能用Kubernetes來調度運算資源。

此外,NNP-T也有PCIe及OCP開放加速模組(Open Accelerator Module,OAM)兩種主機板規格,適用的解決方案從小型伺服器、多機箱式的結構(inter-chassis fabric)到大型機櫃(POD)的硬體架構等,能根據需求來部署建置。

百度也分享了與Intel在軟硬體方面的合作。硬體方面,百度作為早期採用者,已經部署了NNP-T作為AI超級電腦X-Man 4.0的硬體建設,來執行部分運算工作,其AI研究員Kenneth Church也表示,採用了NNP-T的X-Man 4.0,將成為世界上第一個開源的加速基礎建設(Open Accelerator Infrastructure,OAI)架構,且百度也計劃將擴大規模部署更多NNP-T到更多基礎建設中。

在軟體部分,NNP-T已經支援了中國已經廣泛使用的深度學習框架Paddle Paddle,根據Kenneth Church指出,該框架的採用人數已經超過150萬開發者,且對於NLP的模型開發尤為重要。

NNP-I的軟硬體架構

NNP-I的代號則是Spring Hill,是以Intel 10nm製程的Ice Lake處理器為基礎,並以12個推論運算引擎(Inference Compute Engine,ICE),搭配兩個Sunny Cove架構的x86內核,來加速推論運算。Intel在先前就曾宣稱,NNP-I的推論效能最高可達4.8TOPs/W,功耗則在10W到50W之間,且具有高度程式化能力,也支援多種深度學習框架。

NNP-I以12個推論運算引擎搭配兩個Sunny Cove架構的x86內核,做為主要運算架構。

此次Intel AI產品部副總裁Gadi Singer在AI Summit會後受訪時指出,NNP-I的特色有三,一是低功耗、二是可支援多元的深度學習應用、三是支援多種軟體。他首先提到,NNP-I的低功耗使其能彈性適用於不同規模的解決方案,比如高密度的硬體部署,而Intel為了減少耗能,除了在其中加入了全整合式電壓調節模組(FIVR)來進行功率管理,也設計了75MB的片上(on-die)SRAM,來減少數據在CPU與記憶體間的移動,「因為乘法與加法運算佔耗能的一小部分而已,降低數據搬運才能達到更低功耗。」

NNP-I另一個特色是能支援多元深度學習的應用,因為Sunny Cove架構的核心具有AVX512指令集,其中的向量神經網絡指令集(Vector Neural Network Instruction,VNNI),使其能適用於多種深度學習的工作負載。Gadi Singer表示,NNP-I必須能快速支援各類深度學習演算法,尤其AI演算法的開發到部署可能不到一年,比如去年開源的NLP模型BERT,幾乎在一年之內就已經普及,不同於其他領域可能需要5-7年才能有效運用新方法去解決問題。

NNP-I搭配的軟體堆疊,支援的深度學習框架包括Tensorflow、PyTorch、Caffe2、開放神經網路交換格式ONNX,以及Intel自家的開源軟體工具集OpenVINO、深度學習編譯器nGraph等,且與NNP-T相同,均具有低程度的可程式化能力。

此外,NNP-I也提供兩種加速卡格式,分別是M.2卡NNP I-1100及PCIe卡NNP I-1300。M.2卡的最大功耗(Thermal Design Power,TDP)是12瓦,效能可達到50 TOPS,而兩張PCIe卡的最大功耗是75瓦,效能則可達170 TOPS。

視NVIDIA T4為競爭對手,NNP-I要搶進推論運算市場

AI Summit的活動上,Intel展示了NNP-I與Nvidia T4的效能比較, Intel宣稱,在硬體架構上,Nvidia T4在4U機櫃中只能放置20張卡,而NNP-I可在1U機櫃中放置多達32張卡;若以效能表現來看,在兩處理器均負載影像辨識Nesnet-50工作的情況下,NNP-I能以不到Nvidia T4 2倍的加速卡數量,展現出Nvidia T4 3.68倍效能。

32張NNP-I實際運作情形。

NNP-I加速卡。

而且,社交媒體巨頭臉書也開始在用NNP-I了,雖然臉書並無正面指出在NNP-I上執行了哪些推論工作,但也表示,NNP-I的軟體堆疊確實協助臉書最佳化了許多模型效能,包括推薦系統、電腦視覺、翻譯等推論工作。臉書說明,無論是用戶上傳照片自動tag朋友的功能、一天超過5億6千次的語言翻譯、貼文推薦系統、或是自動移除假帳號等,都需要應用大量AI。

熱門新聞

Advertisement