
人工智慧浪潮帶來的資料中心與邊緣運算加速運算市場商機,不讓Nvidia、Arm、Intel、AMD等廠商專美於前,高通(Qualcomm)發展AI推論加速卡Cloud AI 100,在2020年9月首批產品出貨,當時供應3種組態:熱設計功耗75瓦、INT8整數運算400 TOPS的半高半長PCIe介面卡,熱設計功耗25瓦、INT8整數運算200 TOPS的雙M.2介面卡,以及熱設計功耗15瓦、INT8整數運算70 TOPS的雙M.2e介面卡,高通預計同年10月供應基於此產品而成的邊緣運算開發套件Qualcomm Cloud AI 100 Edge Development Kit。
之後幾年,MLCommons皆持續公告Qualcomm Cloud AI 100的效能測試結果,而且,是專攻AI推論處理效能呈現的MLPerf Inference(MLPerf Inference Edge與MLPerf Inference Datacenter的1.0版、1.1版、2.0版、2.1版、3.0版、3.1版、4.0版),這些效能測試結果不只來自高通,也包括多家系統廠商。
以MLPerf Inference Datacenter為例,像是伺服器廠商技嘉(R282-Z93、G292-Z43)、Dell(PowerEdge R7515)、HPE(ProLiant DL385 Gen10 Plus v2)、聯想(ThinkSystem SR670 V2),以及率先採用這款AI加速卡、提供執行個體服務的公有雲業者AWS(Amazon EC2 DL2q),都提交搭配Qualcomm Cloud AI 100的效能測試結果。
值得注意的是,從2022年4月發表的MLPerf Inference 2.0開始,我們看到廠商送測的Qualcomm Cloud AI 100效能測試結果當中,出現搭配Pro款式的系統,之後出現搭配Standard款式的系統;而在2023年4月公布的MLPerf Inference 4.0,Qualcomm Cloud AI 100的效能測試結果,首度出現搭配Ultra款式的系統(聯想ThinkSystem SR670 V2)。
頂級版本上陣,提供更強大的運算效能
半年後,高通正式推出Qualcomm Cloud AI 100 Ultra,標榜這款產品採用該公司設計的AI核心,整張加速卡內建64顆AI核心,INT8整數運算可達到870 TOPS,相較於上一代產品(應指雙M.2版本的Cloud AI 100),可提供4倍的效能。
而且,企業與組織可透過熱設計功耗150瓦、內建64顆AI核心的單張Qualcomm Cloud AI 100 Ultra配置,支援1千億個參數的AI模型處理,也能以兩張這樣的高性能加速卡,支援1,750億個參數的AI模型處理;或是透過更多張加速卡的設置,搭配高通建構的AI軟體技術堆疊Qualcomm AI Stack,以及AI軟體開發套件Qualcomm Cloud AI SDK,支援更大規模的AI模型處理。
針對更大規模的AI模型處理需求,Qualcomm Cloud AI 100 Ultra整張加速卡配置128GB容量的LPDDR4x記憶體,DDR記憶體存取頻寬為548 GB/s,單就晶片而言,當中也設置576 MB容量的SRAM記憶體,因此,能夠更輕鬆地支撐巨型AI模型與資料集的使用。相較之下,Qualcomm Cloud AI 100的Standard與Pro配置的DDR記憶體容量,各為16 GB與32 GB,DDR記憶體頻寬皆為137 GB/s,至於每顆晶片的SRAM記憶體,容量各為126 MB與144 MB。
關於伺服器廠商的採用上,HPE率先宣布將支援Qualcomm Cloud AI 100 Ultra,可用於ProLiant Gen11世代伺服器,以單臺2U尺寸伺服器而言,最多能搭載8張Qualcomm Cloud AI 100 Ultra,以AI加速器最佳化技術,因應自然語言處理(NLP)等生成式AI工作負載,預計2024年上半提供HPE整合的這類產品,並且公布售價(編按:根據HPE網站公布資訊,目前主推的Qualcomm Cloud AI 100應該仍是第一代產品)。
另一個Qualcomm Cloud AI 100 Ultra的特色,在於具有優異的性價比。高通表示,比起其他廠商的產品,Qualcomm Cloud AI 100 Ultra用於大型語言模型、自然語言處理,以及電腦視覺類型的工作負載,就單位總體成本而言,可提供2至5倍的效能,帶來更大的投資報酬率。
採用多核心架構,內建16顆AI核心與3種網路單晶片
Cloud AI 100何以能夠具備上述效益?根據高通公布的使用者指南,可看到更多細部技術架構的組成。單就Cloud AI 100 Ultra而言,每張加速卡包含4顆系統單晶片(SoC)與1個PCIe交換器,這兩個元件之間是透過PCIe 4.0 x8介面連接,而加速卡與伺服器連接介面則是PCIe 4.0 x16。
至於Cloud AI 100 Standard與Cloud AI Pro,每張加速卡包含1顆系統單晶片,而加速卡與連接的伺服器介面則是PCIe 4.0 x8。
以每顆系統單晶片而言,Cloud AI 100採用多核心架構,高通強調這是專為雲端服務深度學習推論處理而特別組建的,內建16個第7代AI核心,以及144 MB記憶體、8個PCIe 4.0通道(PCIe 4.0 x8,連接伺服器CPU與其他周邊裝置),而在運算效能的規格上,INT8整數運算可達400 TOPS以上,FP16浮點運算為200 TOPS以上。這當中的晶片內部記憶體子系統,會連接晶片外部的LPDDR4X記憶體子系統(包含4個64位元的記憶體存取通道,記憶體頻寬為136 GB/s,記憶體容量最大為32 GB)。
AI核心與所有的內部子系統之間,則是透過高通設計的網路單晶片(NoC)連接,資料存取頻寬為186 GB/s,當中的I/O作法可支援多點傳送(multicast),以及AI核心的同步處理。
Cloud AI 100在此採用的網路單晶片分為3種:運算類型的網路單晶片(Compute NoC),負責連接AI核心與PCIe介面;記憶體類型的網路單晶片(Memory NoC),負責連接AI核心與DDR記憶體,組態設定類型的網路單晶片(Configuration NoC),負責用於系統開機啟動與硬體設定。
至於AI核心,是高通歷經超過十年研發的第7代技術,實作分離處理不同考量的架構,運用3種運算單元組合而成,因應張量(tensor)、向量(vector)、純量(scalar)的處理。
以張量處理器而言,高通實作兩個2D的乘積累加運算陣列(MAC array),其中一個是針對8位元整數運算(INT8),另一個是針對16位元浮點運算(FP16),每個運算週期可分別執行8,192個與4,096個處理。
向量處理器的部分,高通實作700個以上的指令集,可用於AI、內容驗證、影像處理,支援8或16位元整數運算,以及16或32位元精度的浮點運算,每個運算週期可分別執行512個與256個乘積累加運算處理。
至於純量處理器,高通採用4路的超長指令字架構(VLIW),支援6個硬體執行緒,每個執行緒會就近搭配純量暫存器檔案、指令、資料快取,並且提供相同的整數與浮點運算支援。
高通推出AI加速整合應用設備,號召系統廠商共同拓展市場
到了2025年1月的全球年度消費電子展(CES),Qualcomm Cloud AI又向市場展現新的應用形式!高通宣布推出整合應用設備,名為Qualcomm AI On-Prem Appliance Solution,當中搭配硬體加速卡Qualcomm Cloud AI,以及橫跨邊緣至雲端環境使用的AI推論軟體與服務套餐Qualcomm AI Inference Suite。
就整臺應用設備而言,目前有兩家廠商提供這類解決方案,一家是聯想,以2021年底推出的邊緣伺服器SE450,以及2023年7月推出的SE360 V2,作為硬體設備平臺,另一家是宜鼎集團子公司安提國際(Aetina),以2024年上半發表的邊緣AI工作站MegaEdge PCIe系列(AIP-FR68、AIP-KQ67),作為硬體設備平臺。
若只看硬體加速卡,高通也首度列出Qualcomm Cloud AI 100現行3種款式的規格資訊比較。以目前而言,我們只能從該公司的網站看到Cloud AI Ultra產品簡介,
不過,也可以找到一份文件提及Cloud AI Pro、Cloud AI Standard,以及第一代三種款式比較的規格。
透過Qualcomm AI On-Prem Appliance Solution這樣的產品組合,高通認為,可協助中小企業、大型企業或不同產業、組織,在他們維運與管理的內部環境,建置自行設計或套裝的AI應用系統,藉此大大節省營運成本與總體支出,而不需向第三方業者承租AI基礎架構。
產品資訊
Qualcomm Cloud AI 100 Ultra
●原廠:Qualcomm
●建議售價:廠商未提供
●I/O介面:PCIe 4.0 x16
●外形:全高3/4長PCIe介面卡
●運算核心:4顆系統單晶片(64顆AI核心)
●AI核心之間頻寬:186 GB/s
●晶片製程:7奈米
●搭配記憶體:裸晶內建SRAM記憶體576 MB(每顆AI核心搭配9 MB),介面卡內建DRAM記憶體128 GB LPR4x,頻寬為548 GB/s
●SRAM記憶體容量:576 MB
●可處理資料型別:INT8、FP16、FP32、BF16
●運算效能:INT8為870 TOPS,FP16為288 TFLOPS
●耗電量:150瓦
【註:規格與價格由廠商提供,因時有異動,正確資訊請洽廠商】