高功耗資料中心時代來臨

關於電腦運算技術的發展，在不同時期，以及身處的多種應用領域，可能會有完全不一樣的重點特色。以資料中心伺服器設備而言，主要著重的是各種層面的效能提升，談到節能的落實，大家關注的會是能源使用效益，而非一味地追求低耗電而犧牲效能，而且，就整體環境的運作上，由於以氣冷為主要散熱方式，再加上伺服器處理器的工作溫度不能過高，因此，在整體能源使用成本上，也會因為機房需維持在一定的低溫狀態下，而須持續承擔空調系統長期持續運轉之下衍生的電費、水費，以及設備維護費用。

然而，隨著處理器技術的不斷改良，現在伺服器CPU所能忍受的溫度日漸提升，使得機房能在提高環境溫度的狀態下，減低冷卻成本。或許因為能在更高的工作溫度來使用，市面上，兩大主要伺服器處理器平臺這幾年新推出的產品改款，其熱設計功耗（TCP）的規格，也有明顯增高的狀況。

以英特爾Xeon Scalable系列的伺服器處理器為例，第一代產品的熱設計功耗最高為205瓦（2款），最低為70瓦（1款）；第二代產品最高為400瓦（1款），其次有350瓦（1款）、250瓦（2款），之後則是205瓦（9款），最低為70瓦（1款）；第三代產品最高為270瓦（3款），往下依序為265瓦（1款）、250瓦（4款）、240瓦（1款）、235瓦（1款）、230瓦（1款）、225瓦（3款），之後是205瓦（10款），最低為105瓦（2款）。

而在AMD EPYC系列處理器的熱設計功耗，第一代產品最高為200瓦，最低為120瓦；第二代產品最高為280瓦，接著是240瓦、225瓦、200瓦，最低為120瓦；第三代產品最高維持在280瓦，最低為155瓦。

從上述規格來看，伺服器處理器熱設計功耗的增高已是大勢所趨，使得有些伺服器廠商為此重新調整機箱內部元件排列設計，甚至開始積極投入液態冷卻技術的搭配。

在伺服器的領域，除了處理器走向高功耗，隨著機器學習應用需求暴增，搭配繪圖處理器（GPU）的伺服器也成為市場焦點，而且，GPU的熱設計功耗似乎也和CPU一樣，隨著功能與效能的提升需求，呈現水漲船高的態勢。

以Nvidia的資料中心GPU為例，同樣都是SXM形式的產品，2016年推出的P100與2017年登場的V100的耗電量，最高為300瓦；2020年發表的A100，耗電量最高為400瓦；在今年3月底GTC大會期間最新推出的H100，最高耗電量甚至飆升至700瓦。

至於前兩年重新進入資料中心GPU市場的AMD，雖然產品仍在持續擴增，但也可以看得出耗電量節節高升的態勢。例如，在2020年發表的PCIe介面卡產品Instinct MI100，熱設計功耗最高為300瓦；2021年推出的Instinct MI200系列，當中包含了採用OAM外形的MI250X或MI250，耗電量為500瓦，最高可到560瓦。

除了CPU與GPU，為了提升特定應用程式或服務的執行效能，伺服器搭配各種加速運算卡的機會也越來越多，像是近期備受矚目的資料處理器（DPU）、智慧型網路卡（SmartNIC），以及專門用來提升AI推論處理、AI訓練處理的加速卡、運算型儲存裝置（Computational Storage Device），隨著這些元件所承擔的運算工作日益吃重，接踵而來的耗電量、散熱需求增加狀況，勢必也將浮上檯面，成為企業在考量IT整體能源使用效率時，所無法忽視的因素。

總體而言，要推動企業IT的發展，對於運算、儲存、網路等多種層面的存取效能需求，固然呈現與日俱增的態勢，在此同時，企業兼顧環境保護的要求來減緩全球氣候劇烈變化的壓力，會越來越大，我們當然不希望屆時被迫犧牲自身的發展規模與速度，來達成現實世界的種種要求。

也許破解這種困境的方法，還是要從推動更多以環境永續為本的技術變革來著手。期盼各大IT廠商在不斷追求突破的同時，也能協助所有用戶找出這個問題的答案。

高功耗資料中心時代來臨

專欄作者

熱門新聞