【AWS雲端戰略大剖析：運算應用篇】結合硬體加速與虛擬化，AWS讓公雲能承擔HPC與更多運算架構

運算能力是AWS支撐旗下所有雲端服務的重要基礎，在今年用戶大會，他們大談雲端服務如何支撐高效能運算，AWS全球基礎設施與客戶支援副總裁Peter DeSantis更以重新發明高效能運算，形容這項重大突破。（圖片來源／AWS）

原本是學術領域較常用到的高效能運算（HPC）技術，如今隨著大數據分析與人工智慧的走紅，開始日益受到重視，但過往我們可能必須在設有超級電腦的特定環境，才能發展相關的應用，然而，隨著運算技術的進步，如今我們可以透過串連多臺x86伺服器，也能支援高效能運算的各種應用。

然而，如果要在伺服器虛擬化平臺、雲端服務的環境，執行高效能運算，至今似乎仍相當少見，因為大家總會擔心在這樣的虛擬、多租戶共享的架構下，運算和I/O效能都會有折損，如何還能支撐高效能運算的使用場景。

不過，現在有公有雲業者想要打破這個刻板印象，希望吸引更多有這方面需求的用戶，也能積極考慮採用公有雲環境。舉例來說，今年AWS在年度全球用戶大會re:Invent的第一天，AWS全球基礎設施與客戶支援副總裁Peter DeSantis就以此為題，講述他們現在的環境，其實已經能夠負荷這樣的應用需求。

除了支援高效能運算的使用場景，對於非x86運算平臺與加速的支援，AWS這幾年也有不少進展。例如，在re:Invent大會第二天，AWS執行長Andy Jassy也特別介紹他們自行設計的Arm架構處理器Graviton，以及推論晶片Inferentia，以及基於這些產品而陸續推出的執行個體服務（instance）。

歷經多次變革，組建效能媲美裸機的雲端IT架構，可支撐高效能運算

為何現在AWS提供的IT基礎架構，已做到能讓一般用戶向其租用超級電腦等級環境的需求？Peter DeSantis列出了他們重新發明超級電腦架構的歷程。

首先，是建立了高速、低延遲、大容量的資料中心網路。經過6年的發展，AWS目前提供的執行個體（虛擬機器或裸機的租用服務），有了相當大的進步，不只是虛擬CPU的顆數增加了1倍多，尤其是網路規格就成長了10倍（10Gb vs. 100Gb），在整體網路負載的能力上，更是差距20倍以上。

第二，將所有虛擬化作業都卸載到AWS發展的晶片與硬體技術。這裡所指的硬體技術，主要是AWS與2015年併購的Annapurna Labs研發的Nitro Controller架構，在這樣的系統之下，EC2所有虛擬化功能都是執行在Nitro Controller，網路流量雖然轉為虛擬化，但延遲度、變化性、成本均可降到最低。目前而言，EC2的C5和C5n都是基於這個技術而成的執行個體。

第三，AWS發展出硬體最佳化、核心旁路的網路堆疊（Kernel Bypass Network Stack）。他們在2018年的re:Invent大會宣布推出的網路介面Elastic Fabric Adapter（EFA），就是一個例子。相較於原本只用TCP來進行Incast的傳送，改用EFA來處理，可縮短傳送較快者與傳送較慢者之間的傳輸時間差距。

第四，整合常用的程式庫與應用程式。以EFA而言，不只是Amazon Linux支援，也有其他軟體或應用程式介面支援，像是Ubuntu、Red Hat、SUSE、OpenFOAM、LS-DYNA、Open MPI。

最後，要有很好的使用案例經驗。Peter DeSantis也列出幾個目前正在應用的企業，主要有銷售風扇的Big Ass Fans公司，以及與AWS合作的F1賽車。

除了AWS，未來應該會有更多雲端服務業者跟進，提供執行性能更為強大的IT基礎架構，讓他們能夠支援更多原本需個別建置的大型應用場景。在此同時，發展HPC高效能運算應用，過去可能是政府或學術機構的專利，但如今企業也越來越需要去運用這方面的技術，來強化相關的分析與模擬能力。

而且，長期以來，一般公司如果要進入這樣的IT領域，原本可能需要購置一臺超級電腦系統，或是大量伺服器，來進行相關的運算，但現在已開始出現公有雲業者決定面對這樣的技術挑戰，除了看準相關的應用商機，經歷多年發展與持續改良自身基礎架構的工程，並且端出可行的架構與成果驗證，如此也就意味著，以公有雲架構，一樣能夠因應需要耗用大量運算與網路資源的應用。

正如同公有雲龍頭AWS在今年全球用戶大會第一天的宣布，他們已經準備好這樣的環境，能讓廣大用戶向他們申租相關的雲端服務，在不需購置超級電腦的情況下，也能開始著手發展高效能運算應用，大幅降低這個領域的進入門檻，未來我們應該有機會看到更多相關的應用實例，普遍用於商業環境當中。

基於自行開發的兩種晶片，推出更多Arm架構及用於推論的執行個體

關於雲端運算服務的經營，AWS已開設超過270種執行個體，而在今年re:Invent大會上，他們基於自家設計的第二代Arm處理器與推論晶片，宣布推出對應的運算服務，強調高性價比的競爭優勢。

今年AWS在運算領域的突破，不只強調可支撐高效能運算的使用，對於其他運算架構的採用，也延續過去幾年的作法，像是開始投入硬體運算晶片的開發設計，並且以此推出執行個體服務。

例如，他們在去年的re:Invent大會宣布推出Graviton處理器，就是他們所設計的Arm架構晶片，並且基於這顆處理器，在EC2旗下發展出執行個體服務A1，今年他們再接再厲，運用自行設計的第二代Arm架構處理器Graviton2，發展出三套執行個體服務，分別是M6g、C6g、R6g。相較於採用x86處理器架構的M5、R5、C5等執行個體，新推出的三套執行個體的性價比，可高出4成。

在硬體架構上，Graviton2處理器包含了64位元的Arm Neoverse核心，以及AWS設計的矽晶片，使用了7奈米製程，每顆核心在科學與高效能運算的工作負載上，可提供2倍的浮點運算效能、額外的記憶體通道、兩倍容量的每核心快取，能將記憶體存取速度提升至5倍，整體效能增長至7倍。

針對機器學習的推論，這顆處理器也提供最佳化指令集，面對壓縮工作負載，它也提供可自定的硬體加速機制。

安全性的部份，Graviton2支援DDR4記憶體全程加密，每顆核心加密效能可提升50％。

而基於AWS Graviton2的執行個體，在規格上有那些特性？最高可配備64顆 vCPU、25Gb網路，以及18Gbps頻寬的EBS雲端儲存服務，用戶可搭配不同的NVMe SSD作為執行個體（例如M6gd、C6gd、R6gd，加上d字表示搭配NVMe本機儲存），或選擇裸機型態的執行個體。相較於採用第一代Graviton的A1執行個體（16顆vCPU、10Gb網路、3.5 Gbps頻寬的EBS），這批採用Graviton2的新執行個體，運算核心提升至4倍。

另一個例子，則是AWS設計的高效能機器學習推論專用晶片Inferentia，在今年的re:Invent大會上，AWS宣布推出基於這個晶片的執行個體Inf1。Inferentia能夠針對一些需要極度成本效益的即時與批次推論應用，提供高吞吐量、低延遲性與持久的效能。

一般而言，在面對多個機器學習的框架與多種資料類型時，Inferentia可提供的運算力是128 TOPS，而每個Inf1的執行個體當中，最高可達到2,000 TOPS。若相較於EC2旗下同樣可執行推論處理的GPU執行個體G4，Inf1在進行推論作業時，可得到較低的延遲度，吞吐量能達到3倍之高，更重要的是，單位推論成本（cost-per-inference）也少了4成，AWS認為，綜觀目前提供機器學習推論的雲端服務項目當中，Inf1可說是成本最低的執行個體。

相關報導 AWS 2020雲端大戰略

熱門新聞