Nvidia新一代GPU架構Turing為何比前代Pascal快6倍！Quadro兩代GPU架構大比較

【溫哥華SIGGRAPH直擊】
Nvidia發表了新一代的GPU架構Turing，也推出了採用此架構的光線追蹤GPU產品Quadro RTX。Nvidia執行長黃仁勳還現場展示了今年3月同樣的一段《星際大戰》光線追蹤特效示範短片Reflections，來呈現即時光線追蹤的光影渲染效果？先來看看這個短片得光影渲染效果，利用即時光線追蹤計算產生的陰影和反射、折射效果格外真實。3月當時利用了配備4個人工智慧專用的Volta GPU以及價值7萬美元的人工智慧工作站DGX Station來計算，但現在只需用單張新推出的光線追蹤GPU卡Quadro RTX 8000就能做到。

若以同樣專攻影像特效處理的GPU產品線Quadro來看，Nvidia執行長黃仁勳指出，全新Turing架構的效能，是前一代Quadro Pascal架構的6倍之多。

新一代Turing架構是全新的設計，除了GPU原有的SM（Streaming Multiprocessor）模組外，還包括了AI計算用的Tensor Core，以及光線追蹤用的RT Core，等於集結了Nvidia過去兩大類GPU的特性，再增加一個新的特殊核心。

但是，Turning架構內建的SM模組也採取了新設計，除了浮點運算能力，還增加了可以平行執行的整數執行器，可以同時提供16 TFLOPS（Tera Floating-point Operations Per Second），再加上同樣效能的16 TIPS（Tera Integer Operations Per Second）運算效能。

除此之外，Turing架構增加了一個全新的處理核心：專門處理光線追蹤的RT Core，用於計算光線在三角形間交互作用和不同邊界間戶，最高每秒可處理10 Giga道光線。
另外Turing架構也內建了出現在另一個人工智慧系列產品線使用的Volta GPU架構上的AI計算專用核心Tensor Core，不過，核心數比Volta產品線內建的640 Tensor Core核心數略低，Turing架構目前最多只內建了576個（RTX 6000和RTX 8000兩款），最高可以提供到125 TFLOPS的半精度浮點運算，或是500 TOPS INT4計算（每秒可以處理500兆次整數計算）。

相較於Quadro前一代採用的16奈米製程Pascal架構GPU，Turing架構GPU晶片則採用了更先進的12奈米製程，晶片面積從更大達到754平方公釐，內有186億個電晶體，前Pascal架構GPU只有118億個電晶體。在一般運算能力上，Turing架構GPU可提供到16 TFLOPS計算力，也遠高於Pascal架構GPU的13 TFLOPS計算能力。記憶體支援也有很大的差異，Pascal架構的Quadro產品，可支援到24GB的GDDR5記憶體（時脈10GHz），但Turing架構GPU可支援到更高速的GDDR6記憶體（時脈14Ghz），單卡容量更是高達48GB。透過NVLink串連雙GPU卡，記憶體還可以再倍增，例如串接兩張RTX 8000最大可提供96GB的全域照明計算（Global Illumination）。

同樣用星際大戰短片的光影渲染來比較，同樣效果，黃仁勳指出，採用Pascal架構的GPU需要308毫秒，但Turing架構GPU搭配即將推出的Deep Learning Anti-Aliasing (DLAA)技術，只需要45毫秒，等於Turing架構的光影渲染速度可以達到Pascal架構的6倍。

為了支援RTX GPU，Nvidia在軟體層上提供了多項新工具和API，包括了光柵化（Rasterization）計算API、光線追蹤API、CUDA運算API、Tensor Core用的AI API等，另外OptiX、DXR、Vulkan也可以支援新的Turing架構光線追蹤加速功能，Nvidia還正式將材質定義語言MDL開源釋出，另外RTX也支援Pixar的開發語言USD（Universal Scene Description）。開發者只要呼叫API，就可以利用RTX GPU的光線追蹤核心來計算。

熱門新聞