IBM發表模擬人類大腦運作，號稱效能超越4奈米GPU的AI推論晶片NorthPole

IBM Research上周五（10/20）發表了全新的AI晶片NorthPole，其靈感來自人類大腦的運作，號稱效能超越最先進的4奈米GPU，儘管它只能用在推論上，但研究人員認為，需要即時處理大量資料的邊緣應用可能非常適合NorthPole。此一研究成果已登上《科學》（Science）期刊。

該研究是由IBM Research類人腦運算的科學長Dharmendra Modha所主導，他曾於2014年發表模擬人腦運作的TrueNorth晶片，而NorthPole即是TrueNorth的延伸。

在傳統的半導體產業中，電腦晶片主要遵循相同的基本架構，處理單元與儲存資訊的記憶體是分開的，此一架構雖然簡化了設計與擴展，卻也因資料傳輸速度趕不上處理速度而出現了馮紐曼瓶頸（von Neumann Bottleneck），而Modha則認為，人腦是目前所知最節能的處理器，因而持續尋找以數位方式複製它的方法。

歷經8年研發的NorthPole最大的不同點在於它所有的記憶體都在晶片上，而不必額外連結記憶體，沒有了馮紐曼瓶頸，它的AI推論能力就能優於市場上的其它晶片。此外，它採用12奈米製程，於800平方毫米上安置了220億個電晶體，它擁有256個核心，於8-bit精度下每核心每個周期可執行2,048次操作，若是在4-bit或2-bit 精度下，操作次數則可翻倍。Modha說，這等於是一個晶片上擁有整個網路。

圖片來源_IBM

在架構上，NorthPole模糊了運算與記憶體之間的界線。從個別核心的角度來看，它如同記憶體接近運算（memory-near-compute），從輸入與輸出的角度來看，它又是個主動記憶體。這讓NorthPole容易整合至系統，且明顯減少了主機的負載。

IBM Research在ResNet-50模型上測試NorthPole，相較於同樣基於12奈米製程的GPU，NorthPole每秒辨識幀數的能源效率是GPU的25倍，而且不管是在延遲或運算空間的要求上，表現都優於所有主流架構，甚至凌駕基於4奈米製程的先進GPU。

不過，NorthPole的優勢同時也是它的限制，它只能輕鬆自晶片上的記憶體存取，若必須存取其它地方的資訊，所有的速度都會被削弱，因此，若要支援更大的神經網路，便必須將神經網路拆解成更小的子網路以迎合NorthPole的記憶體設計，再藉由眾多的NorthPole晶片串連這些子網路。

Modha表示，儘管NorthPole無法用來執行GPT-4，但應該可滿足許多企業所需的模型，不過，NorthPole只能用在推論上。

NorthPole在效能上的優勢代表它不需要龐大的液體冷卻系統就能運作，只需要風扇與散熱器，也可部署於狹小的空間中，目前IBM Research仍在研究NorthPole的適用領域，猜測許多需要即時處理大量資料的邊緣應用可能非常適合NorthPole，例如可成為幫助自駕車導航的裝置，讓衛星監控農業與野生動物，監控車輛及貨運以避免道路過於擁塞，讓機器人的操作更安全，或是用來偵測網路威脅等。

熱門新聞