IBM Research上周五(10/20)發表了全新的AI晶片NorthPole,其靈感來自人類大腦的運作,號稱效能超越最先進的4奈米GPU,儘管它只能用在推論上,但研究人員認為,需要即時處理大量資料的邊緣應用可能非常適合NorthPole。此一研究成果已登上《科學》(Science)期刊。
該研究是由IBM Research類人腦運算的科學長Dharmendra Modha所主導,他曾於2014年發表模擬人腦運作的TrueNorth晶片,而NorthPole即是TrueNorth的延伸。
在傳統的半導體產業中,電腦晶片主要遵循相同的基本架構,處理單元與儲存資訊的記憶體是分開的,此一架構雖然簡化了設計與擴展,卻也因資料傳輸速度趕不上處理速度而出現了馮紐曼瓶頸(von Neumann Bottleneck),而Modha則認為,人腦是目前所知最節能的處理器,因而持續尋找以數位方式複製它的方法。
歷經8年研發的NorthPole最大的不同點在於它所有的記憶體都在晶片上,而不必額外連結記憶體,沒有了馮紐曼瓶頸,它的AI推論能力就能優於市場上的其它晶片。此外,它採用12奈米製程,於800平方毫米上安置了220億個電晶體,它擁有256個核心,於8-bit精度下每核心每個周期可執行2,048次操作,若是在4-bit或2-bit 精度下,操作次數則可翻倍。Modha說,這等於是一個晶片上擁有整個網路。
圖片來源_IBM
在架構上,NorthPole模糊了運算與記憶體之間的界線。從個別核心的角度來看,它如同記憶體接近運算(memory-near-compute),從輸入與輸出的角度來看,它又是個主動記憶體。這讓NorthPole容易整合至系統,且明顯減少了主機的負載。
IBM Research在ResNet-50模型上測試NorthPole,相較於同樣基於12奈米製程的GPU,NorthPole每秒辨識幀數的能源效率是GPU的25倍,而且不管是在延遲或運算空間的要求上,表現都優於所有主流架構,甚至凌駕基於4奈米製程的先進GPU。
不過,NorthPole的優勢同時也是它的限制,它只能輕鬆自晶片上的記憶體存取,若必須存取其它地方的資訊,所有的速度都會被削弱,因此,若要支援更大的神經網路,便必須將神經網路拆解成更小的子網路以迎合NorthPole的記憶體設計,再藉由眾多的NorthPole晶片串連這些子網路。
Modha表示,儘管NorthPole無法用來執行GPT-4,但應該可滿足許多企業所需的模型,不過,NorthPole只能用在推論上。
NorthPole在效能上的優勢代表它不需要龐大的液體冷卻系統就能運作,只需要風扇與散熱器,也可部署於狹小的空間中,目前IBM Research仍在研究NorthPole的適用領域,猜測許多需要即時處理大量資料的邊緣應用可能非常適合NorthPole,例如可成為幫助自駕車導航的裝置,讓衛星監控農業與野生動物,監控車輛及貨運以避免道路過於擁塞,讓機器人的操作更安全,或是用來偵測網路威脅等。
熱門新聞
2024-09-16
2024-09-17
2024-09-16
2024-09-13
2024-09-16
2024-09-16
2024-09-16
2024-09-16