攝影/余至浩

今年以ChatGPT為首的生成式AI應用的出現,掀起了一波新的AI浪潮,甚至進一步跨入企業應用領域,開始與各種生產力工具相結合,例如微軟、GCP兩大生產力平臺業者今年紛紛將生成式AI技術整合到自家生產力產品中,例如微軟在M365中推出專用生成式AI助手Copilot,GCP則在Workspace服務中推出Duet AI,提供企業使用。

可是,這類的生成式AI應用,背後使用的基礎模型,通常都是參數量動輒數千億的大模型,不論是Copilot使用的GPT- 3.5或GPT-4模型,還是Duet AI所採用的PaLM 2模型,皆需要依賴龐大運算資源處理,目前僅有少數跨國雲端業者或大型科技公司才有辦法自行建置,不是任何一家企業都能負擔得起。

不過,如果參數量沒大模型那麼多的小模型,例如Meta的Llama 2 7b基礎模型,或是Whisper語音轉文字模型,其參數約70億,現在已經有企業或開發者將這些模型部署到性能較強的PC筆電上執行。

企業在筆電上執行生成式AI應用的好處,除了考慮到隱私,避免將內部機敏資料上傳到雲端,降低資料外洩的風險,企業也能結合現有的MDM等管理工具,加強對於生成式AI使用的管控,還能讓模型輸出更貼近使用者身處的情境。此外,因為資料不需要傳輸雲端,直接在本地裝置上就能處理,反應能更即時,還能夠支援離線環境中的使用。

但更重要的考量是成本。儘管目前生成式AI的模型訓練仍然在雲端中進行,但是將所有推論任務都在雲端執行成本相當高,如果筆電具備有足夠的運算能力,那麼在本地處理這些任務,可以幫助企業有效節省成本。

可是,現今的行動PC處理器架構主要針對文書處理、影音娛樂及遊戲需求而非專為AI或生成式AI應用所設計,使得執行這類應用時,通常需要占用大量GPU運算資源,也相當耗電,不只無法持續性的使用,也容易影響到其他應用的使用體驗可能因此變得不夠流暢,而造成應用執行速度變慢,甚至無法使用。這成了在行動PC上實現生成式AI應用所面臨的挑戰。

在9月底舉行的創新日上,英特爾執行長Pat Gelsinger首度公開展示了第一款整合AI加速引擎NPU,代號為Meteor Lake的行動PC處理器Core Ultra(如上圖右),他更明白表示,PC正進到下一個時代,即AI PC時代。圖片來源/英特爾

英特爾宣告PC正進到下一個時代,即AI PC時代

為了應對此挑戰,這兩年來,主要的硬體廠開始在行動PC處理器架構中整合名為神經處理單元(Neural Processing Unit,NPU)的AI加速引擎。不同於傳統的CPU或GPU,NPU是專為加速AI應用而設計,能讓處理器以更節能的方式在筆電上執行AI運算任務,以滿足長時間或連續使用的生成式AI應用需求,同時還能確保其工作負載在筆電中順暢地執行,如同執行一般生產力應用,降低對其他應用程式使用的影響。

英特爾今年新的AI處理器戰略正是瞄準了企業行動PC的AI應用需求,而發表了首款整合NPU的行動PC處理器,來因應不斷增長的AI應用所需,特別是生成式AI相關應用。這款新處理器中還結合許多新技術,包括採用了Intel 4製程節點、3D高效混合架構,以及Foveros封裝技術的小晶片設計等。

蘋果、AMD相繼投入行動PC的AI加速引擎的研發

在9月底舉行的英特爾創新日開幕演說中,英特爾執行長Pat Gelsinger明白表示:「AI正從根本上重塑科學和許多領域,帶來新的應用、新的體驗、生產力和創造力,更開創了PC的下一個時代,即AI PC時代。」他甚至以「技術創新的重大變革時刻」來形容AI PC帶動的AI應用浪潮,正如同20年前英特爾Centrino行動運算平臺出現,使Wi-Fi進一步普及,建構出如今的無線網路世界。

不過,英特爾不是第一家整合NPU的行動PC廠商。早在2020年,蘋果新一代MacBook筆電推出時,就已經將一個可針對AI任務進行優化的NPU,稱為Neural Engine,整合到其自行研發的Apple M1晶片中,能提供媲美GPU的AI算力,但更省電。隨後推出的M2晶片,相較於M1在AI處理性能方面高出40%以上,達到15.8 TOPS。甚至在最新的M2 Ultra處理器中,更擁有高達31.6 TOPS的算力,可以處理更複雜的AI或生成式AI應用。

以OpenAI的Whisper語音轉文字為例,一段約40分鐘的中文錄音檔使用相同的small模型(參數2.4億)進行轉換時,在M2 MacBook上執行僅需數分鐘以內就能完成轉換,相較之下,若採用Intel Core i5的MacBook則需要長達兩小時才能完成轉換作業。反映出結合NPU設計的蘋果Arm處理器,在處理生成式AI工作負載的性能,比一般x86處理器表現更好。

內建NPU的x86平臺處理器今年開始落地PC,兩大x86處理器大廠相繼推出專用NPU,來加速AI技術落地PC。AMD率先在今年上半發表了第一款整合NPU的Ryzen 7040系列處理器。在這款處理器中,他們採用XDNA加速器技術,將NPU整合到單一處理器中,可以提供10 TOPS的AI算力,可用於語音辨識、影像處理等推論任務。

今年9月,英特爾正式宣布將搶攻行動PC的生成式AI應用市場,發布了一款代號為Meteor Lake的行動PC處理器Core Ultra,這款處理器不僅兼具低功耗和高效能的特性,還是首款內建NPU可加速AI推論的AI應用處理器,同時也是英特爾首款主打AI PC體驗的處理器產品。

Pat Gelsinger直言,AI PC將會從根本上改變個人電腦的使用體驗,「隨著這款處理器的推出,個人電腦正式進到AI PC的時代。」他說。從Pat Gelsinger在會中說的這番話,也揭露了英特爾未來行動PC處理器的AI戰略,將聚焦行動PC上的AI應用,甚至要讓AI變成未來PC上的主流應用之一。

在英特爾負責加速運算系統與繪圖的英特爾AXG事業群總經理Deepak Patil指出,過去英特爾處理器在行動PC的AI應用方面,主要集中在增強影音串流、協作、音效處理、內容及遊戲特效等領域,而新推出的行動PC處理器,將能把AI擴展到更多應用領域、整合更多生產力工具、內容創作應用,以及更多的AI語音助手功能。

不過,只靠英特爾處理器還不夠,微軟的Windows也要必須提供支援,才能真正實現AI PC的應用。

微軟新作業系統將與行動PC的AI硬體緊密結合

早在2018年,微軟在新推出的Windows 10作業系統中就已內建Windows ML功能,不僅讓開發者更容易在Windows應用程式中開發ML的應用,同時也提供英特爾視覺處理單元VPU (NPU的前身)的硬體支援,優化其ML工作負載。

微軟最近在Windows 11推出時,特別強化了對於這款新一代行動PC處理器的支援,未來,Windows 11筆電可以利用NPU加速,提高其生成式AI助手Copilot的性能,特別是在內容生成和問題回答處理等方面,可以提供更高的處理效率和回應速度,從而提升用戶體驗。微軟更預告,下一代Windows版本將與英特爾處理器更緊密整合。

英特爾現場展示了搭載Core Ultra新處理器在行動PC上的AI應用,例如在筆電的音訊編輯軟體中,利用AI生成類似美國樂壇天后泰勒絲(Taylor Swift)風格的歌曲。此外,還展示了在下一代Lunar Lake處理器平臺上執行Stable Diffusion模型的圖片生成功能。英特爾強調,這些AI應用都能夠在離線環境的PC上使用。圖片來源/英特爾

根據英特爾的內部測試,執行Stable Diffusion的圖像生成任務時,如果在處理器中使用NPU,無論在反應時間上和功耗方面都優於不使用的情況。例如,當完全使用CPU處理任務時,需要花費43.3秒,功耗達40瓦,然而,如果採用NPU處理,僅用原先不到一半時間,20.7秒就能完成,功耗降低75%,只需10瓦,也優於GPU的37瓦,整體效率提升了7.8倍。若將NPU與 GPU結合使用,將能進一步縮短處理時間,僅需11.3秒。圖片來源/英特爾

借助NPU,用筆電進行圖像生成速度比通用CPU更快更省電

英特爾表示,這款全新架構的處理器同時將CPU、GPU、NPU整合到單一的SOC系統單晶片中,未來將分別負責處理不同類型的AI任務。例如,在執行低延遲的AI應用,需要處理輕量且單一模型的推論,因為不需要複雜運算和大記憶體容量,這些任務就會由CPU來執行,若是需要大量平行運算和高吞吐量處理的AI任務,就會使用GPU。至於需要持續處理的AI任務,例如圖片生成等,就能使用低功耗的NPU來完成。

英特爾強調,借助NPU的加速AI推論功能,將使企業可以透過行動PC在本地處理小模型的生成式AI應用,同時能夠與雲端大模型進行彼此協作。例如當用戶在筆電裝置上輸入一段提示文字或上傳一張照片來進行生成時,對機敏性較高或者是低延遲的任務,將會在筆電的模型上進行推論,而對於需要更高精度輸出結果或需處理分布在全球大量資料的任務,仍可透過雲端模型執行。

根據英特爾的內部測試,在執行Stable Diffusion的圖像生成任務時,當使用NPU時,無論是在處理時間,還是功耗方面表現都優於不使用的情況,整體效率更提升了7.8倍。

英特爾現場也實際展示了搭載Core Ultra處理器的AI PC筆電在生成式AI相關應用,例如在筆電的音訊編輯軟體中,利用AI自動生成類似美國樂壇天后泰勒絲(Taylor Swift)風格的歌曲,此外,還展示了在下一代Lunar Lake處理器平臺上執行Stable diffusion模型的圖片生成功能。英特爾強調,這些AI應用都能夠在離線環境的行動PC平臺使用。

英特爾這款新處理器預計將在12月14日正式推出,首批搭載該處理器的AI PC筆電的廠商,包括了宏碁等。

宏碁在現場展示用Core Ultra筆電執行圖像生成模型,可以在螢幕桌面中快速生成動態立體的太空人桌布。此外,宏碁還釋出Acer Parallax View工具,讓使用者可以自行在筆電中為圖像增加各種動作的效果,或是利用筆電前置鏡頭來追蹤使用者的臉部輪廓,建立自己的3D人臉。

除了即將推出的Core Ultra處理器之外,英特爾公開未來幾年AI PC處理器平臺的藍圖,提前透露了Meteor Lake下一代處理器的代號是Arrow Lake,將使用Intel 20A先進製程技術。此外,還有兩款新產品,代號為Lunar Lake和Panther Lake處理器,預計將在2025年之前推出。這兩款產品皆採用Intel的18A製程。

從英特爾最新提出對於可擴充及簡化AI基礎架構的分類,也能夠反映出不同型態的處理器能夠支援處理的推論模型參數的規模。

以英特爾AI PC筆電為例,目前主要適合處理參數小於10億的小模型的推論任務,如Whisper語音轉文字模型。如果參數超過10億的話,就可能需要使用一整臺單路x86伺服器進行處理(模型參數介於10到200億之間)。當參數量達到1,000億時,則需使用配備更多GPU或CPU的伺服器處理,這也是目前主流AI基礎架構。當模型參數超過1,000億時,則需配置機架式伺服機櫃建立多節點運算叢集,甚至用於訓練最新型的大模型時,如LLM,需要建置資料中心規模等級的運算叢集才夠用。

英特爾公開未來幾年AI PC處理器平臺的藍圖,提前透露了Meteor Lake下一代行動PC處理器的代號是Arrow Lake,將使用Intel 20A先進製程技術。此外,還有兩款新產品,代號為Lunar Lake和Panther Lake,預計在2025年之前推出。這兩款產品將採用Intel的18A製程。圖片來源/英特爾

從英特爾對於可擴充及簡化AI基礎架構的分類,也能夠反映出不同型態處理器能夠支援處理的推論模型參數的規模。以英特爾AI PC筆電為例,目前主要適合處理參數小於10億的小模型的推論,如果參數超過10億的話,就可能需要使用一整臺單路x86伺服器處理,當參數量達到1,000億時,通常需要使用多GPU或多CPU的伺服器來處理,也是目前模型推論和微調的主流的AI基礎架構。攝影/余至浩

目標2025年在1億臺個人電腦實現AI應用

英特爾不只是推出AI加速硬體,還要進一步結合各種行動PC上的應用,發展和擴大AI PC的應用生態系。

為了打造行動PC的AI應用生態系,英特爾最新發布了一項AI PC的加速計畫,希望透過這項計畫加速AI在整體PC產業的發展,目標2025年在超過1億臺個人電腦上實現AI應用。

為了達成這個目標,英特爾還與100多家軟體供應商緊密合作,要共同開發300多項AI加速功能,來提升PC上的AI體驗,涵蓋軟體開發、影像處理、視訊會議、協作、串流遊戲及安全等。首批的合作夥伴包括Adobe、Audacity、BlackMagic、BufferZone、CyberLink、DeepRender、MAGIX、Rewind AI、Skylum、Topaz、VideoCom、Webex、Wondershare Filmora、XSplit及Zoom等業者。

在軟體工具支援方面,英特爾這次並沒推出新工具,而是在現有軟體工具基礎上,加強對生成式AI應用的支援,涵蓋模型的訓練、微調、部署與推論等不同階段。例如在新釋出的深度學習應用工具套件OpenVINO 2023.1版中,開始支援臉書Meta的Llama 2等基礎模型的優化功能,來支援雲端和地端的AI模型推論及部署。此外,OpenVINO平臺正式支援Arm硬體,意味著開發者以後更容易開發跨行動PC平臺的AI應用,如高通AI PC筆電等。

另外,英特爾目前也正在和Hugging Face合作共同打造支援生成式AI模型推論的軟體加速器,包含提供最佳化AI軟體工具、框架和函式庫等。

 相關報導 

熱門新聞

Advertisement