採用V100 GPU的臺灣杉2號,運算效能可達9 PFLOPS。因應國科會TAIDE計畫,今年10月擴充了72片H100 GPU,預估效能可增加4.8 PFLOPS。明年國網中心計畫再擴充16 PFLOPS,來因應70B參數量LLM模型的預訓練。(圖片來源/國網中心)

即便不是從無到有、開發一套大型語言模型(LLM),以開源LLM為基礎,用數百億Token語料進行預訓練、微調和人類回饋強化學習(RLHF)所優化出的繁中基礎模型,也是極耗成本。光130億參數模型,就得花上幾個月才能完成預訓練。

算力,是影響訓練成敗的一大關鍵。臺灣現有算力,足夠發展自己的LLM嗎?

盤點臺灣現有超級電腦算力

臺灣目前的主要算力資源,集中於國家高速網路與計算中心3臺超級電腦,包括臺灣杉1、2、3號,總效能約20 PFLOPS。其中,臺灣杉1號和3號以CPU為主,專為工程運算、大型模擬等任務設計,臺灣杉2號則採V100 GPU,專為AI模型開發和推論而設計,運算效能可達9 PFLOPS。臺灣杉2號雖有2,016片GPU,但是分開使用,半數由國網中心管理,供公部門和學研界使用,另一部分則由建置臺灣杉2號的台智雲營運,來處理業界需求。

這樣的算力,能否滿足繁中LLM發展需求?國網中心主任張朝亮指出,以Meta開源模型Llama 2為例,它有70億參數(7B)、130億參數(13B)和700億參數(70B)版本,在標準條件下,進行7B、13B模型預訓練和全參數微調,臺灣杉2號都能應付。

所謂的標準條件是指,搭配預訓練的資料量為模型參數的20倍,亦即國網中心臺灣杉2號,不論是對7B模型進行預訓練(搭配1,400億個Token訓練資料)還是對13B模型預訓練(搭配2,400億個Token資料量)的需求,都可以勝任。就算資料量多一些,臺灣杉2號也能處理,只是所需時間長了點。

「但若是70B參數的模型預訓練,國網中心算力可能就不太夠了。」張朝亮解釋,這是因為,Meta從無到有訓練Llama 2時,需要上千甚至上萬片A100 GPU,所需時間大約為6個月,而臺灣杉2號採用相對低階的V100 GPU,效能約為1:3。若以臺灣杉2號進行70B模型預訓練,可能得花上9個月至1年。再者,臺灣杉2號還得支援其他AI專案,無法全力發展單一LLM專案。

如何提供夠用的算力,正是國網中心協助國科會打造TAIDE模型時,所面臨的挑戰。

助國科會打造臺灣自有LLM,平行運算是關鍵

回到今年上半年,國科會TAIDE計畫在4月28日正式展開,國網中心也隨即提供臺灣杉2號算力,來協助發展臺版LLM。當時,國科會團隊採用Meta釋出的第一代LLaMA模型,以自行收集的繁中資料集,來預訓練和微調LLaMA 7B版本。

後來,7月19日,Meta釋出第二代模型Llama 2,表現不只比第一代好,還開放研究和商用授權。於是,國科會團隊跟進,改以Llama 2為基礎,用繁中資料集對7B和13B版本模型進行預訓練、微調和RLHF。目前,國科會已提供繁中優化的7B版本TAIDE模型,供企業和公部門簽約使用,預計明年初提供13B版本模型,同時展開70B參數模型的優化工作。

國科會TAIDE模型能一步步順利上架,一大關鍵是高效能運算,尤其是平行化運算。張朝亮是該領域專家,他專攻流體力學和高效能平行計算,不只在美國NASA從事研究工作34年,回臺接任國網中心主任後,也親自參與TAIDE模型的平行運算和性能調校工作。

他點出,平行運算並非新發明,在高效能運算領域中已發展數十年,是項成熟技術。他自己從事科學工程運算時,就時常運用,只是在AI運算領域,作法稍有不同。「平行運算的原理很簡單,」張朝亮說明,好比一臺電腦執行一項任務,需要10天才能完成,若同時使用10臺電腦,一天就能完成。以此類推,一臺超級電腦可想像為成千上萬臺電腦組成,執行複雜的運算任務時,可透過切分任務,來讓多臺電腦分攤、同時執行。

資料平行化和張量平行化是常見做法

其中一種常見且簡單的平行運算方法,是從資料量下手的資料平行化。意思是,假設AI模型參數量不大,單片GPU就能執行訓練,一臺主機因有8片GPU,就可訓練模型8次。這時,開發者可將訓練資料分割,將每批不同的訓練資料,分別交給各個GPU,同時進行運算,讓模型不斷修正參數。

當模型大到無法用單一GPU執行訓練時,就需要另一種平行化方法來因應。因為模型參數量越大,就需要越多GPU支援,可能是一臺主機,或數十、數百臺或上千臺主機。在這種情形下,每臺主機只負責一部分的模型訓練,而訓練資料的分配和傳輸,就變得十分複雜,也會使模型訓練過程變得冗長。

此時,就需要NVLink和訊息傳輸介面(MPI),來提高主機內和跨主機的資料交換效率。張朝亮指出,傳統科學運算時常使用MPI,使用者得針對每一項平行化和資料傳輸一一寫程式,但在AI領域,有不少現成工具可加速,比如深度學習框架PyTorch提供平行運算工具,將MPI和GPU平行化所需的NVLink等分段工作打包好,能根據需求拆解MPI和NVLink任務、自動執行,相較於科學運算,簡單許多。這就是張量平行化方法。國網中心也在國科會TAIDE計畫初期,建置了平行化工具,來讓開發團隊進行性能調校。

分階段提升AI算力,還要引進量子電腦

不只是平行化運算加持,這次TAIDE計畫,還進一步提高了臺灣杉2號算力。今年10月,他們購置了9臺主機、共72片H100 GPU,是臺灣杉2號原搭載的V100 GPU第三代,預估效能可達4.8 PFLOPS。

國網中心也以4.8 PFLOPS為基準,預計明年再增加16 PFLOPS算力。這些算力升級,也能用來解決,原本臺灣杉2號不好應付的70B模型預訓練問題。至於國網中心的整體算力提升目標,則是要在5年內達到200至300 PFLOPS。

這次的LLM訓練經驗,也影響了張朝亮對下一代AI超級電腦的建置想法。他計畫分年建置,透過每年購入新機器,來避免基礎設施過時。雖然這麼做,難以讓超級電腦在世界排名中名列前茅。

他也期望,下一代AI超級電腦不只要具備中大型LLM訓練的能力,還要能支援不同類型的生成式AI發展,比如生化模擬、蛋白質合成,甚至是多模態分析,比如整合影像與文字分析,來發展下一代AI生醫軟體等。

不只如此,「我們目前規畫引進量子電腦。」張朝亮點出,採用量子電腦是世界趨勢,他在剛落幕的2023超級電腦大會中,就見到非常多量子電腦公司和新創,「臺灣一定要及早切入這個領域,否則會落後。」

而國網中心的規畫方向有2個,一是觀察量子位元數量發展,以量子位元數多的量子電腦為優先選擇,二是依照世界主流作法,將量子電腦與超級電腦整合,透過超級電腦將資料轉換為適合量子運算的形式,交由量子電腦計算,再將計算結果交給超級電腦,轉換為人類可讀的資料。

國網中心將另外建置超級電腦來與量子電腦溝通,目前規畫中的AI超級電腦,也將撥出一部分來執行這個轉換工作。此外,國網中心也打算引進可模擬量子電腦的工具cuQuantum,來提高量子電腦模擬在GPU的運算效率。

鼓勵企業、新創運用超算資源做大題目

「AI和算力,是接下來幾年非常重要的國家發展指標。」張朝亮認為,臺灣不只要發展高速運算的基礎建設,還要鼓勵企業和學研界挑戰「大題目」。他觀察,過去幾年,臺灣研究風氣保守,「我們鼓勵大家發表論文,但並沒有鼓勵大家提出解決大問題的機制。」他認為,ChatGPT之所以存在,是因為有勇於挑戰大題目的文化DNA。

「我希望未來幾年,能夠改變這樣的想法。」為鼓勵專家挑戰大題目、勇於使用大算力解決大問題,張朝亮分享個人觀點,政府在編排研究補助專案時,也許可直接命題,提出如TAIDE這類需要超級電腦運算的大計畫,來編排經費、鼓勵專家投入研究。

不只要改變文化,張朝亮還點出,國網中心正擬定計畫,要來鼓勵中小企業、新創產業使用超級電腦。也就是說,在下一代AI超級電腦發展的幾年,國網中心要推動專案,針對出眾的提案,提供「非常優惠的價格,甚至免費,來讓提案企業和新創使用上百PFLOPS效能的超級電腦,」他說。

 相關報導 

熱門新聞

Advertisement