
在TAIDE計畫擔任模型鑄造組顧問的中研院資科所副研究員黃瀚萱表示,訓練語言模型需要投入足夠的算力資源,不斷實驗調整各種訓練策略,才能從中試驗出最佳模型。(圖片來源/中研院)
「不只是使用繁中資料或臺灣的用詞,更重要的是連結臺灣核心價值,這才是主權AI」,中研院資訊科學研究所副研究員黃瀚萱一語道出TAIDE計畫目的在於打造符合臺灣核心價值的主權語言模型。
2022年ChatGPT橫空出世,在全球帶動生成式AI風潮,連帶大型語言模型也快速發展,科技巨頭不斷優化技術釋出新的語言模型,一時間開源大型語言模型成為當紅炸子雞,大語言模型推陳出新,比參數規模、比效能、比推理能力。
在這波大型語言模型趨勢中,除了科技公司積極發展大語言模型技術,還有國家以開源語言模型,結合自己語言資料訓練在地的語言模型,以確保在新的AI技術發展下,國家建立數位主權,不致完全依賴國外。臺灣也在2023年由國科會推動可信任AI對話引擎TAIDE計畫,今年TAIDE計畫邁入第三年,國網中心接下推動TAIDE計畫接下來四年發展的重責大任,黃瀚萱加入TAIDE計畫模型鑄造團隊。
模型更新腳步放慢,選擇重要的開源模型釋出新模型
然而發展TAIDE模型並不容易,黃瀚萱說明面臨的挑戰,TAIDE計畫 是使用繁中資料,將國外開源的大語言模型供外界運用,補足開源語言模型對繁體中文資料訓練的不足,但是近幾年已有多個團隊投入繁中語言模型開發,外界的選擇性增加,不再只有TAIDE單一繁中語言模型
由於計畫本身為官方色彩,為建立可信任的AI對話引擎,TAIDE蒐集的資料都必需取得完整資料授權,蒐集過程比較辛苦,難以像其他模型團隊蒐集大量資料,建立豐富廣度的知識,能夠回答各種問題。
黃瀚萱表示,未來TAIDE計畫重新調整定位,不再以頻繁釋出更新模型為目標,會選擇有重要特色的開源模型版本更新,例如今年2月釋出的Llama 3.1 8B為基礎TAIDE 8B,因為Llama 3.1可處理更長的資訊,因此團隊釋出的新版模型針對較長的輸入問題進行優化,以加快正體中文的解碼速度。
TAIDE也從發展基礎模型,加強特定資料的訓練,讓模型能和公務機關合作,協助公務處理,例如公文補助寫作,民眾陳情回應、資訊匯整等等。
「未來會針對利基點來考慮釋出新版TAIDE模型,而不是每次開源模型更新都會釋出新版本,我們的算力資源沒那麼多,這麼做等於分散資源」,黃瀚萱說。
他表示,模型推動策略上,除了尋找合作夥伴測試,也會以非官方方式釋出,或是以其他方式讓TAIDE模型發揮更大的實質影響力。
目前TAIDE模型下載次數已達到18萬次,除了和特定學研單位合作建立示範應用,也和政府部門合作,針對公文推出專用版的G-TAIDE模型,同時也和學研單位合作,推動TAIDE在語言學習、教材、醫療衛教等等。
展現臺灣在地的多元價值觀
這兩年不論是開源模型或是國內其他團隊開發的模型,都已有不錯的繁體中文處理能力,黃翰萱認為TAIDE模型要做的不只是繁中語言模型,而是發展符合臺灣價值、文化及知識用語的語言模型。他以同性戀結婚為例,在中國是不允許的,但在臺灣則是合法的,臺灣對多元的尊重明顯要優於中國。
今年橫空出世引起外界注意的DeepSeek R1模型,該模型對於人權、國家主權,明顯與臺灣的價值觀不同。「我們希望大家使用的語言模型,它的價值觀接近臺灣的多元包容,這是發展主權AI最重要的」。
要如何讓TAIDE模型學習多元價值,特別是符合臺灣主流意見的多元價值?
黃瀚萱表示,目前已蒐集約1千多筆包含多元價值的資料集,包含許多和價值判斷有關議題,去建立不同的回答方法,包含接近中國、西方色彩、臺灣的主流觀點,再由社科背景如外交、政治系的學生,這些對不同觀點有敏感度的學生,請他們挑選適合臺灣價值的回答,透過蒐集具有爭議性的題目,搭配接近中國、西方、臺灣模型的答案,匯入至TAIDE模型,讓模型學習不同的價值。
算力資源不足影響模型優化成果
不過,該計畫面臨匱乏的資源,以算力為例,最初利用國網中心台灣杉二號的算力協助模型開發,後來採購9臺DGX H100主機,以72片GPU算力專用於TAIDE計畫使用,這些專用算力後來被納入國網中心的大型算力資源,TAIDE團隊被迫必需和其他科研、AI計畫共用算力資源。
黃翰萱表示,從專用算力到共享算力,TAIDE團隊從原本專用的9臺主機,可能只能分到3至5臺,而反觀OpenAI用於模型訓練有10萬張H100,Meta也有30萬張B200訓練Llama 6,而國內用於TAIDE模型的算力只有幾十張,相較於國外算力有相當大的落差。
一般而言,模型在預訓練及微調階段需要較大的算力支持,團隊在訓練模型往往需要測試各種方法,通過不斷的訓練實驗,找出最佳的訓練策略,以DeepSeek模型為例,最終模型訓練出來之前,DeepSeek團隊可能已訓練許十次或上百次。
「一個模型背後可能是數十或數百次的失敗嘗試,愈多的嘗試機會,愈有可能找到好的模型」,黃翰萱表示,國外語言模型可能三個月就釋出新版,TAIDE計畫如果同樣要在三個月釋出新版本,在缺乏足夠的算力資源下,每個版本可能只能試驗兩三次,很難從更多次試驗中,經過不斷優化找出最好的效果。
以70B參數規模的大型語言模型為例,使用當初9臺專用主機進行測試,可能要訓練一個月才能完成模型,在短時間內就要發表模型之下,很難有足夠的時間進行多次實驗,就會影響到模型的成果。
儘管政府正積極擴建算力,國網中心建置超級電腦,現在已建置16PF的算力,今年底還將增加100PF算力,在晶創臺灣、大南方新矽谷兩大計畫下,2029年國內公共算力可望增加至480PF;黃瀚萱認為,TAIDE不僅要和其他科研計畫共用算力,有許多團隊都想要投入大型語言模型的研究,雖然總體算力增加,未來TAIDE可能能分配到的算力資源,仍然有限。
黃瀚萱表示,TAIDE計畫若能獲得更大的算力資源,就能縮短模型訓練所花費的時間,或是同一時間訓練不同優化策略的模型,降低模型訓練的單位時間成本,同時也能提高模型品質。
建議修法降低資料授權難題
目前,數發部正在研擬資料創新利用發展條例草案,鼓勵政府部門先釋出非結構化的資料,也鼓勵民間捐贈資料供AI訓練,還準備建置主權AI訓練語料庫,來解決AI訓練資料取得困難的課題。
黃翰萱表示,依TAIDE過去蒐集資料的經驗,向民間取得資料,大多需要付費才能取得資料授權,而且每年都需要重新談授權,也有版權擁有者不願意賣授權給AI研究,讓資料用於語言模型訓練,他建議,政府可從智財法修法著手,讓資料可被用於AI。
在算力及資料有限之下,TAIDE團隊研究如何從技術上著手,以較輕算力將國外開源的LLM「洗腦」為具有在地化文化、價值觀的模型;另方面也試驗以小資料訓練模型,例如前面提到的1千多筆多元價值資料,透過強化學習方式,將開源模型「洗腦」為具有多元價值的模型。
「運用一兩千筆的資料,結合強化學習技術,用比較少的資料讓模型學得好,如此便不需要那麼多的資料,訓練那麼久」,黃翰萱說,團隊隨時學習新的模型訓練研究論文,像是知名人工智慧專家李飛飛先前發表的論文,該論文揭示如何以較小資源、成本訓練專業化領域的語言模型的成果,目前開源模型在繁中語言能力已有不錯的表現,在此基礎上,TAIDE模型開始轉向專用領域發展,例如借用政府機關的資料訓練模型處理公文的能力,或是運用少量的多元價值資料,讓模型學習臺灣的多元價值觀。