台智雲以BLOOM為基礎,打造福爾摩沙模型,繁中處理能力優秀,並以此推出4種企業LLM服務,包括LLM微調服務和模型部署服務。

圖片來源: 

攝影/王若樸

華碩旗下子公司台智雲今日(5/17)發布1,760億參數的大型語言模型福爾摩沙,號稱與ChatGPT同等級,且中文訓練資料占30%,比ChatGPT還要高許多,也具備大量臺灣知識。與此同時,台智雲也將這款模型包裝為4種企業級大型語言模型服務,其中包含可離線部署的大型語言模型地端部署解決方案,讓企業在安全合規的條件下,來部署、執行AIGC專屬應用程式。台智雲下一步要納入其他可商用的大型語言模型(如OpenLLaMA),來提供企業更多模型選擇。

以BLOOM為基礎用3個月打造,具多國語言、寫程式和文案能力

台智雲技術長陳忠誠指出,這款福爾摩沙模型(Formosa Foundation Model, FFM)是以開源語言模型BLOOM為基礎,再以繁體中文和東南亞語言優化而成。這是因為,相較其他大型語言模型,BLOOM具可商用授權,因此團隊選它來開發。

但要打造一款大型語言模型,還得具備3大技術才行。陳忠誠解釋,其中最重要的技術是AI高效能運算(HPC)架構,由於BLOOM具有1,760億參數,非常龐大,無法用單一GPU訓練,因此需要精準切割模型,才能讓近千片GPU發揮最大效能,並利用平行運算(如下圖)來分散式訓練。他們用來訓練的AIHPC是國網中心臺灣杉2號超級電腦TWCC雲平臺。

其他2項技術還包括準備1.5TB、46種人類語言和13種程式語言的訓練資料,這些資料含大量(無)標註資料,另也採用指令式微調和監督式微調(SFT)技術來優化模型。

台智雲團隊花了3個月開發,終於打造出具備臺灣本地知識的福爾摩沙模型,共有176B和7.1B參數兩種版本。陳忠誠指出,福爾摩沙模型具備多語言、寫程式和推理能力,在語言部分,不只繁體中文表現優異,可準確回答不少ChatGPT難以答對的問題,還特別加強東南亞語系的能力,為未來南向發展做準備。

在寫程式部分,可根據自然語言問題,給出程式碼,並附上自然語言解釋,說明程式設計方法(如下圖)。

該模型也具備寫行銷文案和新聞稿的能力,陳忠誠還透露,先前台智雲聯手和碩推動5G O-RAN專網雲服務的新聞稿,就使用福爾摩沙模型來草擬(如下圖)。

團隊也將福爾摩沙模型與開源的BLOOM本尊相比,發現福爾摩沙可給出更詳細、具體的回答,比BLOOM要優秀(如下圖)。

推4大企業級服務,地端部署服務提供高機敏產業新選擇

驗證過福爾摩沙模型的能力後,台智雲也以它為核心,推出4種企業級大型語言模型服務,稱之為AI Foundry Service(AFS)。陳忠誠解釋,取名AFS,是希望走台積電模式,就像晶圓製造一樣,透過提供完善的底層基礎服務,來讓企業在基礎上開發各種應用。

這4種服務包括AFS Platform、AFS Shuttle、AFS Cloud和AFS Appliance。簡單來說,前兩者是大型語言模型優化(fine-tuning)服務,其中,企業有明確目標、知道要打造何種應用時,可選擇AFS Platform,來用自己的資料優化所選模型,目前台智雲提供的模型有BLOOM 176B、BLOOM 7B、福爾摩沙176B和7.1B版本。陳忠誠指出,團隊未來也將採用可商用的OpenLLaMA,來提供更多種模型版本來給企業使用。AFS Platform為無程式碼平臺,計價方式為以小時計費,用多少算多少。

另一個大型語言優化服務是AFS Shuttle,適合沒有明確目標的企業使用。也就是說,企業可用小量資料,來進行POC驗證,找出合適的應用情境。這個服務的費用視資料量(也就是以Token為單位,可想像為中文字字數)而定,企業可與其他企業一起分攤,這也是台智雲稱AFS Shuttle為共乘服務的原因。

AFS Cloud和AFS Appliance則屬於部署和推論的服務。前者是雲端託管服務,其中的模型是完整訓練過的,可透過TWCC推論和API來供企業使用,計價方式是依用量小時計費。

AFS Appliance比較特別,它是台智雲推出的私有雲/地端部署服務,企業可下載大型模型到地端,在地端資料中心、私有雲或搭配企業5G專網來執行LLM應用。擁有高機敏性資料的企業,就能透過這種服務,來在合規安全的環境下,執行專屬應用。(如下圖)

同時,台智雲也設計一個驗證應用程式Playground,來讓企業調整大型語言模型給出的回答模式。進一步來說,Playground提供溫度(即創意程度)、最大生成Token數(字數)和重複懲罰等,企業可調整這些參數,來即時查看效果。比如,企業用大型模型打造聊天機器人,希望它能給出多元、有創意的回答,就能調整溫度,來提高回答的多元性,若希望它給出中規中矩的回答,就降低其溫度。

總的來說,這些服務可視為一站式LLM工作流程,包括訓練資料整理、選擇模型進行微調(如AFS Platform或AFS Shuttle),接著以Playground來驗證模型表現,並透過雲端託管或地端部署服務,來執行LLM應用。台智雲強調,這4款服務都符合臺灣A級資安要求。

下一步要建立AI 2.0大聯盟

台智雲數位轉型發展處副總經理黃市民指出,台智雲目前正發展AIGC設計服務夥伴,也就是尋找可靠的AI應用廠商,扮演輔導角色,來協助無AI團隊的企業使用者,建立適合其產業場景的LLM應用。同時,台智雲也與台北市電腦商業同業公會(TCA)聯手,要成立AI 2.0大聯盟,來連結民間願意投入基礎模型與開放生態的力量,推動AI算力產業發展。

他也透露,目前已有不少產業的大型企業採用生成式AI解決方案,橫跨醫療、法律、金融、長照、ESG和公共服務等。此外,他們也與越南一家大型電信商展開應用,要將臺灣LLM服務推廣到其他國家。

#更正啟事:原文提及ASF服務名稱應為AFS,5月18日已更正。

熱門新聞

Advertisement