叡揚資訊
去年11月,ChatGPT橫空出世。與大多數企業一樣,「我們覺得世界變了!」叡揚資訊技術服務總處暨創新研發中心副總經理林縣城指出,那時起,他們開始盤點各種整合方法,要以最快的方式,將LLM能力整合至自家產品中,提供更好的服務。
2019年,叡揚資訊推出AI對話平臺產品,成為不少企業的小幫手。一路來,他們有組30多人的研發團隊,及時研究最新技術,不只在語言模型BERT問世時,就用來強化Chatbot理解意圖的能力,今年還大力擁抱大型語言模型(LLM),如GPT-4、Llama 2、Taiwan-LLM和國科會打造的TAIDE等,要讓AI Chatbot的回答更自然、範圍更廣。
他們不只用這些模型發展內外部服務,也在這個過程中,看見臺灣企業應用LLM的困難和挑戰。
展開內部專案,累積LLM實戰經驗
當微軟推出Azure OpenAI服務後,叡揚就立刻用來優化自家AI對話平臺。因為,原本的對話機器人,只能根據提問中的一個意圖來回答,若採用LLM,不僅能分辨提問中的多個意圖,還能結合知識庫,來產出更貼切的答案。
為驗證這個目標,叡揚資訊展開一項POC專案,用AOAI LLM加持的對話平臺,來打造內部專用的員工AI秘書Chatbot。他們採取檢索增強生成(RAG)方法,將自家知識管理系統的人資類基礎文件作為檢索對象,當使用者向Chatbot提問後,會先由嵌入式模型(Embedding model)將問題轉為向量空間,來比對檢索用的知識庫、找出最相符資料,再透過LLM整理、生成最終答案給使用者。而且,LLM生成的答案還會附上資料來源,來降低誤解風險。
不只AOAI,叡揚還嘗試了其他LLM模型來驗證,包括Meta開源的可商用語言模型Llama 2,以及臺大師生團隊釋出的Taiwan-LLM,還有國科會以Llama 2為基礎打造的TAIDE模型。
因採用RAG機制,模型不需上通天文、下知地理,因此,叡揚資訊只準備了相對少量的800萬個Token的閱讀理解資料集,來對模型進行監督式微調,加強模型對特定領域的理解力。另考量運算成本,他們採用參數高效能微調(PEFT)方法,以LoRA壓縮技術、只微調模型的5%參數,來提高模型能力。
目前,不同LLM模型的驗證還在持續進行中,不過,叡揚初步評估,AOAI服務是其中最成熟的作法。不只用來優化AI對話平臺,叡揚資訊還打算進一步將LLM整合至其他產品,如知識管理平臺、公文系統等,前者要讓企業以RAG方式,來打造各領域的問答Chatbot,後者則能生成樣板,來加速公文作業時間。
企業LLM應用的三大挑戰
除了自家LLM實戰經驗,過去1年來,叡揚資訊也接到不少企業客製化LLM應用的需求,甚至實地走訪了不少企業。林縣城觀察,一般10億個參數規模的LLM,就可滿足大部分企業應用需求了,不過他坦言,雖然企業需求量大,但目前應用狀況幾乎以POC專案為主,實際上線的應用非常少。
一年來參與大量內外部POC專案後,他認為,一般企業要自行發展LLM應用,門檻並不低,有三大挑戰要面對。
首先,企業要找出具業務價值的應用案例。他說明,叡揚資訊每到一家企業了解時,一定會問的問題是,是否已經找到「業務上真正有價值的應用案例」,但多數企業都給出否定答案。林縣城認為,這是企業採用LLM時,首要思考的課題。
第二個挑戰是資料。不論是企業自行使用開源LLM,還是採購系統廠商服務,都得有完整、乾淨的資料,才能用來微調模型,滿足客製化需求。在資料層面,企業常面臨資料量不足或品質參差不齊的問題,叡揚資訊處理企業客戶的需求時,經常得花大把時間來清理資料。這是第二個企業要面對的課題。
第三,企業要有相關人才,長期投入來累積實務經驗。林縣城說明,以自行採用開源LLM來說,企業本身要有技術團隊和長年的實務經驗,才能做好資料清理、資料集建置和微調工作,甚至是LLM應用幕後的「LLMOps維運工作和自動化工具,」才能確保應用能持續作業,這也是叡揚資訊自己的實戰經驗。
建言:臺灣需要國家級繁中語料和測試基準
林縣城認為,一般企業要從頭打造一套符合在地文化的LLM,更是困難。首先,這種具備在地文化知識的LLM,通常以開源LLM為基礎,透過大量繁中資料進行連續預訓練、微調和RLHF等三階段優化才能成形。
這三個階段的工作成本很高,比如預訓練需要大量繁中資料,Token數通常是模型參數的20倍,也需要長達幾個月的訓練時間。但是,臺灣目前打造的模型,所使用的預訓練Token數在數十億至300億左右,還有進步空間。因此,林縣城建議,臺灣可透過國家性計畫,如TAIDE計畫,來開源更多繁中資料集,補足這個差距。
再來,微調又分為全參數微調和參數高效能微調(PEFT),前者對模型的學習表現最好,但耗費的運算資源較多。對資源有限的企業來說,只能採取微調少量參數的PEFT方式來增強模型表現。
而RLHF工作也得耗費大量人力成本,對一般企業來說,不太可能完整實作。「上述的模型預訓練、全參數微調和RLHF,還是得靠國家力量來完成,」林縣城還建議,臺灣也能設計評估模型繁中能力的基準測試(Benchmark),才能更精準衡量模型表現,以利後續應用。
熱門新聞
2024-04-22
2024-07-02
2024-07-31
2024-07-05
2024-07-31
2024-02-08