今年,凝聚了不同產業專家知識的專屬臺灣產業的AI模型TAME問世,由長春集團、和碩聯合科技、長庚醫院等來自不同產業的企業。在這些年營收百億到上兆的參與企業中,有一個新創企業的參與,讓TAME模型也成了法律專家,是全球唯一一個能通過臺灣律師第一試的LLM。
這家企業是律果科技,運用50億個法律專業語料Token和價值數千萬的算力,負責幫TAME模型「補習」,使其回答臺灣律師筆試第一試問題時,精準度達到70%以上──超越了112年89%的律師應考考生。
律果科技執行長陳啟桐是同時有工程及法律背景的律師和專利師。對兩個領域都有極大熱誠的他,不僅在兩個專業都於研究所進修了十幾年,從事法律業務時,也習於利用科技來增加效率與精準度。
陳啟桐坦言,投入LLM法律應用研究,他們第一個想的念頭,不是用來打造新產品,而是推動臺灣法律工作的數位轉型向前一步。「我們想證明強力的LLM確實可以用於臺灣法律工作,為法律界在生成式AI時代開啟更多應用可能。」
發覺生成式AI運用於LegalTech的價值和瓶頸
2023年前,律果是一家用分析式AI打造LegalTech的企業,利用NLP斷詞、抓關鍵字等作業,支援數位簽章、合約管理等法律業務。獲得不少企業採用,包括國泰金控、明基材料,以及多家旅遊業者等。陳啟桐也會使用自家法律科技,來支援法律事務所業務。
ChatGPT在2023年快速普及,陳啟桐發現,若能將生成式AI用於法律文件處理,不只能檢查出異常,還能分析文本、給出修改建議,潛在價值龐大。
於是,律果決定逐漸捨棄分析式AI技術,改用生成式AI來發展法律科技產品。「改用生成式AI成本當然很高,但固守分析式AI,會走到死胡同。」陳啟桐說。
同年,他們利用ChatGPT,以既有LegalTech產品為基礎,建置出能夠自動審查、草擬、翻譯及管理合約的產品。不過,他們於開發過程發現,要將生成式AI應用於臺灣法律業務,首先必須跨越一道很高的技術門檻。
不懼資源限制,嘗試突破生成式AI應用於法務的屬地性門檻
律果發現,要深度應用生成式AI到臺灣法務中,必須突破法律屬地性強的限制,只用當年現成大型語言模型不可行。舉例來說,GPT-4可以在美國律師考試勝過90%考生,卻考不過臺灣律師考試。
甚至,利用RAG技術讓模型檢索臺灣法律資料,依然無助於提升生成臺灣法律問答的品質。陳啟桐解釋,這是因為,法規及判決資料又多又雜,沒有妥善清理和轉化過,資料可用性低,且RAG沒有解決模型臺灣法律底層知識不足的問題。
法律屬地性強,是因為國家的法律體系、文化、過往判決、文件格式、論述習慣,都只適用本國。LLM要正確回答法律問題,必須具備這些知識。
再加上,大部分LLM訓練語料中,英語法律資料的占比和品質,都遠高於繁體中文語料,使模型在法律面、語言面及技術面上,都更難精準回答臺灣法律問題。
英語系國家如美國的法律體系,和臺灣法律體系不同。美國屬於普通法系,法條規範相對靈活,判例法應用廣泛;臺灣則屬於大陸法系,法條規範嚴格,條文解釋和適用需要更高精準度。這個差異對於模型的生成品質,也帶來不小的影響。
用詞上,英文法律語言相對直接、句構簡單、常用短句;中文則結構較長,且條文中常有許多專業術語及成語,進一步增加了模型理解和生成中文法律內容的難度。
要跨越這個屬地性門檻,必須從模型本身下手。律果認為,利用本土法律語料預訓練模型,可以強化模型回答臺灣法律問題能力。
對資源有限的新創企業來說,要預訓練大型語言模型的挑戰相當龐大。人力上,律果IT團隊才4人,其中2人負責AI相關研究與開發。資金上,也難以負擔大量GPU算力。
不過,為了進一步將生成式AI應用於更多法律業務,他們還是決定在力所能及的範圍內,進行模型預訓練實驗。2023年後半年,他們投入僅有的2名AI人力,展開為期4個月的法律語料蒐集與整理,整理出超過200億個Token的法律語料。
律果僅有2名人力,挑選、清洗和處理如此龐大的法律語料不是一件容易的事。首先,他們使用爬蟲工具,分別從臺灣各級法院、全國法規資料庫、律師諮詢平臺網站、高普考試題、法律案例等資料來源,蒐集上千萬筆公開判決書、臺灣現行各類法規、數萬則民眾諮詢和律師回答紀錄、標準化試題、典型案件等原始資料。
接著,他們根據自身法律專業,以及對LLM的理解,來挑選出該清洗成訓練資料的語料。
陳啟桐解釋,許多法律文件,例如判決書,只有小部分含有法律相關知識,其他多為一般性敘述。律果必須先研究如何從法律文件中,萃取出這些少量具有法律知識的語料,以提升訓練精準度及效率。之後,歸納出規則,搭配其他NLP類工具來打造自動化資料清洗機制,批量處理資料。
正當律果梳理好資料,即將展開模型訓練時,2024年1月,與石化、電子製造、醫療、媒體內容等不同專業領域的企業,與臺大資工及資管系發起繁中專家模型開源計畫Project TAME,利用Nvidia開發者計畫資源,動用相當於2億元規模的算力,一同打造臺灣產業專用繁中大型語言模型。後來,TAME團隊有意再用臺灣法律語料訓練模型,律果便於同年4月把握機會應邀,帶著手中熱騰騰的語料作為法律領域專家加入。
攝影/洪政偉
靠研究計畫加速法律生成式AI研究
TAME計畫中,臺大資工系負責技術面操作。律果則在3個月期間,扮演產業專家的角色,提供法律領域專業語料,並參與會議,探討用哪些數據,如何用這些數據,才能強化開源基礎模型Llama-3 70B和Llama-3 8B回答臺灣法律問題的能力。
訓練時,Project TAME團隊採用Nvidia NeMo、Nvidia NeMo Megatron兩種訓練框架,以及3D平行化、DeepSpeed Zero網路通訊優化器和Flash Attention等加速方法與工具。模型推論則採用Nvidia TensorRT-LLM框架執行。硬體上,使用AI超級電腦Taipei-1算力,來驅動模型訓練與推論。
模型開發歷經了3個階段,首先是持續預訓練(Continuous Pre-training),讓模型熟讀臺灣法律知識與邏輯。第2階段則是監督式微調(Supervised Fine-tuning)。讓模型根據提示生成多輪自我對話,再根據對話內容微調。最後,再讓真實使用者與模型互動,根據人類回饋微調模型,確保模型產出與人類偏好一致。
最終結果是,以Llama-3 70B版為基礎模型,用5,000億個臺灣一般性及專業語料Token,包含30億個Token的法律語料,來預訓練的TAME模型,能在臺灣律師考試第一試的選擇題筆試中高分通過,成績換算下來超過了2023年89%的應考考生,答題正確率也比GPT-4o和Claude-3等強力模型,還要高上10%到17%。「我們證明了,只要少量語料,就能大幅提升LLM臺灣法律能力。」他欣慰的說。
TAME計畫結束後,律果更爭取其他開發者計畫。例如,他們爭取到運用超級電腦Taipei-1研究用算力的資格。他們花費了6周時間,以及更多法律語料,來進一步強化TAME計畫中較輕量、較容易部署的8B版模型,提升該模型16%法律問答正確率,這個模型,也成為律果後來發展更多法律生成式AI應用與商業模式的基礎。
例如,他們用更多專利知識的語料來訓練模型,來處理專利相關法務。以多國專利書申請作業為例,相比於純人工撰寫再翻譯、改寫成多國專利申請書,由AI擬稿和翻譯,能將原本需要近兩周的作業,費時大幅降低到一天半。
如今,用畢研究計畫用提供的算力,律果也沒有停下腳步,依然用自家資金租用雲端GPU算力,來持續進行法律生成式AI研究。
將LegalTech技術轉為商品的挑戰
儘管在法律類生成式AI做出突破,陳啟桐坦言,就算掌握LegalTech技術,要商品化,仍有不少挑戰。
盤點LegalTech目標使用者,包括法律專業機構、其他企業、政府機關等。陳啟桐坦言,政府機關數位化程度參差不齊,且作風較保守,市場不大。臺灣律師事務所規模多半很小,超過9成事務所的律師不到5人,普遍不願花費在LegalTech上。
不只如此,過往LLM回答臺灣法律問題時,常產生幻覺,或誤引用其他中文語系地區法律,得到的回答在實務上無法參考。「這使很多律師對於生成式AI應用感到更加排斥。」陳啟桐觀察。
法遵需求高,且有各式商業和民事法律業務需求的一般企業法務部門,才是LegalTech主戰場。不過,企業法律科技市場也有限制。
陳啟桐指出,許多企業不習慣專門為法務導入自己的系統的法務系統,而是採用ERP、BPM的客製化功能或模組。不僅企業意願低,他觀察,就連企業內法務人員執行業務時,數位化程度亦不高,企業自然沒有導入LegalTech的強烈意願。
律果原本就有一套用大廠GenAI技術和RAG作法,打造的法務助理,可以針對數百種常見法律文件、合約,或是企業自訂合約為參考範本,來協助法務人員,生成草擬的客製化合約、訂定特定審閱模型等合約管理作業。
這套法務助理最大的限制就是必須使用公雲的技術才能實現。陳啟桐說,有了本土開源模型TAME之後,他們便可以進一步發展落地部署的版本,或更多地端的法律科技應用。他們也打算將自己研發GAI的經驗,變成對外提供的服務,像是TAME模型部署經驗或是RAG應用建置經驗等。
他們這些在地LegalTech研發成果,甚至開始吸引了外商,考慮將律果生成式AI技術整合進他們的跨國企業系統中,來支援他們在臺灣的法務。
未來,律果積極想挖掘更多生成式AI可以支援的法務情境,下一個目標是法遵科技(RegTech),像是用生成式AI來檢查和修正企業內部文件及流程的法遵作業。他們也獲得政府及大型企業投資,並進駐到金融科技創新園區來發展這類產品。
雖然還在驗證概念,不過,陳啟桐有信心做出產品。「法遵作業是生成式AI的強項。一旦證明可行,生成式AI時代的法務應用,會有更廣闊的可能性。」他說。
CXO小檔案
律果科技執行長 陳啟桐
學歷:臺灣大學機械研究所博士
經歷:橫跨科技與法律背景,曾在理慈國際科技法律事務所擔任律師、群光電子股份擔任IP部門主管,也於交通大學科技法律研究所擔任過助理教授。現任專利師、律師,以及律果科技董事長兼執行長,發展科技與法律業務結合的可能
圖片來源/律果科技
公司檔案
律果科技
地址:臺北市大安區忠孝東路三段96號7樓
成立時間:2019年5月
主要業務:法律科技,主力產品包括由合約起草、內部修訂審批、內部簽核、外部簽署、歸檔、AI分析的完整合約生命周期管理系統;針對不同的使用情境支援不同形式電子和數位簽章,並管理和追蹤簽章資訊的數位簽章系統;用LLM支援合約分析、摘要、生成、翻譯、比對、審閱等工作,並執行法遵管理的AI助手等。
員工數:10人
年營收:1千萬元
董事長:陳啟桐
公司大事記
2019年:從法律事務所中衍生出法律科技新創
2022年:合約生命週期管理與電子簽名服務上線
2023年:生成式AI法務助理服務上線、著手蒐集預訓練法律模型用的專業語料
2024年:參與Project TAME等研究計畫,打造出唯一可以通過臺灣律師考試第一試的LLM、進駐金融科技園區發展RegTech
熱門新聞
2024-11-29
2024-12-19
2024-11-20
2024-11-15
2024-12-16
2024-11-15