圖片來源: 

行政院

行政院新內閣在5月20日上任後,行政院長卓榮泰今天(5/23)首次舉行行政院會,其中國科會提報可信任生成式AI對話引擎TAIDE(Trustworthy AI Dialogue Engine)成果,在寫文章、寫信、翻譯等任務工作上,與ChatGPT 3.5相當,行政院長卓榮泰指示,盼望國科會持續精進AI技術研究,與其他部會合作加速產業應用,以及公部門運用,提高行政效率。

卓榮泰表示,臺灣在半導體產業領先世界,也是民主供應鏈不可缺的夥伴,為維持關鍵戰略地位,必需掌握AI發展趨勢,擴大AI基礎建設及人才投資,讓臺灣成為AI的領頭羊,打造臺灣的大型語言模型,同時符合總統賴清德上任後提出的AI島願景。請國科會持續精進AI技術及應用,並與相關部會協助發展加值應用,加速導入業界,提高民間企業的生產力,並導入政府部門及公共服務領域,提供更夕便民服務,並提升行政效率。

國科會在去年開始推動生成式AI對話引擎TAIDE,以打造具有臺灣本地文化特色的LLM,滿足國內使用需求,這項計畫集結AI相關人才、高速運算、繁體中文資料,整合產學研人力及資源全力發展臺灣的LLM。

TAIDE模型在5大日常工作上表現評測上與ChatGPT 3.5相當

去年6月公布採用Llama及中文資料,70億參數的學研版TAIDE模型,去年9月推出基於Llama 2,可商用的TAIDE-7B模型,先供產學研合作夥伴測試,2024年1月發表基於Llama 2,具有130億參數的學研版TAIDE-13B,並且開發700億參數的TAIDE-70B(學研版),今年4月正式開源可商用的TAIDE LX-7B模型,供外界使用。另外,今年4月中Meta發表Llama 3,TAIDE團隊也在4月底釋出基於Llama3的測試版TAIDE模型。

國研院科政中心副主任徐玉梅表示,TAIDE開發的目的為可信任,因此對於訓練的資料嚴格把關,目前TAIDE模型的表現,利用評測工具,以辦公室日常的工作任務,例如寫文章、寫信、摘要、英翻中、中翻英5項任務,TAIDE-13B模型的表現已和ChatGPT-3.5相當。

以5項任務來評測,評分為0到10分,ChatGPT 3.5得到8.68分,可商用的TAIDE-7B為8.3分,學研用的TAIDE-13B為8.74分。如果以中文mt-bench為評測工具,同樣以0到10分為評分,ChatGPT 3.5得到8.72分,可商用的TAIDE-7B只有6.24分,學研用的TAIDE-13B則是8.48分。

儘管4月底已釋出基於Llama 3的測試版模型,但目前TAIDE模型仍以Llama 2為主,結合繁體中文訓練資料。為了取得繁體中文資料,TAIDE團隊從「字詞語料」、「通用文本」、「特定領域」三方面盤點公私部門的資料,逐一取得授權,目前資料授權單位涵蓋中央部會、地方政府及民間組織,已完成處理的繁體中文資料共113.6GB,用於訓練模型。徐玉梅指出,未來精進及發展更大規模的模型,還需要各界提供更多的資料,以訓練模型。

至於算力方面,原本臺灣杉二號建置32臺Nvidia V100,供TAIDE模型專用。政府去年以1.1億元建置Nvidia H100,並與暨有臺灣杉二號整合,去年12月正式服務,模型訓練所需的時間縮短一半。

為了讓模型符合需求,團隊開發模型的同時,也和產學研合作,例如知識檢索,在產業方面,有業者結合模型開發企業專用的AI一體機,還有知識管理查詢、公文輔助文稿。

徐玉梅表示,在計畫推動一開始,就與產學研共同合作,目前的合作案例,一部分在開發中,部分則已商品化,也有一些正與政府部門接洽,希望推動實際的應用。

目前TAIDE模型的應用已有國臺客語,缺少原住民語言,她補充說明,目前TAIDE以純文字為主,訓練模型需要大量資料,原住民語言資料多以影像、影音為主,原住民語言的資料蒐集比較不易,後續會與原住民委員會,或是從數位典藏國家型計畫尋找可利用的原住民語言資料,TAIDE第一階段為純文字資料,後續會發展多模態發展,蒐集圖片資料。

至於未來產業及公部門如何運用?國科會政務副主委林法正表示,TAIDE為基礎或通用模型,釋出供外界運用,公部門可結合其業務特有的資料,可應用在資料彙整、會議記錄彙整,寫公文,或是回覆民眾的詢問。TAIDE計畫剛開始與教授合作,因此最初應用在教育方面,未來在法律、醫療的應用也正在發展中。

AI快速發展應用,各國制定專門的法規,臺灣也在研擬AI基本法,林法正指出,因AI科技發展非常快,各國在制定基本法上都採取觀望態度,因應外界的期望,國科會原本預定今年底提出基本法給行政院,如果行政院認為有需要提前,可提前至10月提出基本法。

熱門新聞

Advertisement