明清研究專用非通用！使用開源簡中語料微調LLM模型引起熱議，中研院宣布已下架繁中優化的大型語言模型CKIP-Llama-2-7b

中研院在上周五開源釋出了用Meta的Llama 2所開發的繁中優化的大型語言模型CKIP-Llama-2-7b，並將其放上GitHub等平臺，提供學術和商用。不過，最初在訓練階段部分使用了簡中的開源資料集，導致多任務微調的繁中模型，在回答提問時可能出現簡中習慣的用語或詞彙，引起社群廣泛討論和關注。在模型釋出第4天，中研院資訊所在今日傍晚（10/9）發布聲明稿，宣布已將該模型下架。

中研院此次使用開源商用LLM模型Llama 2所開發的CKIP-LlaMa-2-7b模型，是一項來自中研院內部的計畫，該計畫的目的是要透過繁中優化的大型語言模型，協助研究人員自動化分析和建構中國明清朝代人物的生平圖譜，包括歷史人物、事件、時間、地點等事理圖譜。完成模型後，中研院不僅將其用於內部用途，還將該模型開源，提供給公眾進行試用。

但這是一款用於明清人物，例如朱自清、徐志摩，分析用的特定用途優化LLM，而非通用型的繁中語言模型，因此中研院才使用了與分析對象高度相關的簡中語料來協助分析民國以後的文史資料，而沒有使用詞庫小組原有的資料，也因為這是特定用途短期計畫之用，預算僅30萬元，而非一般通用型語言模型動輒數千萬元或更大規模的投資，但是在釋出專案中，沒有詳細說明這款專用模型的初始訓練用途，讓外界誤以為是通用型的繁中語言模型而有更大的期待。

為了訓練可以自動化明清人物分析的LLM模型，需要大量文言文的語料。因此，CKIP Lab團隊在構建訓練資料時，也納入了來自中國的簡中語料，以便進行文言文和白話文的相互翻譯，以及詩詞等方面閱讀理解。這也解釋了為什麼中研院沒有使用自己多年累積的中文繁體語料。

CKIP-LlaMa-2-7b模型最初用於明清人物的生平自動化分析使用，中研院強調，因為與「臺版ChatGPT」功能有所不同，許多提問測試並不在其原始研究範疇之內。同時，中研院指出，該模型與國科會正在開發的國產可信任AI對話引擎（TAIDE）無關。

中研院進一步補充說明，這是一項總經費約30萬元的個人小型研究，經費主要用於運算成本支出。為了訓練出這款具有70億參數的CKIP-LlaMa-2-7b模型，中研院租用了4個Nvidia A100 GPU的雲端運算服務系統，共花費了10多天進行模型訓練。

然而，在該模型微調的過程中，由於部分使用含有簡中內容的COIG-PC和dolly開源資料集，導致模型釋出後，許多人在實際測試中發現，中研院的繁中語言模型在回答提問時可能含有簡中習慣的用語或詞彙出現，而引起熱議。負責該計畫的研究人員表示，生成式AI容易產生所謂的「幻覺」（hallucination），使模型生成的內容與預期不符，這是未來要積極改善的領域，並表示未來研究及成果釋出，會更加謹慎。

為了防止類似問題再次發生，中研院強調將建立審核機制，未來，研究人員必須經過審核才能對外公開釋出其相關研究成果。儘管中研院已下架該模型，但對於修正後是否重新上架則沒有多做說明。

熱門新聞