Google開發逐步蒸餾技術，小資料小模型也能打敗LLM

為了解決模型大小和訓練資料收集成本之間的權衡問題，Google現在發展一種稱為逐步蒸餾（Distilling Step-by-Step）的技術，可用比一般方法少得多的資料，訓練用於特定任務的小模型，但是效能卻能優於少樣本提示語言模型（Few-Shot Prompted LLM）。

大型語言模型雖然功能強大，但是實際部署卻具有各種挑戰，Google提到，光是要部署一個1,750億參數的大型語言模型，專用基礎設施的GPU記憶體就至少需要350 GB。更不用說先進的語言模型參數可能高達5,000億個，所以供應商為了規避這類部署挑戰，通常會選擇部署較小的專用模型。

研究人員解釋，小型專用模型有兩種訓練方式，分別是微調（Fine-tuning）和蒸餾（Distillation）。微調使用人工註釋資料，更新預先訓練的BERT或T5等規模較小的模型。而蒸餾的概念則是將一個大型模型，或稱為教師模型的知識，轉移至一個比較小的學生模型，運用大型語言模型所生成的標籤，訓練相同但規模較小的模型，雖然蒸餾法可以讓學生模型的規模和複雜性都遠低於教師模型，效能卻可以接近或是超越教師模型。

但是要達到良好的效能，微調法需要人工生成標籤，這個過程既昂貴又繁瑣，而蒸餾法則需要大量未標記的資料，且收集資料本身就並非一件簡單的事。因此Google發展了逐步蒸餾法，這相對是一個簡單的機制，能夠讓研究人員以比標準微調或是蒸餾法少得多的訓練資料，訓練一個更小且專用於特定任務的模型，而且效能還可能可以優於少樣本提示語言模型。

少樣本提示語言模型是指，大型語言模型使用少量的樣本，並透過提示來完成任務的方法，像是要求語言模型完成翻譯任務，研究人員便可以提供少量的英翻中樣本，再給予新的提示問題，期望模型能夠依據範例正確翻譯新問題。

研究人員解釋，當大型語言模型被問到某些問題時，能夠透過推理並給出最終答案，這些中間的推理包含了可以完成任務需要的重要知識，但是小型模型需要大量資料才能學到這些知識。因此逐步蒸餾的核心想法，便是從大型語言模型中擷取有用的自然語言解釋，也就是中間的推理步驟，然後使用這些解釋更有效地訓練小型模型。

因此逐步蒸餾的第一步驟，是從大型語言模型中擷取解釋，研究人員會提供少數範例，這些範例包含問題、中間的解釋和答案，引導大型語言模型對新的問題產生相對應的解釋。第二階段則是利用第一階段取得的解釋訓練小型模型，小型模型學習由大型語言模型生成的中間推理步驟，便能夠更好地預測答案。

研究人員使用5,400億參數的PaLM大型語言模型，並選用T5作為特定任務的模型，實驗在不同自然語言處理任務的表現。透過逐步蒸餾法，使用較少的訓練資料就能超越標準微調方法的效果，甚至僅擁有2.2億參數的T5模型，在e-SNLI資料集表現就可超越5,400億參數的PaLM大型語言模型。

而在ANLI資料集上，只擁有7.7億參數的T5模型只使用整個資料集的80％，效果便以超越擁有5,400億參數的PaLM大型語言模型。這些結果證明了逐步蒸餾法即便使用小資料，小模型仍可以超越大型語言模型的效能。

熱門新聞