微軟探討大型語言模型在醫療領域錯誤檢測與修正的應用,並推出了名為MEDEC的全新基準測試集。然而,這篇論文同時也估計了市面上多個商業模型的規模,研究團隊認為OpenAI GPT-4o-mini僅約80億參數,遠小於外界先前的預期。

該篇論文評估大型語言模型在辨識並修正臨床紀錄醫療錯誤的能力,在實驗過程中,研究團隊使用目前多個先進型語言模型進行測試,包括OpenAI的GPT-4、GPT-4o、GPT-4o-mini、o1-preview、o1-mini,Anthropic的Claude 3.5 Sonnet,以及Google的Gemini 2.0 Flash。

在研究人員的評測中,雖然這些大型語言模型展現出一定的醫療錯誤檢測與修正能力,但仍不如兩位執行相同測試的醫生。在標記出錯誤的準確度上,Claude 3.5 Sonnet表現最佳,達到70.16%,其次是o1-mini的69.08%,但皆低於第一位醫生的79.61%和第二位醫生的71.61%。

而在錯誤修正任務上,o1-preview取得最佳的綜合評分0.698,其次是GPT-4的 0.639,但同樣低於第二位醫生的0.7118。評測結果顯示當前的大型語言模型,在處理複雜的醫療文本時還有很大的進步空間。

除了論文本身的研究成果,其中提及的各模型參數規模估計值也引發關注。其中,OpenAI的上一代旗艦模型GPT-4,其參數規模約為1.76兆,雖然OpenAI並未正式公開,但是此為外界普遍估計值。而其後繼者GPT-4o的參數規模估計約為2,000億,雖仍屬於大型模型範疇,但已較GPT-4有所下降。OpenAI其他模型的規模估計還有o1-preview約為3,000億參數,o1-mini約為1,000億參數。

而令人驚訝的是GPT-4o-mini,其參數規模僅約為80億,與OpenAI其他動輒千億甚至兆級參數的模型相比,規模明顯縮減。論文中提到,相較於大型語言模型,GPT-4o-mini是為了特定任務而設計,和Phi-3同屬小型語言模型。

Anthropic的Claude 3.5 Sonnet根據網路上洩露的資訊,預估約為1,750億參數,與GPT-3.5相近。而Google的Gemini 2.0 Flash參數規模雖然具體數字未知,但參考Google專為醫療用途設計的Med-PaLM模型5,400億參數,研究人員將Gemini 2.0 Flash歸類在1,000-3,000億參數等級。

值得注意的是,微軟論文中提供的參數規模數字為研究團隊的估計值,並非各家公司官方公布的資料。此外,這些資料也顯示,模型的效能並非完全取決於參數規模,模型架構、訓練資料、最佳化方法以及針對特定任務的調校,都在模型的最終表現上扮演著重要角色,例如GPT-4o-mini雖然估計僅有80億參數,但在MEDEC測試的部分指標,仍能與更大模型相媲美,突顯出小型化、專注特定任務的模型,在特定應用場景下所具有的潛力。

熱門新聞

Advertisement