
微軟發表Phi-4-multimodal,這是一款小型語言模型(SLM)具備處理語音、圖像與文字的能力,已於Azure AI Foundry、Hugging Face及Nvidia API Catalog上線。相較於過去的Phi-3.5及Phi-4.0,這次的版本不僅提升了多模態整合能力,也強化了語音辨識、視覺理解與推理能力,適用於開發多元人工智慧應用的場景。微軟強調,Phi-4-multimodal針對運算資源受限的環境進行最佳化,能夠在裝置端執行。
在非多模態架構下,語音輸入通常需先透過語音辨識技術轉換為文字,而影像則可能需透過獨立的視覺模型處理,之後再進行語言理解或跨模態分析。這種方式不僅增加延遲,也無法充分利用語音中的額外資訊,例如語調、語境或背景音。Phi-4-multimodal則透過統一的神經網路架構,直接對語音、圖像和文字進行處理,減少資料轉換過程的資訊流失,並提升整體處理效率。
技術規格上,Phi-4-multimodal具有56億參數,支援12.8萬Token的上下文長度,並透過監督式微調、直接偏好最佳化(DPO)與人類回饋強化學習(RLHF)等方式,提升指令遵循能力與安全性。在語言支援方面,文字處理涵蓋超過20種語言,包括中文、日文、韓文、德文與法文等,語音處理則涵蓋英語、中文、西班牙語、日語等主要語種,圖像處理目前則以英文為主。
Phi-4-multimodal的一大亮點在於語音處理能力,特別是在語音辨識與語音翻譯方面,已超越WhisperV3及SeamlessM4T-v2-Large,並在Hugging Face OpenASR排行榜上達到只有6.14%的字錯率(WER),優於WhisperV3的最佳成績6.5%。此外,這款模型也在數學與科學推理測試中表現出色,並在OCR、圖表理解與文件推理等應用可與其他大型模型競爭,如Gemini-2.0-Flash Lite與Claude-3.5-Sonnet。
除了多模態模型,微軟也推出Phi-4-mini,這是一款38億參數的小型模型,專注於文字處理,特別適用於程式碼生成、數學推理、長文本處理與函式呼叫。Phi-4-mini採用分組查詢注意力機制(Grouped-Query Attention),提升計算效率,也支援12.8萬Token內容,在同等級的小型語言模型中擁有更強的推理與指令遵循能力。
微軟與OpenAI的合作仍然持續,但在小型語言模型(SLM)領域,微軟也積極發展自家技術,以補足OpenAI大型模型之外的應用需求。與GPT-4等大規模模型不同,Phi-4-multimodal及Phi-4-mini採用較小的參數規模,針對低延遲推理與計算資源受限的場景進行最佳化,適用於邊緣設備、嵌入式應用及行動裝置。這類小型模型的發展,也反映出人工智慧應用在雲端與裝置端的多元部署策略,讓智慧設備能夠更高效地處理多模態輸入。