| 微軟 | Phi-4 多模態 | 語音辨識 | 邊緣運算
微軟發展自家多模態模型Phi-4-multimodal,56億參數支援裝置端運作
微軟推出Phi-4-multimodal多模態模型,整合語音、圖像與文字處理,提升語音辨識與推理能力,並最佳化裝置端執行,適用於邊緣人工智慧應用
2025-02-27
Meta運用聖經譯本與錄音改進語音模型,現可支援超過千種語言
Meta新的多語言語音辨識模型MMS能夠處理1,107種語言,在語音和文字間轉換,同時還能辨識超過4,000種的口說語言
2023-05-23
| AI | 語音辨識 | 圖文生成 | Transformer | 自監督 | 抓臭蟲 | 微軟 | IT周報
AI趨勢周報第184期:會聽也會讀唇語!Meta AI研究院開源新模型讓語音辨識更精準
Meta AI研究院用Transformer打造出能聽又能讀唇語的語音辨識模型;百度推出中文界最大跨模態圖文生成預訓練模型「文心ERNIE-ViLG」;微軟用自監督AI抓程式碼臭蟲,效能提高3成;蘋果打造最大的室內3D場景AR資料集。
2022-01-13