| KOSMOS-1 | 微軟 | Multimodal Large Language Model | 多模態 | 大型語言模型

微軟展示不只看懂文字,還能理解圖像的AI模型

微軟認為若能增加多模輸入能力,將能大幅拓展語言模型用於高價值任務的可能性,因此發展出多模大型語言模型KOSMOS-1,除了能理解文字,也能看懂圖片及影像,可用於更多任務,像是為影片加字幕說明、看圖片回答文字問題、正確蒐集網頁資訊等

2023-03-07