GitHub
繼去年公布多模態AI模型Ferret後,蘋果本月稍早又開源可根據自然語言提示編修圖片的多模態AI模型MGIE,可以更精確完成修圖或改良圖片。
這個AI模型是蘋果和加州大學聖塔巴巴拉分校研究人員合作開發,預定今年5月在國際表徵學習大會(International Conference of Learning Representation,ICLR)上發表。
MGIE意為MLLM導引圖片編輯(MLLM-Guided Image Editing),目的在解決現有AI圖片編輯模型的問題。研究人員說明,指令為基礎的圖片編輯AI模型,可根據自然語言指令操控圖片而無需精細描述或遮罩。但是人類下的指令往往太短,現有AI方法無法理解和遵循。多模態大型語言模型(multimodal large language model,MLLM)具跨模態理解,且能生成視覺回應,研究小組於是利用MLLM協助產生圖片編輯指令的新方法,稱為MGIE。
MGIE程式碼主體來自LLaVA(Large Language and Vision Assistant),能從人類提示得出表現指令,並提供清楚而明確的圖片編輯指引。例如,當使用者輸入「讓天空更藍」的文字,MGIE則會推出「讓天空部份的飽和感增加20%」。透過端到端的訓練,MGIE模型能同時產生視覺化想像,並進行圖片像素的操控。
MGIE可用於多種圖片編修目的,包括依用戶指令編修、或像Photoshop一樣修圖(如裁切、旋轉、翻面、調整大小)。它也能針對局部編修,像是對人臉、眼睛、衣服或飾品等部位強化,也可以提升照片整體品質,像是亮度、對比、清晰度或色彩平衡度,或是套用繪畫風格,如素描、油畫和卡通畫風。
蘋果已將MGIE經由GitHub開源,包括程式碼、範例與授權,供有興趣的使用者下載,也可以在Hugging Face試用。
這是蘋果最新公開的AI研發成果,但並非蘋果的官方發布。上星期蘋果執行長Tim Cook在季報分析師會議中透露今年內將推出自有生成式AI功能。
熱門新聞
2024-11-25
2024-11-25
2024-11-15
2024-11-15
2024-11-26