蘋果開源圖片編修AI模型MGIE

圖片來源:

GitHub

繼去年公布多模態AI模型Ferret後，蘋果本月稍早又開源可根據自然語言提示編修圖片的多模態AI模型MGIE，可以更精確完成修圖或改良圖片。

這個AI模型是蘋果和加州大學聖塔巴巴拉分校研究人員合作開發，預定今年5月在國際表徵學習大會（International Conference of Learning Representation，ICLR）上發表。

MGIE意為MLLM導引圖片編輯（MLLM-Guided Image Editing），目的在解決現有AI圖片編輯模型的問題。研究人員說明，指令為基礎的圖片編輯AI模型，可根據自然語言指令操控圖片而無需精細描述或遮罩。但是人類下的指令往往太短，現有AI方法無法理解和遵循。多模態大型語言模型（multimodal large language model，MLLM）具跨模態理解，且能生成視覺回應，研究小組於是利用MLLM協助產生圖片編輯指令的新方法，稱為MGIE。

MGIE程式碼主體來自LLaVA（Large Language and Vision Assistant），能從人類提示得出表現指令，並提供清楚而明確的圖片編輯指引。例如，當使用者輸入「讓天空更藍」的文字，MGIE則會推出「讓天空部份的飽和感增加20%」。透過端到端的訓練，MGIE模型能同時產生視覺化想像，並進行圖片像素的操控。

MGIE可用於多種圖片編修目的，包括依用戶指令編修、或像Photoshop一樣修圖（如裁切、旋轉、翻面、調整大小）。它也能針對局部編修，像是對人臉、眼睛、衣服或飾品等部位強化，也可以提升照片整體品質，像是亮度、對比、清晰度或色彩平衡度，或是套用繪畫風格，如素描、油畫和卡通畫風。

蘋果已將MGIE經由GitHub開源，包括程式碼、範例與授權，供有興趣的使用者下載，也可以在Hugging Face試用。

這是蘋果最新公開的AI研發成果，但並非蘋果的官方發布。上星期蘋果執行長Tim Cook在季報分析師會議中透露今年內將推出自有生成式AI功能。

熱門新聞