Google最新版圖片生成AI模型Imagen 3,已悄悄問世,並提供給企業與一般用戶。

Google並未單獨為Imagen 3宣傳,而是悄悄在DeepMind上公布,同時發表論文。Image 3將提供多個版本,每種各有著重任務,從素描到高解析度圖片等。Imagen 3現已在Google圖片生成服務ImageFX及AI模型開發平臺VertexAI上線。此外,本周稍早發表的Pixel 9上的Pixel Studio應用,也將以整合雲端上的Imagen 3提供圖片生成服務。

Imagen 3為一潛在擴散模型(latent diffusion model),能根據用戶輸入的文字提示產生高品質圖片。Google說,DeepMind團隊大幅提升Imagen 3提示理解能力,使模型能生成了解並遵循長而高度描述性的提示,並生成細節繁複、色彩鮮豔、以及視覺設計更豐富的圖片。

例如它能理解以下提示,並生成圖片:「一個布偶立體模型場景中,出現僻靜森林中的靜謐畫面,中間置入一個網版印刷效果呈現的機器人,它有巨大渾圓的身軀,但十分善良。機器人肩上停著一隻貓頭鷹,腳邊有隻狐狸。圖片包含5種柔和顏色,並以光線營造寧靜和諧的感覺,可激發對自然之美的沈思和讚頌。」

Imagen 3預設可生成1024x1024解析度的圖片,用戶可以2倍、4倍、或8倍採樣生成想要的圖片。DeepMind團隊將Imagen 3和Imagen 2與其他知名圖片生成AI模型,如DALL-E 3、Midjourney v6、Stable Diffusion(SD)3 Large、SD XL 1.0等進行比較。根據其數據,Imagen 3在生成圖片與提示的符合度,僅次於Midjourney 6,但在詳細提示的符合度(fig 5),及理解數字的能力(fig 6)則是所有模型最佳。團隊也聲稱生成圖片畫質技冠群雄(fig 7),並且是最能在圖片畫質和用戶意圖間取得平衡的模型。

但Google也承認,Imagen 3的計數能力有待加強,且牽涉規模(如大小)、行為,以及包含複合詞的提示,對所有模型都有理解難度。

馬斯克的AI公司xAI也在本周公布了圖片生成模型Grok-2系列。

熱門新聞

Advertisement