Google圖片生成模型Imagen 3在美上線

Google最新版圖片生成AI模型Imagen 3，已悄悄問世，並提供給企業與一般用戶。

Google並未單獨為Imagen 3宣傳，而是悄悄在DeepMind上公布，同時發表論文。Image 3將提供多個版本，每種各有著重任務，從素描到高解析度圖片等。Imagen 3現已在Google圖片生成服務ImageFX及AI模型開發平臺VertexAI上線。此外，本周稍早發表的Pixel 9上的Pixel Studio應用，也將以整合雲端上的Imagen 3提供圖片生成服務。

Imagen 3為一潛在擴散模型（latent diffusion model），能根據用戶輸入的文字提示產生高品質圖片。Google說，DeepMind團隊大幅提升Imagen 3提示理解能力，使模型能生成了解並遵循長而高度描述性的提示，並生成細節繁複、色彩鮮豔、以及視覺設計更豐富的圖片。

例如它能理解以下提示，並生成圖片：「一個布偶立體模型場景中，出現僻靜森林中的靜謐畫面，中間置入一個網版印刷效果呈現的機器人，它有巨大渾圓的身軀，但十分善良。機器人肩上停著一隻貓頭鷹，腳邊有隻狐狸。圖片包含5種柔和顏色，並以光線營造寧靜和諧的感覺，可激發對自然之美的沈思和讚頌。」

Imagen 3預設可生成1024x1024解析度的圖片，用戶可以2倍、4倍、或8倍採樣生成想要的圖片。DeepMind團隊將Imagen 3和Imagen 2與其他知名圖片生成AI模型，如DALL-E 3、Midjourney v6、Stable Diffusion（SD）3 Large、SD XL 1.0等進行比較。根據其數據，Imagen 3在生成圖片與提示的符合度，僅次於Midjourney 6，但在詳細提示的符合度（fig 5），及理解數字的能力（fig 6）則是所有模型最佳。團隊也聲稱生成圖片畫質技冠群雄（fig 7），並且是最能在圖片畫質和用戶意圖間取得平衡的模型。

但Google也承認，Imagen 3的計數能力有待加強，且牽涉規模（如大小）、行為，以及包含複合詞的提示，對所有模型都有理解難度。

馬斯克的AI公司xAI也在本周公布了圖片生成模型Grok-2系列。

熱門新聞