Google研究人員發表逼真圖像生成新方法,能夠突破擴散模型合成圖像品質的限制,透過結合反覆精細改進(SR3)演算法,以及一種稱為串連擴散模型(Cascaded Diffusion Models,CDM)的類型條件(Class-Conditional)合成模型,其生成圖像的品質勝過當前的所有方法。

自然合成圖像是機器學習技術的應用之一,能夠廣泛用於各種領域之中,像是圖像超解析度(Super-Resolution),透過訓練模型將低解析度圖像,轉換成為細節豐富的高解析度圖像,研究人員提到,這樣的方法帶來許多好處,無論是全家福舊照或是醫學成像系統,圖像品質都可以獲得大幅改進。另一種圖像合成任務,則是類型條件(Class-Conditional)圖像生成,經訓練的模型能夠依據使用者輸入的標籤,來生成樣本圖像。

在2015年的時候,擴散模型被提出來,由於其在圖像和音訊生成領域,有著訓練穩定度,和樣本品質佳的特性,因此受到關注,與其他類型的深度生成模型相比,擴散模型透過提高高斯雜訊來破壞訓練資料,緩慢消除資料細節直到剩下完全的雜訊,接著訓練神經網路來反轉這個破壞過程,在反轉過程逐漸除去雜訊,直到剩下乾淨的樣本,研究人員提到,這樣的合成過程可以算是一種最佳化演算法,能夠遵循資料密度的梯度,來產生可能的樣本。

在Google的最新研究中,透過連結SR3以及CDM,來突破擴散模型圖片生成的解析度瓶頸,藉由擴大擴散模型,加上特殊的資料增強技術,就可產生勝過現有方法的結果。SR3是一種超解析度擴散模型,以低解析度作為輸入,並從完全的雜訊中,建構出相對應的高解析度圖像。這個模型利用圖像破壞過程進行訓練,在該過程中,逐漸添加雜訊到高解析度圖像中,直到完全剩下的雜訊,然後再逆轉這個過程,從純雜訊開始,透過輸入低解析度圖像,來引導模型逐步去除雜訊。

SR3模型的效果很好,在執行提高人臉和自然圖片解析度的任務中,SR3模型所產生的圖像,能夠以50%的混淆率,讓受測者辨識不出究竟是生成的圖像,還是由相機拍攝的圖像,也就是説,SR3模型生成的圖像,人類已經難以區分真假。

在SR3可以產生超高解析度圖像之後,研究人員將SR3模型用在類型條件圖像生成中。CDM是類型條件的擴散模型,利用ImageNet資料訓練,以生成高解析度自然圖像,因為ImageNet是一個困難且高亂度的資料集,因此研究人員串連多個擴散模型來建置CDM。

研究人員提到,這種串連方法可以將跨數個空間解析度的多個生成模型鏈結在一起,再產生低解析度資料的擴散模型,僅接著一系列SR3高解析度擴散模型,來逐漸將生成圖像的解析度提高。

總體結果,SR3所生成的超高解析度圖像,在人類評估超過了GAN,而CDM所生成的逼真樣本,在評估生成模型創建圖片品質的FID(Fréchet Inception Distance)分數以及分類準確度分數,都大幅超過當前頂尖方法BigGAN-deep與VQ-VAE-2。

熱門新聞

Advertisement