Google應用擴散模型拉高照片解析度，人類難區分合成與真實照片

Google研究人員發表逼真圖像生成新方法，能夠突破擴散模型合成圖像品質的限制，透過結合反覆精細改進（SR3）演算法，以及一種稱為串連擴散模型（Cascaded Diffusion Models，CDM）的類型條件（Class-Conditional）合成模型，其生成圖像的品質勝過當前的所有方法。

自然合成圖像是機器學習技術的應用之一，能夠廣泛用於各種領域之中，像是圖像超解析度（Super-Resolution），透過訓練模型將低解析度圖像，轉換成為細節豐富的高解析度圖像，研究人員提到，這樣的方法帶來許多好處，無論是全家福舊照或是醫學成像系統，圖像品質都可以獲得大幅改進。另一種圖像合成任務，則是類型條件（Class-Conditional）圖像生成，經訓練的模型能夠依據使用者輸入的標籤，來生成樣本圖像。

在2015年的時候，擴散模型被提出來，由於其在圖像和音訊生成領域，有著訓練穩定度，和樣本品質佳的特性，因此受到關注，與其他類型的深度生成模型相比，擴散模型透過提高高斯雜訊來破壞訓練資料，緩慢消除資料細節直到剩下完全的雜訊，接著訓練神經網路來反轉這個破壞過程，在反轉過程逐漸除去雜訊，直到剩下乾淨的樣本，研究人員提到，這樣的合成過程可以算是一種最佳化演算法，能夠遵循資料密度的梯度，來產生可能的樣本。

在Google的最新研究中，透過連結SR3以及CDM，來突破擴散模型圖片生成的解析度瓶頸，藉由擴大擴散模型，加上特殊的資料增強技術，就可產生勝過現有方法的結果。SR3是一種超解析度擴散模型，以低解析度作為輸入，並從完全的雜訊中，建構出相對應的高解析度圖像。這個模型利用圖像破壞過程進行訓練，在該過程中，逐漸添加雜訊到高解析度圖像中，直到完全剩下的雜訊，然後再逆轉這個過程，從純雜訊開始，透過輸入低解析度圖像，來引導模型逐步去除雜訊。

SR3模型的效果很好，在執行提高人臉和自然圖片解析度的任務中，SR3模型所產生的圖像，能夠以50％的混淆率，讓受測者辨識不出究竟是生成的圖像，還是由相機拍攝的圖像，也就是説，SR3模型生成的圖像，人類已經難以區分真假。

在SR3可以產生超高解析度圖像之後，研究人員將SR3模型用在類型條件圖像生成中。CDM是類型條件的擴散模型，利用ImageNet資料訓練，以生成高解析度自然圖像，因為ImageNet是一個困難且高亂度的資料集，因此研究人員串連多個擴散模型來建置CDM。

研究人員提到，這種串連方法可以將跨數個空間解析度的多個生成模型鏈結在一起，再產生低解析度資料的擴散模型，僅接著一系列SR3高解析度擴散模型，來逐漸將生成圖像的解析度提高。

總體結果，SR3所生成的超高解析度圖像，在人類評估超過了GAN，而CDM所生成的逼真樣本，在評估生成模型創建圖片品質的FID（Fréchet Inception Distance）分數以及分類準確度分數，都大幅超過當前頂尖方法BigGAN-deep與VQ-VAE-2。

熱門新聞