OpenAI圖片生成AI新方法sCM，速度是傳統擴散模型的50倍

OpenAI研發了一種稱為sCM（Continuous-Time Consistency Model）的生成方法，能夠大幅提升取樣速度，相比傳統的擴散模型，sCM只需要兩步驟取樣即可生成高品質樣本。研究顯示，sCM在生成效率提升約50倍，且樣本品質與最佳擴散模型相當，適合用於即時生成應用。

擴散模型已廣泛用於生成圖片、3D模型、音訊和影片，但是傳統擴散模型取樣過程緩慢，通常需要數十到數百個逐步降噪的過程，才能生成一個高品質樣本，因此，這類模型在即時應用和大規模資料生成方面效率很低且難以擴展，雖然現在已經有一些技術能夠加快擴散模型的速度，但是通常伴隨複雜訓練過程，甚至是樣本品質下降的副作用。

為了解決擴散模型的既有問題，OpenAI研究團隊開發了sCM。sCM這種經過改良的生成模型方法，只需要兩個取樣步驟即可生成與擴散模型品質相當的高解析度樣本，大幅縮短生成樣本的時間。由於sCM可實現約50倍的速度提升，因此特別適合用於即時應用，像是圖片、音訊和影片生成。

sCM也具有高可擴展性和穩定性，該模型可以處理大規模資料集，並能擴展至擁有15億參數的模型，而且在該規模下，sCM仍可保持高品質生成效果。sCM訓練過程利用預訓練擴散模型蒸餾出來的知識，在縮短了取樣時間的同時，保持高品質樣本生成。

研究人員使用ImageNet 512x512資料集訓練的sCM，能夠生成細節豐富且高品質的圖像，展現其在高解析度生成方面的能力。雖然sCM只有兩個取樣步驟，但是生成的樣本品質依然可接近最佳擴散模型，研究人員使用FID（Fréchet Inception Distance）分數進行評估，sCM樣本品質與需要數百步驟取樣的擴散模型相比，差異不到10％。

熱門新聞