Stability AI改進自家著名的文字轉圖像模型釋出SDXL Turbo(Stable Diffusion XL Turbo),藉由應用創新的對抗性擴散蒸餾技術(Adversarial Diffusion Distillation,ADD),將需要的迭代步驟從50步減少到僅剩1步,單步驟就能生成高品質圖像。目前Stability AI將模型權重和程式碼公開在Hugging Face,供個人和非商業用途使用。

SDXL Turbo模型最大特點,就是能夠單步合成影像輸出,並在即時文字轉影像輸出上保持高採樣傳真度。而之所以SDXL Turbo能夠有別於過去的模型,主要原因在於使用了一種稱為對抗性擴散蒸餾技術,官方論文提到,這個方法能夠只經過1到4步驟高效採樣,達到高品質輸出圖像。

對抗性擴散蒸餾技術以現有的大型圖像擴散模型,作為教師訊號,並結合對抗性損失,確保即便在低步驟採樣中,也能維持高圖像傳真度。簡單來說,對抗性擴散蒸餾技術結合了蒸餾技術和對抗訓練,蒸餾技術可以精煉模型輸出,將大型模型知識濃縮到更小的模型中,而對抗性訓練則可以改進模型,以更好地模仿教師模型輸出。

過去的蒸餾技術很難達到高效率又高品質,因為快速採樣通常會降低輸出品質,因此對抗性擴散蒸餾技術在高效生成高品質圖像方面,是一個重要的進步。

官方評估SDXL Turbo的效能,將其與多個不同的模型變體進行,包括StyleGAN-T++、OpenMUSE、IF-XL、SDXL和LCM-XL。在這項評估中,人類評估者參與兩種實驗,第一個實驗是隨機查看兩個模型的輸出,並選擇出最符合提示詞的輸出圖像,第二項實驗則與第一項實驗執行方法相同,但人類評估者需選擇圖像品質較佳者。

實驗結果顯示,SDXL Turbo在運算需求大幅降低的同時,仍可以保持良好的圖像品質,單步SDXL Turbo勝過4步配置的LCM-XL,並且4步配置SDXL Turbo就可擊敗50步配置的SDXL。SDXL Turbo的推理速度非常快,在A100 GPU上,計算512*512解析度的圖像,只需要207毫秒。

熱門新聞

Advertisement