圖片來源: 

Stability AI

提供AI圖片生成的新創公司Stability AI本周宣布開源最新版模型Stable Diffusion 3.5,修正之前版本品質低落的問題。

6月份Stability AI釋出第一個開源模型Stable Diffusion 3 Medium,但是未能滿足社群期望,像是生成的人物身形怪異、手指變形、或是未能按照提示生成圖像等,迫使該公司為此致歉。原因可能出於開源版本只有20億參數,效果遠不如付費版本。

為此Stability AI決定重新開發一個版本,而非以修補方式強化原來的Stable Diffusion 3 Medium。該公司強調3.5版更能反映其以門檻低、多數應用場景免費的進階工具幫助開發人員和創作者的承諾,也鼓勵開發人員將之用於微調、優化、LoRA(Low-Rank Adaptation,深度學習模型的微調法)、應用或創作。

最新版本模型包含二款多模態大型語言模型Stable Diffusion 3.5 Large(8B)及Stable Diffusion 3.5 Large Turbo(8B)。其中Stable Diffusion 3.5 Large為多模態擴散Transformer(MMDiT)文字轉圖片模型,使用三種預訓練固定式text encoder及QK-normalization(正規化)方法提升訓練穩定性。Stable Diffusion 3.5 Large Turbo則是在Stable Diffusion 3.5 Large基礎上,加上對抗性擴散蒸餾(adversarial diffusion distillation)方法,以提升圖片畫質、類別和複雜提示理解力,以及資源效率,而且可減少推論步驟。

Stable Diffusion 3.5經由寬鬆Stability AI社群授權開源,開發人員可以從Hugging Face下載Stable Diffusion 3.5 Large及Large Turbo,並在GitHub下載推論程式碼。

熱門新聞

Advertisement