Black Forest Labs開源圖像生成模型Flux

圖片來源:

BlackForestLabs

AI新創如雨後春筍般地出現，在8月1日正式發表的黑森林實驗室（Black Forest Labs），於同一天推出了文字生成圖像模型FLUX.1 ，並宣稱其Elo積分凌駕了Stable Diffusion 3 Ultra、Ideogram、Midjourney 6.0及DALL·E 3。

圖片來源／Black Forest Labs

Black Forest Labs共同創辦人之一的Andreas Blattmann專精於潛在擴散（Latent Diffusion）技術，曾任職於Stability AI，迄今該團隊已開發了多款用來生成圖像及影片的模型，包括VQGAN（Vector Quantized Generative Adversarial Network）、潛在擴散及穩定擴散模型，以及支援快速與即時生成的對抗性擴散蒸餾（Adversarial Diffusion Distillation，ADD）技術。

除了已具備強大的模型基礎之外，Black Forest Labs目前已完成3,100萬美元的種子融資，主要由美國科技創投Andreessen Horowitz 領投，再加上許多天使投資人。

Black Forest Labs所打造的FLUX.1有3種版本，分別是FLUX.1 pro、FLUX.1 dev與FLUX.1 schnell，其中，FLUX.1 pro為商業版，可支援客製化企業解決方案，強調具備頂級的提示遵循、視覺品質、圖像細節及多元化的輸出。

至於FLUX.1 dev及FLUX.1 schnell皆為開源版，前者以指導蒸餾技術進行最佳化，並開放權重，僅限非商業使用；後者則是個精簡模型，適用於本地開發與個人使用，採用Apache2.0 授權。

所有FLUX.1模型都支援不同的畫面比例，以及自10萬到200萬畫素的解析度，儘管現在只支援文字生成圖像，但下一步就會進化到文字生成影像。使用者可透過不同的平臺試用上述版本。

現階段市場上既有的文字生成圖像模型包括Stability AI的開源模型Stable Diffusion，OpenAI的DALL-E 3，DeepAI，Midjourney，Google Imagen，以及Artbreeder等。

熱門新聞