圖片來源: 

BlackForestLabs

AI新創如雨後春筍般地出現,在8月1日正式發表的黑森林實驗室(Black Forest Labs),於同一天推出了文字生成圖像模型FLUX.1 ,並宣稱其Elo積分凌駕了Stable Diffusion 3 Ultra、Ideogram、Midjourney 6.0及DALL·E 3。

圖片來源/Black Forest Labs

Black Forest Labs共同創辦人之一的Andreas Blattmann專精於潛在擴散(Latent Diffusion)技術,曾任職於Stability AI,迄今該團隊已開發了多款用來生成圖像及影片的模型,包括VQGAN(Vector Quantized Generative Adversarial Network)、潛在擴散及穩定擴散模型,以及支援快速與即時生成的對抗性擴散蒸餾(Adversarial Diffusion Distillation,ADD)技術。

除了已具備強大的模型基礎之外,Black Forest Labs目前已完成3,100萬美元的種子融資,主要由美國科技創投Andreessen Horowitz 領投,再加上許多天使投資人。

Black Forest Labs所打造的FLUX.1有3種版本,分別是FLUX.1 pro、FLUX.1 dev與FLUX.1 schnell,其中,FLUX.1 pro為商業版,可支援客製化企業解決方案,強調具備頂級的提示遵循、視覺品質、圖像細節及多元化的輸出。

至於FLUX.1 dev及FLUX.1 schnell皆為開源版,前者以指導蒸餾技術進行最佳化,並開放權重,僅限非商業使用;後者則是個精簡模型,適用於本地開發與個人使用,採用Apache2.0 授權。

所有FLUX.1模型都支援不同的畫面比例,以及自10萬到200萬畫素的解析度,儘管現在只支援文字生成圖像,但下一步就會進化到文字生成影像。使用者可透過不同的平臺試用上述版本

現階段市場上既有的文字生成圖像模型包括Stability AI的開源模型Stable Diffusion,OpenAI的DALL-E 3,DeepAI,Midjourney,Google Imagen,以及Artbreeder等。

熱門新聞

Advertisement