突然刷到一个大新闻,前Stability AI 核心成员 Robin Rombach 创立了一个新的公司并且获得了3200万美元的融资。同时他们直接发布了一个系列的图像生成模型,其中两个还是开源的。大概测试了一下,最好的Pro模型效果相当好。
那么Robin Rombach是谁?
Robin Rombach 是一位在生成模型领域有着重要贡献的研究人员。他在海德堡大学(Heidelberg University)完成了物理学的本科和硕士学位。
作为研究员,他在Stability AI工作,期间他是Stable Diffusion模型的主要开发者之一。
核心论文包括:High-Resolution Image Synthesis with Latent Diffusion Models、Taming Transformers for High-Resolution Image Synthesis、SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis 等。
融资情况
他们的3200万美元融资主要由Andreessen Horowitz领投,天使投资者Brendan Iribe,Michael Ovitz,Garry Tan,Timo Aila 和Vladlen Koltun等知名专家及其他在人工智能研究和公司建设方面的专家。还获得了来自General Catalyst和MätchVC的后续投资。
模型介绍
他们这次主要发布了FLUX.1系列的三个模型:
- FLUX.1 [pro]: FLUX.1 的最佳版,提供最先进的性能图像生成,拥有一流的提示跟随、视觉品质、图像细节和输出多样性。
- FLUX.1 [dev]:FLUX.1 [dev]是用于非商业应用的一个开放重量的导向精馏模型。直接从 FLUX.1 [pro]精馏而来,FLUX.1 [dev]获得了类似的质量和及时的依从能力,同时比相同尺寸的标准模型更高效。可以非商业使用。
- FLUX.1 [schnell]:最快型号专为本地开发和个人使用而设计。FLUX.1 [schnell]在 Apache 2.0 许可下公开可用。同时已经获得了ComfyUI的支持,可以直接使用。
详细架构
所有公开的 FLUX.1 模型都基于多模态和并行扩散 Transformer 块的混合架构,并扩展到 120 亿 (12B) 参数。我们通过基于流匹配 (flow matching) 来改进先前最先进的扩散模型,这是一种通用且概念简单的训练生成式模型的方法,其中包括扩散作为特例。
此外,通过引入旋转位置嵌入 (rotary positional embeddings) 和并行注意力层来提高模型性能和硬件效率。我们将在不久的将来发布更详细的技术报告。
图像质量
模型在各自的类别中都创造了新的标准。FLUX.1 [pro] 和 [dev] 在以下每个方面都超越了流行的模型,如 Midjourney v6.0、DALL·E 3 (HD) 和 SD3-Ultra:视觉质量、提示响应度(即模型对输入提示的准确理解和执行能力)、尺寸/宽高比可变性、排版和输出多样性。
FLUX.1 [schnell] 是迄今为止最先进的少步骤模型 (few-step model),不仅超越了同类竞争对手,还超越了强大的非压缩模型(如 Midjourney v6.0 和 DALL·E 3 (HD))。
模型经过专门微调,以保留预训练阶段的全部输出多样性。与当前最先进的技术相比,它们提供了显著改进的可能性,具体内容如下所示。
藏师傅测试
上面是他们的介绍,我们来具体看一下模型效果怎么样,我选了几个提示词直接跟刚升级的Midjourney V6.1模型对比。
上面是MJ下面是FLUX.1 pro。
humour photorealism photography of super detailed, cheeky, cute looking, high detailed photorealistic, high quality, 8k, 35mm lens f/1.8, bright colours, humour, realistic, super colourful, group of 4 dogs all are different breeds taking a selfie, gopro on the floor facing the sky and dogs looking down, highly defined macrophotography, gopro, sharp details, realistic, sharp focus, high detailed photorealistic, bright colours, humour, realistic, funny, super colourful,
a long, windy road in the desert leading to the mountains
NIKON IMAGE OF A MINIMALIST LIVING ROOM WITH WHITE WALLS
A beautiful modern house in Spain with large, white plastic windows, viewed from the outside. The house features sleek, minimalist architecture with clean lines and a contemporary design. The exterior walls are in shades of white and neutral tones, blending perfectly with the lush green landscaping that surrounds the house. The windows are prominent and reflective, allowing a glimpse of the bright, airy interior. The scene is set under a clear blue Mediterranean sky, creating a bright and inviting atmosphere.
White rice is poured from the wooden spoon, white rice grains on a beige background, minimalistic, food photography in the style of a studio light, pastel colors, high resolution, high quality, professional photograph, highly detailed and sharp, natural lighting, professional color grading with white tones, clean sharp focus.
creative action view as a marvel comic book character Tony Starks wearing the Dr Doom costume but no mask but his normal human face,
The texture of a black chain-link fence through which green stems of plants with small yellow flowers grow and weave around it.
an atmospheric and minimalist pastel 3D rendering evoking a sense of melancholy and nostalgia for a bygone era, a giant eye with wings flies over a field of neon-lit flowers, broken greek columns, ruins, misty weather, vaporwave, retrowave, low poly, night time, mystical, liminal space, ominous, emptiness, melancholic, pastel colors, cult, religious, echoes of the past, unreal engine 5, occult, masterpiece, complex shaders
a boys, portrait, anime, happy, cartoon ,cover, vector, poster, 2d, with the background has a grid below the boy
Portrait of a chinese girl, long straight hair, holding fireworks, blue winter scarf, by the sea, soft moonlight, minimalist aesthetic, natural light, soft, Kodak Portra 400, film photography
测试结论
FLUX.1 Pro 不管是从提示词理解、画面美学表现、还是画面细节都相当好。
美学表现跟 Midjourney 不太一样,但是也很好属于不同的选择倾向性,他们的模型更加的偏向中性的结果,不会像MJ随便写都是大片,不过也很好看,也说明他们没有选择完全蒸馏MJ这种取巧的方法。
提示词理解两者真的差不多了,这点太强了,他甚至比MJ还强点。
画面细节还暂时比不上MJ但是也已经很好了,够用了。同时2D的风格化图片也可以画的很好,非常全面的模型。
加持上开源生态之后,只能说开源图像模型因为这一波又给他整活了,同时他们还会进军视频生成模型,期望到时候也可以开源一个低配版本,那可太爽了!
模型下载和使用
说了这么多模型在哪里使用呢?
Replicate上的API测试地址:
- https://replicate.com/collections/flux
- https://replicate.com/collections/flux-pro
- https://replicate.com/collections/flux-dev
- https://replicate.com/collections/flux-schnell
Huggingface的模型下载地址: