Stable Diffusion 主创团队离开原公司,Robin Rombach 领衔 Black Forest Labs 创业,新作 FLUX.1 一举超越 MJ v6 和 SD3,且已开源 — AI 图像生成技术再创新高
近期,AI图像与视频生成领域迎来了一位强有力的参与者——“黑森林实验室”(Black Forest Labs)。这家初创公司由前Stability AI的研究科学家Robin Rombach创立,他在2022年曾是Stable Diffusion模型的主要开发者之一。离开Stability AI后不到五个月,Rombach便宣布了这一令人振奋的消息。
黑森林实验室致力于研发高质量的图像与视频生成式深度学习模型,并承诺将其开放给更多人使用。该公司的核心团队由一批杰出的AI研究者和工程师组成,他们曾参与过多项创新项目,如VQGAN、Latent Diffusion、Stable Diffusion系列模型等。值得一提的是,Stable Diffusion的另外三位关键贡献者Andreas Blattmann、Dominik Lorenz和Patrick Esser也加入了创始团队。
截至目前,黑森林实验室已成功完成了3100万美元的种子轮融资,主要由著名风险投资公司Andreessen Horowitz领投。此外,还有一些知名的天使投资人和AI专家参与了此次融资。该公司还组建了一个顾问委员会,其中包括科技巨头Michael Ovitz和神经风格迁移领域的先驱Matthias Bethge教授。
黑森林实验室首次推出了名为“FLUX.1”的模型系列,包括三种不同的变体:
– FLUX.1 [pro]:一款全新的图像生成模型,具有极高的图像细节丰富度、强大的prompt遵循能力和多样化的风格。可通过API访问。
– FLUX.1 [dev]:基于FLUX.1 [pro]蒸馏而成的非商用版本,其性能优于Midjourney和Stable Diffusion 3等模型。源代码和权重已发布在GitHub上。
– FLUX.1 [schnell]:一款开源的高效模型,遵循Apache 2.0许可协议。性能与[dev]和[pro]相近,可在Hugging Face上使用。
这些模型均采用多模态和并行扩散Transformer的混合架构,统一扩展至120亿参数。通过流匹配框架对先前的SOTA扩散模型进行升级,并引入旋转位置嵌入和并行注意力层等技术,显著提升了生成图像的质量和速度。FLUX.1系列模型在图像美观度、图像与文本提示的匹配度等方面超越了多个竞争对手,包括Midjourney v6.0、DALL·E 3 (HD)等。
未来,黑森林实验室计划推出面向大众的SOTA视频生成模型,值得我们共同期待。
本文来源: 机器之心【阅读原文】