Black Forest Labs发布FLUX.2系列模型,强化开源文生图及多图编辑能力

Black Forest Labs近日正式发布了其第二代图像生成与编辑系统FLUX.2系列,同期开源了320亿参数的FLUX.2 [dev]模型权重与代码。该系列旨在为专业创意工作流提供高性能解决方案,并被定位为当前领先的开源文生图及多图参考、4兆像素编辑工具。

FLUX.2系列包含四个模型版本:FLUX.2 [pro]、FLUX.2 [flex]、FLUX.2 [dev]以及即将推出的FLUX.2 [klein]。其中,FLUX.2 [dev]模型作为开源版本,其权重和代码基于Apache 2.0许可协议发布,致力于推动视觉智能领域的开放创新。然而,FLUX.2 [dev]模型本身的使用遵循非商业许可,要求用户同意其使用条款并实施内容过滤机制,以支持第三方研究与开发。

此次发布的核心升级包括多项关键功能:

  • 10图参考一致性: FLUX.2支持一次性上传最多10张风格或构图参考图像,声称生成内容的一致性可达95%以上,并能锁定姿势、光影和配色。
  • 4兆像素编辑: 模型支持高达4兆像素分辨率的图像生成与编辑,用户可通过输入和遮罩进行局部重绘、去水印和更换背景等操作。未来版本计划支持PSD分层导出。
  • 文本渲染优化: 在复杂排版、信息图表和UI界面文字的准确性上,FLUX.2达到了92%,Black Forest Labs声称这一表现超越了DALL·E3约10个百分点。
  • 现实逻辑增强: 模型在处理空间关系、光照物理和世界知识方面的错误率降低了37%,从而提高了生成图像的真实感和逻辑合理性。

不同模型版本旨在满足多样化的用户需求:FLUX.2 [pro]是针对商业用途的旗舰模型,据称速度提升两倍,成本降低30%。FLUX.2 [flex]则提供了可调节的步数和引导系数,适合开发者进行二次优化。即将推出的FLUX.2 [klein]将是一个蒸馏后的轻量级版本,在保持同等性能的同时,参数量减少50%,更适合边缘设备开发者。

技术架构方面,FLUX.2采用了一种潜在流匹配架构,结合了Mistral-3 24B视觉语言模型与整流流变换器。此外,新的VAE自编码器将潜在空间压缩率提升了18%,有助于节省约15%的训练和推理显存。为了提升模型的易用性,Black Forest Labs提供了PyTorch和Diffusers示例代码,并发布了ComfyUI插件及GitHub入门脚本。用户还可以通过Hugging Face上的在线Demo体验FLUX.2 [dev]模型。

FLUX.2的发布已在行业内引起关注。ComfyUI社区迅速宣布了对FLUX.2的即时支持,并与NVIDIA合作,通过FP8量化和改进的内存卸载功能,优化了模型在NVIDIA RTX GPU上的运行效率,使大型模型得以在消费级硬件上运行,同时将显存需求降低了40%,性能提升了40%。AIbase评论认为,FLUX.2的多图参考和4兆像素编辑功能将显著降低电商、广告和漫画等行业的视觉内容制作门槛,预示着开源生态可能迎来“后Stable Diffusion时代”。Cloudflare也宣布在其Workers AI平台上支持FLUX.2 [dev]模型。

据OpenTools’ Newsletter报道,FLUX.2 [pro]的每兆像素成本为0.03美元,相较于谷歌的Nano Banana Pro,在同等分辨率下成本可降低4至8倍,这为高工作量流程带来了显著的成本优势。

上一篇:

下一篇:

发表回复

登录后才能评论