Stable Diffusion3.0 官方技术报告重点分析

更新时间:2024-03-08 15:55:40作者:橙橘网

Stable Diffusion3.0 官方技术报告重点分析

文:城主

上周,AI绘画领域一颗重磅炸弹突然降临: Stability AI发布了备受期待的Stable Diffusion 3.0(简称SD3)。消息一出,整个AI绘画圈为之轰动。一周后,官方放出了一篇详尽的技术论文,阐述了SD3实现突破性进展的底层原理,但同时也引发了一连串疑问: SD3能否在RTX 4090显卡上流畅运行? 对其他主流GPU的兼容性如何?

更重要的是,面对OpenAI的Sora等劲敌,这次Stability AI能否力挽狂澜,重塑行业格局?

相比于这篇满是复杂公式的论文。对普通读者而言,Stability AI的论文概要无疑更具可读性。这篇论文本质上是介绍Stable Diffusion 3背后的研究,但并未明确指导如何实现其所有功能。官方公布了一些新方法,并分享了关于哪些训练决策提高了模型性能,哪些没能完全达到预期,以及哪些组合赋予了Stable Diffusion 3惊人的能力。

Stability AI信心满满地表示,在大规模人类主观评测中,SD3在排版质量、对提示的理解和执行度上全面碾压了DALL-E 3、MidJourney v6、Ideagram v1等顶级产品。这里务必强调一下"提示",因为它是AI绘画的灵魂所在。MidJourney v6固然能生成让人叹为观止的画面,但稍微复杂抽象一点的提示,它就难以完全"照单全收"。造成这种局面的根本原因,是MidJourney v6过度迎合大众的审美偏好。简单来说,它只擅长画人们爱看的那些东西。相比之下,Stable Diffusion的强项在于快速理解并忠实执行提示,并能灵活调整画面的局部细节,而无需事后大动干戈地修修补补。

令人振奋的是,SD3祭出了全新的"多模态扩散Transformer"架构(MMDIT)。它采用独立的权重来编码图像和文本特征,大幅提升了文本理解和拼写能力。这是文图生成领域的一大突破。此外,SD3还为排版单独配备了编码器和Transformer。它俨然将这个"小众"领域做成了"极致"。


关于性能,从这张图表可以看出,在视觉美感度、提示匹配度、排版质量等方面,SD3在人类偏好调查中均取得了全面胜利。作为基准,它轻松碾压了所有竞品,稳坐C位。至于SDXL系列终究略逊一筹。所有的评判都是由人工完成的,究竟是谁掌握了AI绘画的"金标准"?

真正让人惊喜的是SD3的硬件兼容性。Stability AI重点测试了SD3在主流消费级显卡上的表现。结果令人喜出望外:就算是那个"巨无霸"版本(模型参数高达80亿),也能完整装进24GB显存的RTX 4090。以1000x1000分辨率、50步迭代为例,生成一张图片需约34秒。要知道,50步在SDXL时代已经是顶配。如果你是"平民玩家",也不用灰心。SD3有多个轻量化版本,参数量从8亿到80亿不等,总有一款适合你。


从几个令人惊艳的样例图来看,SD3能根据简单的文字提示,灵活地生成各种主题和风格迥异的图像。这得益于它在主题理解和场景构建上的重大进步。比如让一只鳄梨站在讲台前授课,或是给一只袋鼠戴上墨镜,它都能完美呈现。从这些看似荒诞的创意中,我们依稀可见SD3惊人的想象力。它已经初步具备了从文本中提取高层语义,并灵活组合成画面的能力。


官方在论文中指出,对于从文本到图像的生成,SD3必须兼顾文本和图像两种模态。这正是他们将新架构命名为MMDIT(多模态扩散Transformer)的原因所在。与前代Stable Diffusion一脉相承,SD3沿用了预训练模型来提取文本和图像的特征表示。具体来说,它用上了三种不同的文本嵌入器、两个CLIP模型和一个T5模型来对文本进行编码,同时采用了增强版的VAE来对图像进行编码。说白了,这套流程就是为了理解用户可能想要什么样的文字内容,以及与之匹配的图像,从而更好地理解提示的真正意图。

最妙的是,得益于崭新的架构,SD3可以在同一个输入中同时接受文本嵌入和图像嵌入,并一次性完成所有操作。如下图所示,文本嵌入和图像嵌入被送入同一个注意力模块进行处理。在其内部,信息通过一种循环反馈的方式流动,这是许多模型的标准配置。经过汇总后,模型再输出最终的生成结果。总的来说,这套流程是基于扩散Transformer,并在此基础上构建出了SD3的架构。

考虑到文本和图像在本质上的差异,SD3为它们各自采用了独立的权重。这相当于给每种模态配备了专属的Transformer。它们在各自的特征空间中运作,但又能通过注意力机制实现信息的交互,可谓"分工不分家"。正是这种机制,使得SD3能更全面地理解跨模态的联系,进而输出更连贯的结果。这也是SD3力图同时利用文图两种输入,并在同一个注意力模块中处理的原因所在,而不是采用串行的方式。这一设计与SDXL高度相似。


接下来看两张验证损失的曲线图。它们直观地展示了不同模型及其变体在训练过程中的表现。理想情况下,随着训练的推进,验证损失应该逐步降低。可以欣喜地看到,实际结果与预期相符。

Stability AI表示,通过这种融会贯通的设计,信息可以在图像和文本之间自由流动,从而提升模型对生成内容的整体把握。此外,这种架构还可以轻松拓展至视频等其他模态。尽管论文对此有所讨论,但官方对技术细节依然讳莫如深。值得一提的是,与其他模型相比,SD3在保留原始提示意图的同时,还能灵活地生成多个差异化的版本。

尤其欣赏Stability AI在即时提示跟随上的创新。官方表示,SD3能够在保证画面多样性的同时,还能紧扣主题,并对画风有很大的控制力。以往,将主题表达与风格渲染割裂开来是件很头疼的事。尽管有些玩家通过优化UI和复杂的参数设置,在一定程度上实现了这一点,但将其作为模型的内在逻辑,无疑更有前瞻性。




以上是几个例子,这一切仅凭一句简单的文字提示就能实现,充分证明了SD3惊人的理解力和创造力。它能从简单的提示中提炼出丰富的细节和主题。


论文中还提到了另一项创新,即通过重新加权(reweighting)噪声来改进整流流(rectified flow)。这说明官方在模型训练中对噪声的处理上别有心得。简单来说,通过采用整流流公式或RF,可以"拉直"模型的推理路径,从而以更少的迭代步数实现采样。换言之,这项技术不仅能降低训练成本,还能帮助模型在推理时不偏离正轨,避免出现崩溃。

为了验证这一点,他们在60多个主流扩散模型上进行了测试,每次都采用了不同的数据集、评估指标和采样器设置。结果表明,尽管现有的RF方法在少量迭代步数下表现优异,但随着步数的增加,性能反而出现下降。相比之下,SD3的RF版本却能持续提升性能。简而言之,在同等计算资源下,SD3能实现更高的目标,极大地提高了性价比。

这是Stability AI的一记重拳,尤其是对Midjourney等直接竞争对手而言。坦白讲,这更像是在向投资者传递一个信号:如果给我们投钱,我们创造价值的效率将更高。细看那些AI初创公司的开销,GPU的采购和租赁往往是最大的一块。就连Stability AI这样的独角兽,也难逃被算力"缴械"的命运。

另一个亮点在于,Stability AI成功地让一个80亿参数的"巨无霸"塞进了24GB显存的RTX 4090。尽管这与验证损失关系不大,但足以证明SD3在模型压缩和推理优化上的造诣。事实上,他们展示的指标和验证损失之间存在强相关性,而后者是评判模型整体性能的重要依据。因此,如果训练更高效、猜测更准确,模型的性能就会更优秀。

此外,官方指出,SD3的扩展趋势尚未见顶,不太可能遇到云端服务中常见的瓶颈。换言之,通过架构创新,他们在计算性能上取得了重大突破。在可预见的未来,SD3还有进一步升级的空间。随着算力的提升,我们有理由期待用更低的成本获得更优的结果。

说到文本理解,这是Stability AI长期以来的一个重点,一以贯之地体现在其他实验性模型中。在SD3中,他们做了一些有趣的取舍。为了降低显存占用,他们砍掉了此前SDXL中使用的一个内存大户——4.7亿参数的T5编码器。

有趣的是,借助全新的架构,去掉T5并未明显影响视觉效果,只是略微损失了一点文本依附度。从基准测试的结果来看,即便完全移除这一模块,SD3的性能也基本无损。在保证画质的前提下,这种权衡可谓相当高明。官方还展示了一个案例,给定同样的雪貂提示,去掉T5前后的结果几乎一样。

这恐怕是Stability AI迄今为止最硬核的一篇论文,行文晦涩,不太好啃。但作为我们吃瓜读者而言,只需要知道,Stability AI又拿出了一个含金量超高的的新绘画模型就好了。开源是全世界AI爱好者的福音。

附:

虽然MidJourney一直非常强悍,但作为本地可以运行且完全免费的Stable Diffusion,无疑才是众多专业级玩家的最爱。当然了,本地运行Stable Diffusion有一点点硬门槛。

如果读者有兴趣自己研究SD(毕竟强大的3.0马上可以用上了)这里顺便和大家友情推荐图灵出品的一本书,这是一本为零基础读者量身打造的 Stable Diffusion “喂饭版”教程。读完就可以上手操作,帮助你快速掌握新技能。

这本书本城也是推荐人之一,翻完全本,感想如推荐语:

“”本书从零开始,详细介绍了 Stable Diffusion 的基本概念以及必须掌握的各种丰富设置参数,读者如能按照本书一步步实践,必能熟练掌握 Stable Diffusion 这一强大而免费的 AI 绘画工具。”

——城主,公众号“Web3天空之城”主理人

如果你希望自己入门SD并在本机跑起来,不妨可以考虑。网络视频虽然多,但案头一本可以随时翻查的工具书还是不错的。


作者介绍

关键帧,中科院博士,前阿里巴巴技术专家,公众号“关键帧 Keyframe”主理人,长期从事互联网内容领域基础技术和业务研发及管理工作,热爱系统性分享行业技术经验并广受粉丝好评,热衷于探索 AIGC技术发展和业务落地,对 AIGC 业务前景有着独特的洞察。

这本 Stable Diffusion 入门书覆盖内容非常全面,文字通俗易懂,图文并茂,是市面上不可多得的关于 Stable Diffusion 的实操大全,是平面设计工作者和业余绘图爱好者的好帮手。——易子立,南京大学副教授,图像生成算法 DualGAN 第一作者

《零基础玩转 Stable Diffusion》是一把开启 AI 绘画世界大门的钥匙。作者以实用为核心,分步骤教你如何本地部署并运用 Stable Diffusion,使艺术创作更加自由和高效。本书不仅是艺术爱好者的新宠,也是设计师提升工作效率的利器。让我们一起跟随作者,探索 AI 绘画的无限未来!——Reynold,公众号“互联网 er 的早读课”主理人

本书从零开始,详细介绍了 Stable Diffusion 的基本概念以及必须掌握的各种丰富设置参数,读者如能按照本书一步步实践,必能熟练掌握 Stable Diffusion 这一强大而免费的 AI 绘画工具。——城主,公众号“Web3天空之城”主理人

初次涉足 AI 绘画领域,在寻求一本入门书时,一次偶然的机会让我遇到了这本通俗易懂的 Stable Diffusion 教程。在看完几页后,我发现该书对零基础同学非常友好,于是将它推荐给大家。本书介绍基础概念和实际技巧,是你走进 AI 绘画世界的不二之选!——贾文博,公众号“壹念视觉”主理人

本书以简明实用为特色,“手把手”带领读者探索Stable Diffusion。书中的实用操作指南和丰富的示例可以让大家快速掌握 AI绘画技巧。对所有对AI绘画感兴趣的人来说,这是一份不容错过的AI 绘画入门指南,它将带你进入一个充满创意和惊喜的艺术世界!——冯振,《OpenCV 4 快速入门》作者,公众号“小白学视觉“主理人

当艺术的奇妙之门向我们敞开,无论你是初涉绘画的新手还是想要提高技能的绘画爱好者,这本《零基础玩转 Stable Diffusion》都将成为你探索 AI 绘画创作世界的“灵魂伴侣”。—— @Jack Cui

随着人工智能技术的普及,AI绘图越来越受到人们的重视,特别是在绘图设计领域中。本书从最基础的软件安装开始,通过大量实操案例,全方位介绍免费AI绘图工具Stable Diffusion的各种使用方法,帮助大家快速掌握AI绘图,相信这本书会是广大AI绘图学习者的福音。——宁海涛,公众号“DataCharm”主理人,畅销书《科研论文配图绘制指南——基于 Python作者

这是一本通俗易懂的 AI 绘画实战书,作者以简明干练的写作方式,为读者揭开 AIGC 的一层层神秘面纱。通过阅读本书,你将全面深刻地掌握 Stable Diffusion 绘图软件的部署和使用方法,书中的案例也将从多角度提升你的 AI 绘画实战能力。—— @致敬大神

从零开始探索AI 绘画,必定要有一本好书伴身,相信每一位朋友都能通过这本书体会到 AI 世界的魅力 ——@娜乌斯嘉,AI绘画博主

本文标签: 读者  模态  技术报告  stable  视频生成模型