Stable Diffusion3.0 官方技术报告重点分析

更新时间：2024-03-08 15:55:40作者：橙橘网

文：城主

上周,AI绘画领域一颗重磅炸弹突然降临: Stability AI发布了备受期待的Stable Diffusion 3.0(简称SD3)。消息一出,整个AI绘画圈为之轰动。一周后,官方放出了一篇详尽的技术论文,阐述了SD3实现突破性进展的底层原理,但同时也引发了一连串疑问: SD3能否在RTX 4090显卡上流畅运行? 对其他主流GPU的兼容性如何?

更重要的是，面对OpenAI的Sora等劲敌,这次Stability AI能否力挽狂澜,重塑行业格局?

相比于这篇满是复杂公式的论文。对普通读者而言,Stability AI的论文概要无疑更具可读性。这篇论文本质上是介绍Stable Diffusion 3背后的研究，但并未明确指导如何实现其所有功能。官方公布了一些新方法，并分享了关于哪些训练决策提高了模型性能，哪些没能完全达到预期，以及哪些组合赋予了Stable Diffusion 3惊人的能力。

Stability AI信心满满地表示,在大规模人类主观评测中,SD3在排版质量、对提示的理解和执行度上全面碾压了DALL-E 3、MidJourney v6、Ideagram v1等顶级产品。这里务必强调一下"提示",因为它是AI绘画的灵魂所在。MidJourney v6固然能生成让人叹为观止的画面,但稍微复杂抽象一点的提示,它就难以完全"照单全收"。造成这种局面的根本原因,是MidJourney v6过度迎合大众的审美偏好。简单来说,它只擅长画人们爱看的那些东西。相比之下,Stable Diffusion的强项在于快速理解并忠实执行提示,并能灵活调整画面的局部细节,而无需事后大动干戈地修修补补。

令人振奋的是,SD3祭出了全新的"多模态扩散Transformer"架构(MMDIT)。它采用独立的权重来编码图像和文本特征,大幅提升了文本理解和拼写能力。这是文图生成领域的一大突破。此外,SD3还为排版单独配备了编码器和Transformer。它俨然将这个"小众"领域做成了"极致"。

关于性能，从这张图表可以看出,在视觉美感度、提示匹配度、排版质量等方面,SD3在人类偏好调查中均取得了全面胜利。作为基准,它轻松碾压了所有竞品,稳坐C位。至于SDXL系列终究略逊一筹。所有的评判都是由人工完成的，究竟是谁掌握了AI绘画的"金标准"?

真正让人惊喜的是SD3的硬件兼容性。Stability AI重点测试了SD3在主流消费级显卡上的表现。结果令人喜出望外:就算是那个"巨无霸"版本(模型参数高达80亿),也能完整装进24GB显存的RTX 4090。以1000x1000分辨率、50步迭代为例,生成一张图片需约34秒。要知道,50步在SDXL时代已经是顶配。如果你是"平民玩家",也不用灰心。SD3有多个轻量化版本,参数量从8亿到80亿不等,总有一款适合你。

从几个令人惊艳的样例图来看,SD3能根据简单的文字提示,灵活地生成各种主题和风格迥异的图像。这得益于它在主题理解和场景构建上的重大进步。比如让一只鳄梨站在讲台前授课,或是给一只袋鼠戴上墨镜,它都能完美呈现。从这些看似荒诞的创意中,我们依稀可见SD3惊人的想象力。它已经初步具备了从文本中提取高层语义,并灵活组合成画面的能力。

官方在论文中指出,对于从文本到图像的生成,SD3必须兼顾文本和图像两种模态。这正是他们将新架构命名为MMDIT(多模态扩散Transformer)的原因所在。与前代Stable Diffusion一脉相承,SD3沿用了预训练模型来提取文本和图像的特征表示。具体来说,它用上了三种不同的文本嵌入器、两个CLIP模型和一个T5模型来对文本进行编码,同时采用了增强版的VAE来对图像进行编码。说白了,这套流程就是为了理解用户可能想要什么样的文字内容,以及与之匹配的图像,从而更好地理解提示的真正意图。

最妙的是,得益于崭新的架构,SD3可以在同一个输入中同时接受文本嵌入和图像嵌入,并一次性完成所有操作。如下图所示,文本嵌入和图像嵌入被送入同一个注意力模块进行处理。在其内部,信息通过一种循环反馈的方式流动,这是许多模型的标准配置。经过汇总后,模型再输出最终的生成结果。总的来说,这套流程是基于扩散Transformer,并在此基础上构建出了SD3的架构。

考虑到文本和图像在本质上的差异,SD3为它们各自采用了独立的权重。这相当于给每种模态配备了专属的Transformer。它们在各自的特征空间中运作,但又能通过注意力机制实现信息的交互,可谓"分工不分家"。正是这种机制,使得SD3能更全面地理解跨模态的联系,进而输出更连贯的结果。这也是SD3力图同时利用文图两种输入,并在同一个注意力模块中处理的原因所在,而不是采用串行的方式。这一设计与SDXL高度相似。

接下来看两张验证损失的曲线图。它们直观地展示了不同模型及其变体在训练过程中的表现。理想情况下,随着训练的推进,验证损失应该逐步降低。可以欣喜地看到,实际结果与预期相符。

Stability AI表示,通过这种融会贯通的设计,信息可以在图像和文本之间自由流动,从而提升模型对生成内容的整体把握。此外,这种架构还可以轻松拓展至视频等其他模态。尽管论文对此有所讨论,但官方对技术细节依然讳莫如深。值得一提的是,与其他模型相比,SD3在保留原始提示意图的同时,还能灵活地生成多个差异化的版本。

尤其欣赏Stability AI在即时提示跟随上的创新。官方表示,SD3能够在保证画面多样性的同时,还能紧扣主题,并对画风有很大的控制力。以往,将主题表达与风格渲染割裂开来是件很头疼的事。尽管有些玩家通过优化UI和复杂的参数设置,在一定程度上实现了这一点,但将其作为模型的内在逻辑,无疑更有前瞻性。

以上是几个例子，这一切仅凭一句简单的文字提示就能实现，充分证明了SD3惊人的理解力和创造力。它能从简单的提示中提炼出丰富的细节和主题。

论文中还提到了另一项创新,即通过重新加权(reweighting)噪声来改进整流流(rectified flow)。这说明官方在模型训练中对噪声的处理上别有心得。简单来说,通过采用整流流公式或RF,可以"拉直"模型的推理路径,从而以更少的迭代步数实现采样。换言之,这项技术不仅能降低训练成本,还能帮助模型在推理时不偏离正轨,避免出现崩溃。

为了验证这一点,他们在60多个主流扩散模型上进行了测试,每次都采用了不同的数据集、评估指标和采样器设置。结果表明,尽管现有的RF方法在少量迭代步数下表现优异,但随着步数的增加,性能反而出现下降。相比之下,SD3的RF版本却能持续提升性能。简而言之,在同等计算资源下,SD3能实现更高的目标,极大地提高了性价比。

这是Stability AI的一记重拳,尤其是对Midjourney等直接竞争对手而言。坦白讲,这更像是在向投资者传递一个信号：如果给我们投钱,我们创造价值的效率将更高。细看那些AI初创公司的开销,GPU的采购和租赁往往是最大的一块。就连Stability AI这样的独角兽,也难逃被算力"缴械"的命运。

另一个亮点在于,Stability AI成功地让一个80亿参数的"巨无霸"塞进了24GB显存的RTX 4090。尽管这与验证损失关系不大,但足以证明SD3在模型压缩和推理优化上的造诣。事实上,他们展示的指标和验证损失之间存在强相关性,而后者是评判模型整体性能的重要依据。因此,如果训练更高效、猜测更准确,模型的性能就会更优秀。

此外,官方指出,SD3的扩展趋势尚未见顶,不太可能遇到云端服务中常见的瓶颈。换言之,通过架构创新,他们在计算性能上取得了重大突破。在可预见的未来,SD3还有进一步升级的空间。随着算力的提升,我们有理由期待用更低的成本获得更优的结果。

说到文本理解,这是Stability AI长期以来的一个重点,一以贯之地体现在其他实验性模型中。在SD3中,他们做了一些有趣的取舍。为了降低显存占用,他们砍掉了此前SDXL中使用的一个内存大户——4.7亿参数的T5编码器。

有趣的是,借助全新的架构,去掉T5并未明显影响视觉效果,只是略微损失了一点文本依附度。从基准测试的结果来看,即便完全移除这一模块,SD3的性能也基本无损。在保证画质的前提下,这种权衡可谓相当高明。官方还展示了一个案例,给定同样的雪貂提示,去掉T5前后的结果几乎一样。

这恐怕是Stability AI迄今为止最硬核的一篇论文,行文晦涩,不太好啃。但作为我们吃瓜读者而言，只需要知道，Stability AI又拿出了一个含金量超高的的新绘画模型就好了。开源是全世界AI爱好者的福音。

附：

虽然MidJourney一直非常强悍，但作为本地可以运行且完全免费的Stable Diffusion，无疑才是众多专业级玩家的最爱。当然了，本地运行Stable Diffusion有一点点硬门槛。

如果读者有兴趣自己研究SD（毕竟强大的3.0马上可以用上了）这里顺便和大家友情推荐图灵出品的一本书，这是一本为零基础读者量身打造的 Stable Diffusion “喂饭版”教程。读完就可以上手操作，帮助你快速掌握新技能。

这本书本城也是推荐人之一，翻完全本，感想如推荐语：

“”本书从零开始，详细介绍了 Stable Diffusion 的基本概念以及必须掌握的各种丰富设置参数，读者如能按照本书一步步实践，必能熟练掌握 Stable Diffusion 这一强大而免费的 AI 绘画工具。”

——城主，公众号“Web3天空之城”主理人

如果你希望自己入门SD并在本机跑起来，不妨可以考虑。网络视频虽然多，但案头一本可以随时翻查的工具书还是不错的。

作者介绍

关键帧，中科院博士，前阿里巴巴技术专家，公众号“关键帧 Keyframe”主理人，长期从事互联网内容领域基础技术和业务研发及管理工作，热爱系统性分享行业技术经验并广受粉丝好评，热衷于探索 AIGC技术发展和业务落地，对 AIGC 业务前景有着独特的洞察。

这本 Stable Diffusion 入门书覆盖内容非常全面，文字通俗易懂，图文并茂，是市面上不可多得的关于 Stable Diffusion 的实操大全，是平面设计工作者和业余绘图爱好者的好帮手。——易子立，南京大学副教授，图像生成算法 DualGAN 第一作者

《零基础玩转 Stable Diffusion》是一把开启 AI 绘画世界大门的钥匙。作者以实用为核心，分步骤教你如何本地部署并运用 Stable Diffusion，使艺术创作更加自由和高效。本书不仅是艺术爱好者的新宠，也是设计师提升工作效率的利器。让我们一起跟随作者，探索 AI 绘画的无限未来！——Reynold，公众号“互联网 er 的早读课”主理人

本书从零开始，详细介绍了 Stable Diffusion 的基本概念以及必须掌握的各种丰富设置参数，读者如能按照本书一步步实践，必能熟练掌握 Stable Diffusion 这一强大而免费的 AI 绘画工具。——城主，公众号“Web3天空之城”主理人

初次涉足 AI 绘画领域，在寻求一本入门书时，一次偶然的机会让我遇到了这本通俗易懂的 Stable Diffusion 教程。在看完几页后，我发现该书对零基础同学非常友好，于是将它推荐给大家。本书介绍基础概念和实际技巧，是你走进 AI 绘画世界的不二之选！——贾文博，公众号“壹念视觉”主理人

本书以简明实用为特色，“手把手”带领读者探索Stable Diffusion。书中的实用操作指南和丰富的示例可以让大家快速掌握 AI绘画技巧。对所有对AI绘画感兴趣的人来说，这是一份不容错过的AI 绘画入门指南，它将带你进入一个充满创意和惊喜的艺术世界！——冯振，《OpenCV 4 快速入门》作者，公众号“小白学视觉“主理人

当艺术的奇妙之门向我们敞开，无论你是初涉绘画的新手还是想要提高技能的绘画爱好者，这本《零基础玩转 Stable Diffusion》都将成为你探索 AI 绘画创作世界的“灵魂伴侣”。—— @Jack Cui

随着人工智能技术的普及，AI绘图越来越受到人们的重视，特别是在绘图设计领域中。本书从最基础的软件安装开始，通过大量实操案例，全方位介绍免费AI绘图工具Stable Diffusion的各种使用方法，帮助大家快速掌握AI绘图，相信这本书会是广大AI绘图学习者的福音。——宁海涛，公众号“DataCharm”主理人，畅销书《科研论文配图绘制指南——基于 Python作者

这是一本通俗易懂的 AI 绘画实战书，作者以简明干练的写作方式，为读者揭开 AIGC 的一层层神秘面纱。通过阅读本书，你将全面深刻地掌握 Stable Diffusion 绘图软件的部署和使用方法，书中的案例也将从多角度提升你的 AI 绘画实战能力。—— @致敬大神

从零开始探索AI 绘画，必定要有一本好书伴身，相信每一位朋友都能通过这本书体会到 AI 世界的魅力 ——@娜乌斯嘉，AI绘画博主

本文标签：读者模态技术报告 stable 视频生成模型

上一篇： Stable Diffusion3.0 官方技术报告重点分析

下一篇：欧版 iPhone 离开欧盟地区超 30 天无法使用第三方应用商城

Stable Diffusion3.0 官方技术报告重点分析

相关文章

为您推荐

Stable Diffusion3.0 官方技术报告重点分析

欧版 iPhone 离开欧盟地区超 30 天无法使用第三方应用商城

苏永忠代表——打造优质生态产品

陈卫国代表——发展智能建造产业

王其红代表——三大指标保持领先

郑炜代表——提升企业职工技能水平

热门文章

热门推荐

最新文章