欧洲科学院外籍院士徐东：文生视频要求门槛高但已初现曙光！

更新时间：2023-12-07 10:05:15作者：橙橘网

2023年12月5日，深圳市互联网信息办公室、宝安区人民政府、网易传媒联合主办的“2023新一代人工智能(深圳)创业大赛”颁奖典礼在深圳成功举办。

“2023新一代人工智能(深圳)创业大赛”旨在促进人工智能的创新发展，助力人工智能初创企业健康成长。经过海选报名和多轮筛选比拼，大赛获奖项目将由主办方从现金、流量扶持、产业资源供需对接等多维度给予丰厚激励。现场，“网易新一代人工智能产业联盟”正式成立，未来将持续加强产业、资本、媒体、政府资源的链接，为创业者提供服务。

现场，国际电气和电子工程师协会会士（IEEEFellow）、欧洲科学院外籍院士(ForeignMember of Academia Europaea)、香港大学教授、徐图智能CEO徐东做了《AIGC时代视觉内容生成：过去、现在与未来》主题演讲；徐东表示，人工智能技术已经能够生成高分辨率、高真实度和高多样性的图像内容，但文生视频比文生图更难上十倍甚至百倍，目前文生视频已经初现曙光，但离大众对生成高质量较长视频的广泛需求还有一段距离。

欧洲科学院外籍院士徐东：文生视频要求门槛高但已初现曙光！

徐东认为，文生视频和ChatGPT一样需要大模型，而且要求门槛很高，“不是谁都能做的，开源社区可能也不太可行，因为算力要求太高了，开源社区做文生图像还可以，做文生视频可能是不实际的。”（记者：平章）

以下为徐东演讲节录：

尊敬的各位领导、各位来宾，大家下午好。很高兴能够参加今天这个活动，我报告的题目是《AIGC时代视觉内容生成：过去、现在与未来》，我将从以下6个方面向大家进行汇报：引言、视觉内容生成的发展历程、扩散模型的原理和特点，重点介绍一下文生图的概念和应用以及文生视频的概念和应用，最后是总结。

文生图这件事情就是给一个文本产生一张图像。给一个文本产生视频叫文生视频。当然也可以给定多模态数据包括图像、文字来产生图像或者是产生视频，输出一定是图像或者是视频这样的视觉内容。

这个任务的主要目的是实现高速、高效、高自由度的视觉内容生成，满足人们对视觉内容多样化的需求，激发人们的创作力和想象力，促进视觉文化的发展和创新。

人工智能技术已经能够生成高分辨率、高真实度和高多样性的图像内容，这是Midjourney产生的图像，右边是国内比较流行的APP秒鸭相机产生的写真集，给了多张人脸图像，不用去照相馆就能够产生照相馆质量的图像。这里面会面临很多的挑战，包括法律和伦理方面的挑战，由于时间关系就不一一介绍了。

在生成模型的发展历程中，比较著名的是生成对抗网络（GenerativeAdversarialNetwork，GAN），但是难以训练，模型训练过程通常会崩溃，做了多年的结果也不尽如人意。另外有一个是变分自编码器（VariationalAuto-Encoder，VAE）的方法，但是它产生图像的保真度还不是很高，最近流行的扩散模型（DiffusionModel），能够实现稳定的训练，而且能够产生高质量和多样性的图像，这是现在主流的研究方向。

我简单介绍一下扩散模型的基本想法，给定一张输入图像，经过1000次加噪声的过程就是一个前向过程，得到一个噪声图像。同时有一个所谓的逆向过程，经过1000步去除噪声的过程，恢复出原始的图像。加噪过程可以通过公式直接算出每步加噪声后得到的图像。去噪过程是要学习一个网络，逐步地实现去噪的过程。基本思想是在去噪声999步以后的结果和原始图像加噪1步以后的结果的概率分布要比较像，去噪声998步的结果也要和加噪声以后2步的结果比较像。通过引入一系列这样的损失函数（loss）就可以训练出一个很好的图像去噪网络。这样能够从噪声中恢复出图像。

这是网络大概的结构，是一个U-Net结构，包含一系列的Transformer网络，基于大量的文本图像对就可以学习这些Transformer网络的参数，最终可以实现从噪声中恢复出图像。

这是文生图的结果，可以生成高质量、多样性好和稳定性强的图像，当然面临生成速度比较慢，占用内存比较大，还有就是难以控制的问题。现在针对这些问题也有不错的解决方法。

“扩散模型”刚开始出来的时候还是不支持文生图的，去年在6月份的CVPR的工作LatentDiffusion模型，它叫做“潜在扩散”模型。当然它不是在原始图像空间做的，而是在一个潜在空间中实现的，更重要的是引入了文本作为条件，通过所谓的cross-attention这个机制，使得能够实现文生图像。这个工作是文生图领域的早期工作之一，也引领了文生图领域的发展。通过在大规模的文本-图像数据集上进行训练，训练后得到的模型能够实现基于文本生成高质量图像。而且这个文生图的模型很快就开源了，极大的促进了文生图这个领域的研究和落地。

最近有一些针对文生图模型来进行模型压缩的工作，这是美国东北大学的学生在Snap做实习生时做的一个工作，通过模型剪枝和蒸馏的方式，他们的算法可以在iPhone14Pro上运行，利用iPhone14Pro的算力而不是像Midjourney利用云端的算力，也可以在2s完成文生图。这两天，谷歌的工作在手机端可以在0.2s实现文生图。文生图不仅可以在云端做得很快，利用手机端的算力现在也可以实现实时出图了。

以前我们讲了加噪和去噪过程开始要1000步，后来变成几十步的去噪过程，现在能够实现几步，甚至1步就能完成去噪过程，而且生成图像的质量也不会显著下降，这样生成图像的速度就能显著提升。

这是我的同事香港大学罗平教授和他带的团队用商汤的算力做的工作，叫RAPHAEL，通过堆叠混合多个专家的模型，不同专家处理不同区域，不同时间选择不同专家，这个模型很多情况下能够取得和Midjourney相似的结果，甚至能够超过Midjourney的结果。基于这个工作训练的模型也部署到了商汤的“秒画”里面。

不得不讲产品级的东西，这是OpenAI的DALLE系列，最开始的结果不是很好，但是2022年DALLE-2推出之后，分辨率就提升了400%，可以刻画细节、生成准确的五官。最近刚刚推出的DAlLDE-3这个系列能够生成更加高质量的图像。因为OpenAI的语言理解能力很强，大家都知道ChatGPT，最大的特点是能够很容易理解用户的语言，知道用户要干什么。像我们在国内刚推出文生图的模型时都不能理解唐伯虎点秋香或者是鱼香肉丝。因为有很好的语义能力，可以支持很长的文本输入，生成和输入文本语义非常接近的图像，极大的提升了DALLE-3文生图的结果，尤其是在输入复杂prompt的情况下。

不得不说另外一家叫Midjourney的公司，这家公司成立时间也不长，就2年多，刚开始很长一段时间都只有11名全职员工，至今仍未融资，去年7月份开始进入公测阶段。Midjourney做产品的能力很强，而且有很多自己独有的数据，通过不停地调模型，现在是这个赛道世界第一的公司。他们巧妙利用了Discord的社区，拥有1000万的社区会员，建立了社区优势，积累形成了独有的数据集，建立了反馈（feedback），有不同的用户用这个产品，就会不停地改进模型，越来越好。大家都知道它刚开始生成手指不太好，只能生成4根手指，现在已经能够生成5根手指了。

去年8月，由Midjourney生成的图像“太空歌剧院”在美国的一个比赛中获得了美术竞赛数字艺术类别的一等奖，当然有一个争议就是Midjourney生成的图像是否能够参加这样的比赛。Midjourney采用了SaaS模式，每个月付费是10-60美元/月，按照用户数量保守估计年营收达到亿万美金，即使它自己没有融资，它完全能够自负盈亏，也不需要融资。他们面向的用户是小b和企业端，针对的是以画画为生的人，能够帮用户提高生产力和效率，有时候帮助他们提高创意，做出想象不到的图像出来，引发他们设计更好的更有创造力的图像，他们非常适合于游戏、电影、或者是出版等创意行业，用户付费的意愿非常强烈，所以收入还是不错。但是现在也面临OpenAIDALLE很强的竞争，包括国内也有很多（例如商汤的秒画以及百度的文生图）的竞争。最近DALLE·3出了以后，对它的收入应该有一些影响了。

文生图模型去年开源以后已经形成两个头部企业，一个是Midjourney，另外一个是OpenAI的DALLE系列，国内也有多家创业团队做这个方向。所以现在最新的研究趋势是文生视频，即给定文字如何生成视频。为什么不能用Midjourney这个文生图软件，生成一系列的图像拼在一起就是视频了，显然遇到第一个难点就是连续性的问题，你把这些图像拼在一起放成一个视频来放是不连续的，有所谓的“抖动”问题，这是一个难点。

另外是生成视频从一个场景到另外一个场景，这个人可能从张三变成了李四，或者是狗熊颜色发生变化了，即物体一致性问题也很难解决。解决这两个问题都非常难，不能简单用Midjourney生成的图像拼起来变成一个视频，这是不可能的。

简单的做法是把扩散模型里面针对空间维度的Transformer网络（即二维网络结构），通过额外加入时间维度上的Transformer结构扩展变成三维的网络结构，再利用海量的文本视频对进行训练，这是其中一个主流的方向，这个部分也有一些初步的进展了。

这是Meta刚公布的Emu-video系统文生视频的结果，就是基于之前的一篇文章，做了很多工程化的事情，结果还是不错的。

Stability-AI最近开源了的一些东西，也有一篇比较详细的文章来介绍他们文生视频的工作。现在大家都开始走向闭源，Stability-AI也没有发布任何的训练代码，测试/推理代码也只提供了图生视频的代码，给一张图像生成一段视频，这其实有问题的，比如说给你一艘船，这个船怎么动起来呢？很多时候是根据训练模型时采用的船的视频怎么动就可以类似的动一下。而且很多时候是摄像头的全局运动，而不是物体的运动。他们只放了图生视频的测试/推理代码，你们可以去测一下。但是文生视频的测试/推理代码他们现在也没放出来。

其实Stablility-AI是一家很牛逼的公司，因为它一直是做开源的，开源的工作也有非常大的影响力，最近也做了很好的文生视频的工作。他们也融了很多钱，但是产品化或者商业化的能力不及Midjourney，所以他们的公司现在是处于比较困难的状态。

我个人做的比较多的是视频到视频的风格转化，这也是RunwayGen-1做的事情，因为我们做了很长一段时间的深度视频压缩，所以把很多视频压缩的技术用来做视频风格转化，当然我们是结合了ControlNet对视频的I帧和P帧做了分别的处理。这是以前我们做的深度视频压缩的工作，如果大家对视频压缩比较了解的话，以前的标准如H264、H265都是采用了手工设计的技术，我们是第一个把全部模块深度学习化了，用端到端的方法来进行训练，而且我们使用训练集(MIT团队收集的)一直被后来的团队采用。刚开始因为离标准H265离得很远，所以大厂也不愿意做，和现在的情况比较像。现在文生视频离真正能用，我个人觉得还是有一段距离，所以大厂可能会做，但不会花全力去做它。

我们当时做了一系列深度视频压缩领域从0到1的工作以后，谷歌几年之后也开始做了，但是我们还是能够保持领先。视频压缩也是video到video的过程，一个原始的video经过压缩以后得到一个比特流，然后再基于这个比特流重建另外一个video，所以也是视频到视频的过程。这是我们视频到视频的风格转化的结果，有些视频还是挺难的，现在我们的系统可以把输入视频变成不同风格的输出视频，比如说虚幻、日漫、油画风格等等，这就是Runway的Gen-1做的事情。当然我们也可以把前景抠出来，把前景的人物换成机器人或者是不同的人，也可以把前景扣出来的部分放入到不同的背景中，这些功能可以用做二次创作。如果你本来就是以生成视频为生，你要加一些搞笑的东西或者是风格转换，这些AIGC的工具可以帮你做二次创作。

我们公司长期还是想做文生视频，是基于文生图的框架加一些运动相关的模块变成文生视频的系统，未来也要进一步做时空超分，把分辨率做得更高一些，既要在图像空间上提高分辨率，也要在时间空间上提高分辨率，使得视频更长一些。

这是AIGC视觉内容生成发展的历程，这是几个月前的数据，Midjourney的用户数现在已经上千万了，Runway上升得特别快，Runway是文生视频的公司，7月份宣布融资1.4亿美金C+轮，估值从5亿美金到了15亿美金，刚才讲的RunwayGEN-1的模型可以通过视频到视频的变化，改变视频的风格，跟我们现在做的比较像。RunwayGEN-2可以实现文生视频，当然它现在也不能生成很长的视频，现在大概是几秒（2、3秒）的短视频，运动幅度不是特别大，这个问题还是挺难的。Runway也做了一个MotionBrush的功能，很像马良画图，让图像能够动起来，现在有很多人去玩这个功能。Runway之前也做过视频编辑工具，和电影厂商有一些合作，电影中一些特效的部分也是Runway做的，所以它可以ToB也可以ToC。

我想分享一个事是在刚开始时，Runway和慕尼黑的一个大学合作的，你看StableDiffusion这个开源模型的不同版本，一开始是Runway参与到这个开源模型的，后来慕尼黑那边的团队又和Stability-AI这家公司合作，可能因为他们有很多的算力。而Stability-AI一直走开源路线，但是好像一直找不到很好的盈利方式，现在就处于比较困难的状态。后来Runway这帮人可能就意识到不能走开源路线，所以他们就开始做文生视频了，而且坚决做闭源。GEN-1的时候放了一个文章出来，也说要放GEN-2的文章，但是几个月过去，现在还没有放出GEN-2的文章。现在不只是开源的问题了，包括OpenAI现在都不讲技术细节了，完全是走闭源的路线。

这是Runway估值的情况，收入还是不高，15.9million美金的收入数目是不高的。之前做视频编辑方向，估值也不是很高。现在因为AIGC时代爆发了，所以现在估值完全不一样了。

大家可能更关注的是Pikalabs，它的三个创始人都中国大陆背景，它也在Discord部署的，在几个月内收获了50万用户，团队相当精简，仅有4位全职成员，创始人是郭文景，她和CTO都是斯坦福的博士，今年4月份左右出来的，公司只成立了几个月的时间。第三位创始人在商汤待过一段时间，目前已累计完成了3轮融资，共5500万美元融资，最新估值是2.5亿美元，最近推出了Pika-1的模型，不仅是对视频的质量有一些提升，他们支持动漫和电影的多种风格视频，而且还实现了一些别的功能。

我想分享一下他们CEO郭文景的访谈，因为她是大陆背景的，一下吸引了很多国内的自媒体采访他们。她认为需要突破的技术是时长的问题，清晰度也需要进一步提高，现在大概是720P，流畅性不是很好，这些观点我都同意。对于清晰度的问题，需要做超分，一定要做到1080P（抖音的程度）。时长是一个更难的问题，现在大概就是两三秒，比如说图生视频给一个图像，到底这个图像中物体怎么动，这个“动”的方式和文字是否一致，动得合不合理，和用户想要的动的方式是否一致，这都是很难的，你要关注“动”的意义，看上去是合情合理的动作，而且未来做得更长，不只是2秒、3秒，未来甚至5秒、10秒，动作幅度越来越大。其实包括Runway产生的视频动的幅度也不是很大，它有一个选项可以调节动作幅度，如果你调动作幅度很大的时候，生成的结果很多时候也不是很好的，它没有达到成熟的地步，这个和ChatGPT不太一样。

郭文景也认为视频生成处于GPT-2时代，未来一年有显著的提升。我不敢这么断定说一定相当于GPT-1、GPT-1.5或者是GPT-2，我个人认为是“初现曙光”，如果你是外行会觉得文生图做得这么好，文生视频不是明天就做好了吗？其实文生视频比文生图难十倍、百倍。而且这个赛道相当的长，甚至有可能比ChatGPT还长，最终的目的可能是给定一个剧本，自动的产生1-2个小时的电影。现在应该是出现了曙光，我们的工作都是让图像动起来，Runway的结果在一些时候动得还不错。

郭文景也讲到了另外几件事，一是视频数据获取很重要，需要收集大量的数据，带来了算力的巨大需求。因为PikaLab是融资之后有一家融资机构给了一些GPU卡，估计有几百块的GPU卡来用，她认为未来也会像ChatGPT一样需要大规模的算力。这个观点我也同意，比如包括在Stability-AI的文章中也提到了要收集上亿的视频数据进行训练，这也需要大量的算力。

但是好处是应该不会出现100个语言大模型，这个文生视频的大模型和ChatGPT一样要求门槛很高，不是谁都能做的。开源社区估计也不行，因为算力要求太高了，开源社区做图像还可以，做视频应该也比较困难，除非是有算力的机构免费把算力贡献出来做这个方向。

这是我自己理解的AI1.0和2.0时代创业的比较，1.0时代中国投了很多AI公司，美国基本上没投。2.0时代好像反过来了，美国投了500家以上，中国投了不到50家，因为各种各样的原因。可能一点是AI1.0时代，中国很多风投投了很多AI公司，但感觉到退出很困难，而且也赚不到钱。AI1.0时代大家也号称平台型公司，其实最后就是项目型公司，人脸识别到不同的场景就要开始派人收数据，不停地调模型，还要部署，每个地方都要人，搞得现在人很多，研发人员也特别多，而且不便宜，导致入不敷出，就亏钱，很多大公司也亏钱。

AI1.0时代，另外一个最大的问题是开源，开源导致算法门槛很低，而数据和工程化能力很重要，这是大厂决定开源的原因。谷歌当时是极力鼓吹开源的，因为有数据也不怕开源，开源之后模型会越来越好。但是现在谷歌发现他们自己发明的Transformer居然成就了OpenAI这个巨大的竞争对手，所以他们也不提倡开源，据说现在发表文章也需要内部先审核。Meta任然在提倡开源，开源了语言大模型，但是文生视频的模型也没有开源。所以我估计AI2.0时代文生视频方向开源可能不会成为主流，而且越是接近大规模真正实用的时候，我认为这个赛道头部的公司越不会开源。现在文生视频这个赛道头部公司不仅不开源的，甚至都不发表文章了。大家都看到这个赛道算力要求越来越大，所以开源模型大概率不能超过闭源模型，而且一旦形成技术壁垒之后，尤其是数据不断迭代后开源模型未来很难超车。

AI2.0初现了平台型公司，比如说OpenAI，它很快就有上亿的用户数，而且也不需要很多人，OpenAI刚开始300多人现在就是700多人，Midjourney刚开始11个人，现在可能就是几十个人。我有一个同事在美国的一家创业公司Reka刚开始3-4个人，前段时间融了5000万美金。但是一定要有懂GenerativeAI的人，这很重要，因为GenerativeAI是一个新兴的研究方向，国内的人才储备相对还是比较薄弱。这样小而精的团队能够保证未来盈利，平台型公司能赚很多钱，而且人员的成本不高，钱大部分会花到算力上，算力要求很高。

而且AI1.0和2.0面向的对象也是不一样的，AI1.0时代的技术是取代蓝领的，比如说无人驾驶希望精度做到99%，甚至99.99999%，很高的精度。但是AI2.0时代的技术也不是取代白领，而是提高白领的生产效率，让本来就以画画为生的人画得更快、更好、更有创意，本来以视频制作为生的人让他做得更好，所以这样就很容易落地，做得不好可以后续处理，不再有那么高的要求，而且技术不停迭代就可以不停地变好，比如说Midjourney几根手指的问题。相对来说AI2.0的创业肯定是靠谱的，国内因为各种各样的原因，可能AI1.0时代吃了很多亏，感觉现在创业的投入度比国外少很多。

总结过去，视觉内容生成领域已经取得了很多成就，展望未来有很多需要探索的新问题，包括速度、可控性、监管的问题，由于时间不再一一介绍，谢谢大家。

本文标签：文生郭文景欧洲科学院算法徐东

上一篇：欧洲科学院外籍院士徐东：文生视频要求门槛高但已初现曙光！

下一篇：世界最深、最大的极深地下实验室锦屏大设施投入科学运行