激辩:AI生成视频往何处去?和国外差在哪?

更新时间:2023-12-24 12:05:50作者:橙橘网

激辩:AI生成视频往何处去?和国外差在哪?

作者普子胥

出品|网易科技《态℃》栏目

12月22日,以“智能涌现·发现未来”为主题的2023网易未来大会在杭州正式启动。本次大会由杭州市人民政府和网易公司联合主办,杭州市经济和信息化局、杭州市商务局、杭州滨江区人民政府、北京网易传媒有限公司及网易(杭州)网络有限公司承办。

大会包括思想之夜、未来局、未来公开课、主论坛、AGI论坛、汽车科技论坛、灵感无界等,广邀顶级学者、产业专家和行业精英,作答未来科技、人文艺术、时代个人的精彩变化。

大会AGI论坛的最后环节,《AI三人行》特别版圆桌对话正式展开。圆桌论坛上,南京大学智能科学与技术学院副教授易子立、灵动AI创始人雷海波,以及AI绘画知名博主娜乌斯嘉、以《AI生成视频往何处去?》为主题展开讨论。英诺天使基金合伙人王晟担任对话主理人。

就生成式视频国内外公司的差距这一话题,南京大学智能科学与技术学院副教授易子立认为,包括Pika、Runway在生成视频底座方面确实领先于国内厂商,但是在应用细分赛道上,国内做得更好,包括2D的数字人技术、AI社交技术,国内不管是赛道全面程度还是技术上都比国外走得早一点、快一点。并表示,国内没有出现整体落后的局面,在有些应用赛道上比国外走得好。不过,算力方面是国内公司的劣势,下一步随着算力短板补足,在其他方面逐渐赶超是有可能的。

谈及视觉大模型话题时,灵动AI创始人雷海波表示,国内大模型厂商近年来都做了文生图、文生视频的模型,然而,影响力却不如国外的Midjourney。他认为,造成这一现象的原因,技术、算力、数据集的差距只是一方面,从艺术角度在于国内厂商不懂美学。事实上,当下Midjourney每张图的调性、氛围、光影质感,已经远超越人类的表现。未来,如果国内大厂能做出Midjourney一半国产的视觉模型,并结合高品质的数据集,以及行业认知的能力和产业化落地的能力,机会仍然存在。

就艺术创作和商业创作的平衡话题,AI绘画知名博主娜乌斯嘉表示,在生图场景里面,没有一张AI图片是生不出来的,再炸裂的画面、再炸裂的特效,一张图片都能达到。但在视频领域里受到掣肘还是挺多的,因为它没有那么多丰富的控制手段。比如,人物脸上的表情,比如悲伤、难过在生成视频时一致性不够,能看出来有点恐怖谷的效应。她表示,我觉得在未来发展中,我希望它还是有更多控制方式能让我们精准控制视频的生成。

谈及今年以来的投资实践时,英诺天使基金合伙人王晟表示,虽然今年整个AI投资看起来火热,但在实际操作中,投资机构往往两端集中:一端是资金端集中,即只有十几家、二十家VC真正在投,真正敢投;另外一端叫做资产端集中,即投资机构标的项目比较集中,主要是在算力、芯片、GPU等。王晟谈到,文生视频平台的创业公司必须有足够的时间窗口去成长,而在没有能力底座的窗口期下,投资机构会比较谨慎。

以下为《AI三人行》特别版圆桌对话节录:


王晟:今天是《AI三人行》特别版,《AI三人行》也是网易科技刚刚做的AI对谈节目,这个对谈类节目主要特点会从资本、从学界、从产业界3个维度,邀请嘉宾来去解读AI里一些热点的事件。所以我们今天请到的嘉宾都是非常有特点的,有学界的老师,有在做生成式视频产品工具的产业界的海波,也有在做AI动画的知名博主,不是AI绘画,是AI动画的知名博主娜乌斯嘉。首先请大家做一个自我介绍,介绍一下自己,介绍一下在做的事情。

易子立:我是南京大学智能科学与技术学院副教授易子立,我的主要研究方向就是文本转视频、文本转图像,这样可视的AIGC方面的研究。我以前在华为、字节也有一段工作经历,今年回到学术界,也希望通过自己的力量能把这个研究方向带起来。

雷海波:我叫雷海波,我现在的项目是灵动AI,是基于视觉文生图、文生视频,在营销侧应用的一家公司。我个人过去有小20年的从业时间都是在设计和视觉影像这个行业,之前参与过几家公司,其中一家公司也上市了,这个相当于是我们最近刚刚发起的一个项目,5月份启动的。

娜乌斯嘉:我去年其实还是一位影视行业的从业者,因为在今年年初的时候目睹了AI发展非常迅速,所以我就彻底投身于AI事业了,我现在是一名AI绘画知识博主,同时也是AI的模型师和AI视频的创作者。

王晟:我自己是英诺天使基金合伙人,也是《AI三人行》栏目的主理人。我们是一支投早、投小、投科技的基金,主要投天使轮和Pre-A轮,基本上希望给创业者第一张支票。目前英诺管理60亿左右的早期基金,我们在AI领域里是一只非常活跃的基金,也是受到创业者、产业界和学术界广泛的认可。

我们就进入到今天的正题,其实今天我们要讨论的话题,最近我们看到AI最热门的一个方向,就是我们说的AI生成式视频这方面,不管是大模型还是应用,还是制作能力。我们最近看到一些突飞猛进的发展。你们怎么看这一波突然涌现的这么多生成式视频的企业和目前的生成质量?它是已经走向了一条康庄大道,还是说也许整个发展阶段只是一个初期?

易子立:我个人比较消极的,虽然说文生视频包括文化图,在自媒体上热度非常高,引起了很多的关注。但是从应用的角度来讲,它们并没有真的迎来大爆发。当然许多企业也在尝试使用,包括中国的设计公司,我知道它们也在翻墙来辅助设计。

但是他们在用了之后发现对人力的成本节省,是节省一些,但没有形成根本上的节省,所以无法做到全自动,还有很多提示词工程、筛选等工作去做。所以目前文生图、文生视频也好,从技术上还没有达到十分成熟,完全替代人力或者以后直接用剧本生成电影的Level,我们离这个目标还有很长的路要走。

王晟:那能给一个判断吗?您觉得后面还是三年之后还是更长的时间能突破?

易子立:我个人觉得可能是五年之后,这取决于我们算力水平。全球算力水平目前芯片工艺都有影响,如果我们能做到非常细粒度的操作视频,在技术范式上还要进行革新,对范式上还要一到两个数据级。

雷海波:我是这个行业一线的从业者,我二十多年一直在做设计行业,后来做了设计平台、设计媒体,然后每天都接触到国内头部所有几乎叫得出名的设计公司和设计大师。

我就举个例子,昨天晚上在北京跟中央每院设计学院的院长吃饭,他中间开了一个视频会,视频会讲的所有进行机器人的项目就是用文生图来实现的,你可以想象中央美院在日常教学和真正对客户对接的时候已经大范围用到了文生图的大模型。

我为什么做灵动AI这家公司?去年七八月份的时候开始Midjourney公测,我当时比较早拿到内测账号的中国设计师,我用一个月时间生成了1.2万张图,我当时就举手投降了,我作为二十多年从事设计经验的老鸟,我还是中国工业设计协会的副会长,我当时跟所有的同事和所认识的朋友、设计界的朋友都说我们可以投降了,我们要拥抱AI和文生图的大模型。

当然今天讨论的是文生视频,坦诚讲文生视频,我们真正要做2B的商业化还是有点远。其实对于博主来讲还是非常受用的,一下子就搞几十万、几百万点击的转视频而且很吸粉。

总结一下的话,在专业2B这个领域文生图已经足够用了,而且远超人类设计师的表现,完全可以举手投降。但是文生视频我个人感觉至少要半年到一年的时间吧。3D只能做做游戏吧,现在还是一个玩具。

娜乌斯嘉:我其实也属于积极派,我是从应用领域,我是真正使用过并且有商业的落地项目,我们要了解一下AI视频到什么程度了,简单来说是四种。

第一种风格转化,平常有生成的视频,我们把视频转化成二次元或者2.5D的。

还有就是今年刚开始爆发的瞬息全宇宙,很有名的撒盐,然后从盐开始不停在开始演化,演化出各种各样的画面来,这是我们在传统视频框架无法达到的,根本没有办法做,这是AI通过前一帧到后一帧的演算,前一帧是什么样子的,后一帧通过上一帧改变什么到了下一帧。这个视频在今年刚刚新衍生出的新方式,还有就是Pika、Runway,这些图生视频你给它一张图片,最后一种方式在这几个月内衍生出的新方式,它通过一个插件,大家看到过从小到老或者叫时代变迁,它没有任何的转场一条长视频,从一个人婴儿刚出生的时候到最后长大了以后包括老了,死了,整个一段都是非常丝滑的转换,包括说时代的变迁从古代埃及开始到尼罗河,再到现在的中国再到欧洲之类的,所有的视频都是非常丝滑的转换,现在其实就是这四种。

因为它的生成逻辑跟我们传统的逻辑有点不一样,它带来新的视频模式,技术是爆发的,但是从应用层面来看的话,它确实离我们实际上拍电影、拍短剧、拍电视剧差的很远的,我们现在其实实际应用领域就是广告,因为很多品牌方想尝试一下广告。其次就是我们可以做电影预告片,这个很多人在做了。

我们还可以做一些推文,就是推文小说我们可以很快生成图像,让大家看到小说一些有可能的世界观,包括大家说的短视频领域,短视频领域只需要很短的动画抓大家的眼球就可以了,在这方面应用还是挺充分的了,但是我们去做电视剧、电影、网剧还有很远的路。

王晟:我们现在生成式视频主流的技术范式是什么?现在包括我们看到PIKA、Runway的技术方式离最终五年突破的东西会有泛式改变,这是第一个问题,差别是什么样?第二个问题是说我们最近看到显眼包都是外国公司,包括Pika以及Midjourney,如何看待国内和国外技术上的差距?

易子立:首先第一个问题,目前文生视频主要的范式,现在业界的主流范式都是基于扩散模型,扩散模型一般它是基于T2I文本转图片的基础上再做文本转视频的基础模式,做成文本转视频基本模型之后又可以做到图片转视频,视频转视频这些都可以做,所以现在主要路线还是扩散模型。

但是未来主要的模式就是要回归到跟大语言模型类似的范式,就是基武Transfomer的技术,而是像自然语言一样预测下一个Token,Token和图片之间怎么建连?首先要把视觉数据转换为离散的Token,这可以用自然语言的模型去处理图片和视频的生长,这个范式为什么会比扩散模型好呢?首先它的建模型要扩大很多,但是它的算力要求会更高。

最新的像Google就是基于这种技术路线,这种技术路线在两年前也用的这一代技术,只不过当时效果没有超过扩散模型,出现这种结果是因为现在算力是有限的。随着算力增加这个变量改变了之后,新的范式逐渐取代于旧的范式过程。

第二个问题就是说我们跟国外的差距,我们现在主要热点关注刚才说的几个产品Pika、Runway都是国外的,它们做生成视频底座方面确实领先于国内厂商,但是在应用细分赛道上,其实我觉得国内做得更好,包括2D的数字人技术、AI社交技术,这些国内做的不管是赛道全面程度还是技术上都比国外走得早一点、快一点。

其实我觉得国内没有出现整体落后的局面,还是在有些应用赛道上比国外走得好,当然我们还需要努力,我们在算力方面被卡了脖子,算力方面是我们的劣势,但我觉得随着时间的变化,包括我们在算力短板补足之后,在其他方面逐渐赶超是有可能的。

王晟:我再多问一个问题,Transformer比用Diffusion的模型在同样训练规模的情况下,它要吃到多少倍的数据算力?第二个问题,因我们把所有模态统一在一起,让它掌握更好知识对应关系,这会不会让这个领域已经没有创业公司的机会?而是大模型公司尤其是大模态大模型公司变成各种生成类的公司?

易子立:首先说算力消耗方面,Transformer对算力要求更高,一般像我们最早的时候对比Transformer路线跟Diffusion的路线,它的数据量要达到一个域值,比如说达到一个亿以上才能出现比较好的效果,在低于这个域值时效果非常差的。但是扩散模型在几百万图片到千万级的片效果就已经不好了,达到一个亿的时候就能够超越Transformer技术,说明对数据量的要求和算力的要求,Transformer投入产出比更低吧。

但是为什么说以后随着算力的提升达到一两个量级提升之后路线更有潜力?我刚才说它建立了长城依赖,第二个就是它可以实现像素级的生成,我们在极端的情况下,把每个像素当成一个Token这样预测,它的可操控性、生成的力度、还原度方方面面质量都是可以操作的,它的潜力是比扩散模型要大。

第二个问题,如果说以后视频图片生成以后都走了Transformer路线是不是会被大语言厂商半路截胡?这个我不好预测,目前来看Pika、Runway也好它的市场份额很高,它的渗透率也在逐步提升,未来它到底是根据保持它的业务优势快速进行技术迭代或者说技术范式的提升,保证自己不掉队,如果做到这一点,还能保持它的业务优势,如果没能迅速反应提前布局,是有可能被大语言厂商半路截胡。

王晟:海波,你们就是在做一个应用,为什么会选择这个应用,包括在你看来这种生图也好,生视频也好,最好的应用场景有哪些呢,哪些场景我们应该以什么思维方式去判断这个场景适不适合呢?

雷海波:为什么做应用,因为我不是技术出身的,做不了大模型,只能做应用,我是设计背景的。我想延展一下,探讨一下所谓国内我们讲的文科生大模型还是艺术生大模型的问题。所有人讨论的视觉大模型都不是中国人的,Midjourney,市场占有率比较高的Runway都不是。

坦诚来讲,为什么我们中国一波做大模型的厂商也都做了文生图、文生视频的模型,包括我们所认知的国内最早“文某阁”,为什么它做不过Midjourney呢,这是技术能力的问题吗、算力的问题吗、数据集的问题吗,我觉得如果在我这个艺术生来看是美学的问题,我觉得他们不懂美学。我们可以看到Midjourney每张图出来都是非常有设计调性、氛围、效果超级好、光影质感,特别是昨天发的V6,真的是远超越人类的表现了。你要去训,它的效果也非常好。Runway稍微差一点,它效果已经很强了,因为我们讲的是文生视频。但国内有哪个模型能用呢,我觉得做应用是有机会的,因为那几个模型进不了,你无法调用它的API。

我觉得国内有某个大厂能做出Midjourney一半国产的视觉模型,我觉得应用侧一定会有更多微调的机会。结合高品质的数据集,以及行业认知的能力和产业化落地的能力,我觉得应用一定是有机会的。

王晟:你觉得我们基础模型能力不足,反而也影响到了行业落地的效果是吗?讲一下你落地的场景,你为什么会选择这个场景,这个场景有什么优势?

雷海波:我们落地的场景,目前比较简单,我们只找钱最多的场景。在我的认知里面,目前钱最多的场景就是营销,营销里面每个人都躲不开的就是电商。电商这个场景虽然很卷,但你得想一下过去这么多年,整个在电商营销领域上亿的商家和几十个亿的SKU背后物料是怎么生成出来的,都是靠人工去实现的。我们现在有没有一个可能性,不管是文生图、文生视频还是文生3D,如果能保证商家上传商品本身在这几个模态里保持不变,又能和这三个模态模型融合到一起,变成商品图、海报、短视频,甚至3D交互的模态内容,我觉得这是有机会的。

王晟:娜娜既是一个艺术家,又是一个内容创作者,我们觉得这两个还是有区别的,艺术家可能更多是想完善一些艺术作品、艺术追求。内容创作者可能要接一些商业的活。

你现在在整个文生视频里怎么平衡,哪些是你的艺术创作,哪些是一些商业上面的创作。从你自己的角度来讲,你想追求的是什么,是两个同时目标在追求,还是最终会选一个,还是怎么样的路径?

娜乌斯嘉:一致性的问题,其实要靠训练模型来解决。刚才说电商,电商的极限,比如你想出一个人,或者出现一个IP,或者一个产品,训练模型最后能还原的程度最高就达到80%左右,已经顶天了,已经不错了。你想让它和原先的一模一样,那还需要一些控制方式,抗生态的控制模式。

刚才说到底是艺术作品还是商业的应用,我其实很想平衡里面的,但它不一样,有的收了钱,你不得不做。有的是出于自己的想法,我去创作的。我原来有一个slogan,在AI世界里我是无所不能的。我觉得在生图界面,在生图环境下,其实已经是无所不能了,我想生成一张什么样的图片,刚才说的打不过就加入,因为它真的可以投降了。在生图场景里面,没有一张AI图片是生不出来的,只要你想得到它一定能生的出来。再炸裂的画面、再炸裂的特效,一张图片都能达到。但在视频领域里受到掣肘还是挺多的,因为它没有那么多丰富的控制手段。

比如表达感情,人物脸上的表情,比如悲伤、难过,比如人物一致性,因为在生成图片时就有人物一致性问题,在生成视频时更有这样的问题比如人物说话时,虽然已经有很不错的自然口形,但真正在做的时候和人念台词嘴形是不一样的,能看出来有点恐怖谷的效应,觉得这个人不正常,讲话不应该这么讲。我觉得在未来发展中,我希望它还是有更多控制方式能让我们精准控制视频的生成,就像图片一样。

我觉得有可能有两种分支的,其实简化生成方式与精细控制是一个矛盾体。你一方面希望每个人都能成为导演,大家都能非常开心拥进去,通过一句话生成一个电影、一个短片。但如果你真的想生成一个艺术品的话,你对它的控制是方方面面的,比如加入一些专业的控制,镜头怎么去走、角色怎么建立,他是什么样的骨骼,你要生成骨骼,生成表情控制。场景是什么样的,光线是什么样的,在一部片子中需要考虑的元素非常多。当你对它控制越来越多时,如果它是一个软件,它就会很庞大,你的应用场景是好几个菜单不同的。这个又和我们刚开始说的每个人都可以当导演这件事情有一点相悖的,因为每个人都可以当导演,我上去说一句话就生成出来了,我觉得在未来可能会往这两个方向发展。

还有,我希望大家要在未来场景里去适应感受。你的创意其实大于你掌握的技术,一定是你想到什么,有什么更独特的想法,才是你从人群中脱颖而出的idea。

王晟:我特别认同娜娜最后说的一句话,作为我们来讲最重要的是创造性的思想,你实现它往往只是一个技能的过程。也就是说如果AI能够把我们的创造性想法更快的高质量变成一个结果,那人类也许不用浪费那么多时间去学习那个技能。就是韦青老师讲的,你先问自己想做什么,不想做什么,然后再看看AI应该解决哪些问题,肯定想把我们不想做的工作交给它。

娜娜反过来又把问题抛给了易老师,包括海波,模型的能力、模型的一致性,这是个科研问题。软件是不是好使、平台是不是好使,这又变成一个工程产品的问题了,实际上我觉得是这三part联动的。

我稍微用一点时间讲一下我们在一年多投资实践一点点相关的看法。

其实今年虽然整个AI投资,大家感觉好像非常热,这是因为各种媒体报道非常热。实际上我们看到的特点,我们叫做两端集中:一端是资金端集中,就那么十几家、二十家VC真正在投,真正敢投,真正出了手。另外一端叫做资产端集中,也就是项目,我们投的项目很集中,就集中到那么20来个项目上面去,绝大多数钱,百分之八九十的钱都在很少的项目上。大家在投什么呢,一方面在投info,我说的info是整个AI训练和推理的环境,说白了最主要是在投算力,投很多的芯片、大算力,GPU,云端,或者端侧,各种算力大家在投。另外一些就是InfiniBand、无损网络、高速网络、光通信模块、高速SDN交换网络、交换机等。当然再往上一part就是投大模型,大家也看到在大模型这个领域里下去了非常多的钱,但其实大模型创业公司就是那么几个,在应用侧很少。

我们今天回到生成式视频这个角度来看,其实从我们的角度来讲,我们前年就在看文生图,但一直没有敢投。今年我们一直都在看文生视频,最终结果也是没有敢投。其实核心有一个问题,这种基础能力的平台太烧钱了,所以大家就需要砸很多钱给一个创业公司。这个创业公司必须有足够的时间窗口去成长,如果说整个业界,包括大企业,包括这些做大模型企业也在往这个方向做。包括像一些大公司,像字节都在做,字节好几个team在做生成式视频。字节、阿里、腾讯这些都在做,这种情况下没有能力底座的窗口期,这个方向对于中国投资人来讲确实是比较难投的。

当然了,退而求其次,大家现在比较高度关注文生视频发生的应用,以及如果多模态大模型在明年相对完善一点,我觉得这个易老师会乐观一点,多模态这个方向上。

易子立:多模态的话,我其实涉及到主要是文本和图片视频的结合,语音这方面暂时还没怎么涉及。这个方向确实,如果具体看任务,要做一个多模态的基础模型,目前确实除了GPT4,GPT4是目前最好的多模态基模,这是肯定的。不知道GPT5会做成啥样,目前来看多模态确实还是处于一个需要攻关的阶段。

王晟:最后,我就想请教一下几位嘉宾,你们在明年有没有给自己一些目标,你想实现什么样的目标?除了通过我们自己的努力,还需要哪些环境能够帮助你更好实现这些目标,或者希望谁,比如政府,这些大的企业,还是客户,能够更好参与到其中,怎么样能够帮助到你们?

易子立:我现在是作为一个高校里的科研工作者,我们苏州校区也是刚刚建立,在搭一些基础设施。基础设施希望能够尽快搭好,去做一些比较前沿的研究。我本人还是会继续在图片视频生成方向上发力,因为现在技术范式也在发生改变,而且视频的理解和视频的生成也开始走向大统一,所以我们后面也是借视频生成这样一个技术去做CV的基础模型。当然我们也不能做通用的基础模型,我们可能会选一些细分赛道,比如刚才毛老师提到的工业领域的基础模型,做工业缺陷检测、做工业机器人,因为他们看到的场景相对比较封闭一点,不是那么开放,而且相对是比较垂类的场景。做一些这样工业视觉的基础模型,生成和理解都能做的这种,我们会向这个方向发力,当然我们最缺的当然是钱和算力。

雷海波:刚才说文生图,文生视频,今年我们主要还是发力在文生图,我们管它叫设计垂类行业模型研发以及端到端应用层面,表现出围绕电商一些营销场景。我们其实也很快看到文生视频的能力,我觉得在某些特定的阶段文生视频和商品如果能够完美融合的话,其实是非常能够解放创意的生产力,我觉得这个领域是我们明年要重点发力的。从长期来看,也是要看真正在3D生成层面,因为只有3D生成达到高质量工业级能力时,我们整个工业设计,或者设计才能得到彻底的解放,所以我其实也是期待着,不管是国内这些大模型厂商能够在这个领域多发些力。当然我们也期待像英诺这样国内顶级VC多投一点应用,这个很关键。

娜乌斯嘉:我自己在明年很简单,我觉得在明年一定要做出一个真正意义上AI短片,真正讲故事的那种。其实我需要的就是技术支撑,不管它是在新的层面上用一些新的控制手法可以控制整个视频,还是和三维结合,把AI变成一个三维渲染器,都是可以实际在应用当中帮到创作者的方式,所以我就觉得加油。

王晟:娜娜对我提出要求,海波也对我提出了要求,其实这一波AI,我忘了上午哪个嘉宾提到的《科学无尽的前沿》这本书,布什之前为美国科技发展定的纲领,非常重要。去年再版,重新做的序里提到《科学无尽的前沿》里所有思想、所有规划都是非常好的,但到今天这个时代缺了一part,就是全社会,不光是科学家,而是全社会对科学的感受、认知、共同参与,这件事不是个别角色的问题,这是全社会的问题,需要从政府,需要从产业、企业家、创业者、内容工作者、科学家、媒体、大厂、投资人等共同参与,积极出力,才能使得这个产业更好的发展。我们确实希望更好追赶美国吧,因为我们现在确实还是有差距。

谢谢大家,谢谢各位嘉宾!

本文标签: 海波  文生  ai  模态