对话视频从业者：Sora变革年，我们更该了解什么是不变的

更新时间：2024-03-20 00:27:39作者：橙橘网

3月14日，OpenAI首席技术官米拉·穆拉蒂对外公开表示，公司旗下的文生视频模型Sora计划在“今年晚些时候”正式面向公众发布。

就在短短一个月前，这款文生视频工具初次亮相，凭借拔群的效果引发了市场的大面积惊叹。有关“视频行业要被颠覆了”的积极或消极预判，在互联网上喧嚣一时，相关市场赛道也拥抱了新的资本热点。

旧的话题还未有定论，日历上就已设下了新的倒计时。

身处“大模型纪元”，某种程度上，我们已经习惯于陷入一轮轮的技术“狂欢”。

然而，即便赢得了普遍的关注，技术将为市场带来什么样的改变？这仍是个模糊不清的问题。

为了看清潜藏于水面下的市场脉络，我们与音视频生产协作平台“分秒帧”的创始人兼CEO、前资深媒体人程刚进行了独家对谈。

从2000年开始，程刚本人曾先后供职于中国青年报、腾讯、搜狐、WiFi万能钥匙等媒体、社交媒体和移动新媒体平台。

2019年，看准音视频云端生产协作的蓝海市场，程刚与合伙人一起创办了分秒帧，至今已深耕音视频行业5年时间。

01、“Sora的发布，让很多旧工具失去了价值”

市界：据说你很关注Sora，春节后不断在参与讨论。为什么是在这个时间点？为什么是Sora？

程刚：是的，Sora发布时（2月16日，大年初七）春节假期还没过完，我们马上就开始做动作，在公司内部开会讨论，同事也和业界很多创业者朋友、做算法的朋友、做AIGC的朋友密集讨论了一圈。

在过去的一年多时间里，无论是ChatGPT的发布和迭代，还是Runway、Pika等文生视频工具的出现，我们的态度一直都停留在“关注、观望、研究”的层面。对于在产品中引入AI的能力，我们还是比较克制的，没有马上做动作。

但Sora的发布带给我们的震动还是比较大的。技术的超越已经有很多分析，我们看的更多的是行业应用层面，相比Runway Gen-2、Pika、Stable Video duffion，Sora明显可用性更强。

之前的Runway Gen-2、Pika、Stable Video duffion等工具生成的素材，后续还需要花大量的时间加工才能成片，生成的视频时长也很短。我们认为，这些工具更多提供的是锦上添花的价值，而不是雪中送炭的价值。

很多人是抱着尝鲜的态度去试用这些工具，所以你就会发现Pika这些工具的留存率比较差。这反映出它们创造的价值不够。其实GPT本身也面临月活走低的问题。

市界：除了刚刚提到的时长问题，你指出Pika、Runway这类工具的可用性较差，“可用性”究竟指的是什么？

程刚：最近有很多Sora与其他工具生成的视频对比。从最终的效果来看，你会发现Runway、Pika等工具生成的部分所谓视频，其实更像GIF图。

比如生成的视频里有的人物不动背景动，有的是背景不动人物动。这显然不是对真实物理世界的模拟。

从这些角度来看，可以说Sora相对Runway Gen-2、Pika这些工具，是有代差优势的。

在过去的一年时间里，有些AIGC公司还属于众所关注的“明星公司”，但当Sora出现之后，某种意义上是直接把这些工具cover掉了。

市界：所以说在AIGC赛道内创业是一场十分残酷的游戏，你认可这个观点吗？

程刚：举个例子，硅谷的一家叫做Jasper AI的公司，很早就接入了ChatGPT的一些能力，能帮助用户来生成营销文案。它一度也受到市场的强烈追捧，2022年上半年就已经有4000万美元的营收，2022年10月获得由Insight Partners领投的1.25亿美元A轮融资、估值也涨到15亿美元等等。

但是等到GPT-4正式发布，Jasper AI的价值就大打折扣，开始裁员、下调营收预期。

市界：所以这几天一直有人说Sora发布，突然就懂抖音的张楠为什么要聚焦剪映了。

程刚：对，剪映如果在AIGC方面，不能推出自己的大模型并且建立起相应的能力，未来某天它可能就会被Sora给干掉了。

剪映面对Sora带来的威胁，和Sora发布当天Adobe的股价下跌百分之七点多，其实是同一个逻辑。

所谓颠覆，往往不是拥有类似解决方案的竞争对手带来的，而是一个新物种以高维打低维带来的。也就是通常我们所说的，干掉相机的不是相机，而是手机。

02、“估计开放使用半年，Sora的一些技术问题就能得到改进”

市界：回到Sora，如果说Sora把Runway等工具远远甩在了后头，那么Sora现在又处在一个什么样的位置？它距离所谓的“颠覆行业”或者真正商用，还有多远距离？

程刚：我觉得分几个层面来说。

具体场景下，从放出的 Demo来看，相对于Runway Gen-2、Pika这些过往的工具，Sora生成的视频已经大幅提高了可用性。但你是用Sora来生成可修改可使用的成片，还是生成可修改可使用的素材呢？这两种场景是不一样的。

基于目前大家的讨论和预判，Sora至少在生成素材方面能够提供非常大的帮助。从这些demo来看，有些视效用传统的计算机来建模、贴图、渲染，工作量会非常大，实现的成本会非常高。但是对Sora来讲，就变成了输入一串prompt的问题。

当然，要具体看它能够解决什么问题、提高了多少效率、节省了多少成本。尤其重要的是，它的使用成本怎么样。这要等它真正开放后，再具体分析和做进一步判断。

总体而言，我比较倾向于认为Sora在视频生成方面的突破，堪比工业革命和信息革命的这样的革命性的变化：第一是新的生产工具，第二是新的生产方式，第三是带来的生产关系的变革。

市界：你怎么评价AI工具发展的速度? 2023年下半年，有人还预计文生视频要能确保对象的一致性、连续性，可能需要一两年的时间。但是Sora的出现，显然打破了这个预期。

程刚：Sora的突破速度这么快，出乎了我和身边绝大多数朋友的预料。我也很关心Sora接下来优化迭代的速度会有多快。

我们目前看到的它存在幻觉问题、精准度问题、对物理世界的理解和模拟不准确所带来的逻辑问题、版权溯源和版权保护问题，以及有人滥用工具去生成虚假内容的问题等等。这些问题当然会影响Sora在商业场景中的使用。

但我们分开来看，对于技术层面的幻觉问题、精准度问题、对物理世界的理解和模拟不准确所带来的逻辑问题，我相信OpenAI会持续地投入，去优化，我们也相信Sora会保持比较快的优化迭代速度。

解决这类问题的迭代速度也和Sora什么时候能放出来供用户使用有关。因为用户使用的过程中会给OpenAI大量的反馈，OpenAI可以基于这些反馈不断优化和迭代。

Sora迭代的速度，基本可以参照ChatGPT的迭代速度。Sora对现实模拟不准确的问题，比如手有六指，应该半年左右就能得到比较大的优化。

至于说版权溯源和版权保护问题，包括滥用Sora去生成虚假内容等等，因为这些是人类在AI技术冲击下面临的治理和监管问题，更多需要在法律和道德自律的层面去讨论和解决。

它不会像技术问题那么容易解决，当然它也不会妨碍AI技术的发展和Sora等等工具的快速应用。这是我们的研判。

市界：感觉你个人对于Sora和它所代表的AIGC浪潮的态度是很积极的。在你和行业的沟通中，大家的态度都是这么积极吗？有没有人会有焦虑？

程刚：积极和焦虑本身不矛盾，我身边的多数朋友，都看好Sora的革命性突破和将带来的巨大价值，普遍感到很兴奋，但是不妨碍他们焦虑。面对Sora和ChatGPT的冲击，很多人和组织都是人心惶惶的一个状态，担心会被AIGC替代，担心会在竞争中处于不利地位。但更重要的是，当一个大的革命性时代到来，我们怎么去抓住已经成为共识的趋势性的机会？

这个时候反而各位需要冷静下来，回到一些底层的问题上去做深度的思考和讨论。

从ChatGPT发布一年多以来，我们认为，最重要的是一定要去把握住在冲击和变革下，什么会发生变化，什么不会发生变化。

我发现市面上绝大多数的讨论，都都围绕着ChatGPT、Sora会改变什么？只有极少的人在思考在这种冲击下什么不会发生变化。

03、“小分工会被AI压缩替代，但行业的大分工不会变”

市界：在音视频行业，变和不变是什么？

程刚：音视频创作的过程，最初是头脑中的一个创意和灵感，通过多人协作生成音视频内容的过程，本质上是创作者的创意和审美的一种呈现。从经济学的角度讲，存有专业分工，在效率上一定是大大优于个人一条龙创意、策划和制作实现的。

从分工的维度来看，一些小的分工会被大幅压缩或替代。比如说拍摄、剪辑、特效、调色，像这类更细分的工作，有可能会大范围、大规模地被AIGC工具替代或者压缩掉。因为基于prompt生成文案、图片、素材或者视频成片的新机制，在相当程度上抹平了一些传统角色分工在专业能力上的差距。

但是行业的大分工不会变，也就是需求方和需求实现方，或者叫甲乙双方的大分工不会变。需求方懂产品懂用户，也可以去学习如何使用Sora这样的工具，但是创意和审美能力不是一天两天能够学会的，有些需要依赖天赋。Sora虽然可以降低视频制作的门槛，简化创意落地过程，却无法抹平人们在创意和审美能力上的差距。

另外，我们还需要回到具体的工作流（workflow）去观察。前两天Sora的开发团队在接受媒体采访中也表示，他们正在听取艺术家的意见，看Sora怎么在工作流发光发热，从而指引研究路线。

而从工作流的角度判断，小的流程会被大幅压缩，但是大流程不会变。大流程是什么？第一，需求方要提出需求；第二，需求方提出需求后，跟实践方沟通需求；第三，需求实现；第四是审看、沟通、修改；第五，需求方确认。

不论AI技术如何发展，技术怎么演进，只要甲乙两方存在，在这两端之间就会有反复沟通的需求。甚至而言，沟通需求还会成千上万地增加。

举个例子，比如说国内2023年生产的视频数量可能是500亿条。但在创作者熟练使用各类AI工具之后，可能市场中的视频数量会达到5000亿条、1万亿。相应地，需要去审看、修改、确认的工作量也会增加。

所以说类似分秒帧、飞书、Figma（海外设计工具，强调即时协作）这样的协作工具，始终都会有生存的空间。

按照这个逻辑，分秒帧是要去解决AI和人之间的交叉口的问题，

市界：你刚刚提到视频量会越来越大，审看需求相应会变多。如果这个市场是一个蓝海市场，会不会有越来越多的竞争者，包括抖音剪映这样的大厂加入进来？怎么面对竞争？

程刚：我们总体来讲并不是很担心，把自己的事情做好就ok了。

以剪映为例，它的缘起和发展中相当长的时间，主要是ToC的。但近一年多，我们的确观察到越来越多B端的企业客户开始使用剪映专业版。这些B端客户有经营抖音账号矩阵的需求，做短视频用剪映的确比较方便。

分秒帧目前服务的客户4000家左右，以B端客户为主。在过去一年，有不少客户提出来说，希望分秒帧能够跟剪映打通，形成从剪辑制作到审看修改的闭环工作流程。这样他们能够在剪映上把片子做完后，用分秒帧来快速共享预览、提出修改意见、完成确认交付。

虽然剪映现在也提供协同协作的能力，但试用一下就知道，他们在这方面的投入还是远远不够的。据我所知，眼下和未来一段时间，剪映的重心会在AIGC和出海上。

总之，我不是很担心大厂的竞争，而且相反说不定将来我们跟剪映还有一些合作的机会。

市界：一个比较务虚的问题，如果你当初没有创业，但在2024年的当下，你会愿意做一家分秒帧这样的公司吗？

程刚：当然愿意。原因正如我刚才说的，做分秒帧的大逻辑仍然存在。

不管是2019年的时间节点看，还是此时此刻看，我认为行业有几点没有发生变化：需求场景没有变、用户的最大痛点没有变。所以，即便已经有了AIGC、有了Sora，我仍然看好云端音视频生产协同的市场机会。

作者｜董温淑

编辑｜董雨晴

本文标签：程刚工作流 sora 视频从业者视频生成模型

上一篇：对话视频从业者：Sora变革年，我们更该了解什么是不变的

下一篇：汤臣倍健业绩双位数增长，该公司董事长：没有任何自喜的理由