对话李志飞:理解Sora,复现Sora

更新时间:2024-03-18 17:57:13作者:橙橘网

对话李志飞:理解Sora,复现Sora

经过1个月的发酵,国内AI从业者们对Sora的态度正发生着微妙的转变,从最初的震撼,到被未知裹挟的好奇、质疑,再到最近开始隐约出现“复现Sora”的潮流。

1份技术报告,32篇引用论文,一些画面堪比电影镜头的demo和1个故作高深的“世界模拟器”概念就是OpenAI给出的全部,没有技术论文,也没有可公开体验的产品入口。

OpenAI给全世界出了一系列谜题——Sora的技术架构到底是什么?和ChatGPT有什么联系?训练Sora是否会烧掉更多资金和算力?开源有机会反超Sora吗?OpenAI口中的“世界模拟器”到底是什么......?

本次对话的主人公李志飞,便是冲在一线破解谜题的人。

李志飞,出门问问创始人、CEO,美国约翰霍普金斯大学计算机系博士,前Google总部科学家,自然语言处理及人工智能专家,创业10年主导开发过语音助手、智能硬件,以及多个AIGC产品,如魔音工坊、奇妙元。

2022年底,感受到ChatGPT带来的心智冲击后,李志飞直接飞到美国,在距离OpenAI最近的地方寻找答案;但今年,李志飞没跟任何人聊,在他看来,“OpenAI很狡猾,他们试图隐藏一些东西”,而目前国内外社交媒体上对Sora激情评论的人基本“都是瞎猜”。

“过多的猜测只会浪费时间,既然找不到答案,还不如自己研究。”近一个月,李志飞一门心思研究Sora的原理,他几乎看遍了OpenAI列出的32篇论文。现在,他已经拼出了一幅完整的Sora技术架构图。

一年前,几乎是相同的时间,「甲子光年」曾与李志飞围绕ChatGPT的“炼丹大会”有过一次对话;一年后,甲小姐再次对话李志飞,主题转变为“理解Sora,复现Sora”。

谈感受:“理解是没有终点的,我们只能无限逼近真相”

甲小姐:到今天为止,你对Sora理解到什么程度?

李志飞:我基本读完了所有Sora相关的论文,对Sora的理解更深了。但理解Sora不是封闭的数学题,现在我们对Sora的理解可能逻辑起点都是错的,是否在某个地方做了隐性假设都不知道。理解是没有终点的,我们只能无限逼近真相。

甲小姐:Sora跟ChatGPT相比,谁给你的震撼更大?

李志飞:从原理突破来说,肯定是ChatGPT,或者说是它背后的GPT。今天,很多人都看过GPT许多相关论文,但还是很难理解大语言模型为啥有思维链(CoT)以及上下文学习(ICL)的能力,这是心智上的冲击。而Sora真正的冲击不在原理突破,因为ChatGPT出现后我们都能预见到AI生成高质量视频是必然的,只是没料到会这么快。Sora的冲击是它生成视频的时长、高质量以及一致性。

甲小姐:Sora在业内引起的反响跟ChatGPT相比,哪个势能更大?

李志飞:ChatGPT在2022年11月底发布,国内23年1月底才开始大规模讨论,2月左右出现创业潮,大概有三四个月的时间大家都非常兴奋,觉都睡不着,Sora肯定没到这种程度。一个重要原因是ChatGPT能直接体验。Sora的下一次高峰可能是OpenAI开放体验的时候,现在降火速度非常快

甲小姐:有人把Sora类比为GPT-3.5时刻,你认同吗?

李志飞:这完全不对,如果一定要类比,Sora应该是GPT-2到GPT-3的过渡。因为GPT-2跟GPT-3原理上没什么区别,但GPT-3证明了Scaling law(规模法则)在文本数据上workSora进一步证明了Transformer和Scaling law在视频同样能work。

甲小姐:OpenAI没有把Sora开放给大众使用,有没有一种可能是,现在的demo是他们精心筛选的结果,Sora的真实能力远不及此?

李志飞:有可能。除非Meta的LLaMA-3也立马搞一个开源模型,能复现类似Sora的效果,以此证明Transformer和Scaling law确实能在视频生成领域规模化work。

甲小姐:OpenAI可能会在什么时候开放Sora的使用?

李志飞:具体何时不知道,OpenAI的Sora团队已在最新访谈中明确表示不会很快发布。如果Sora要商业可用,除了解决渲染速度、时间、成本等问题外,版权问题也是一个难点。

文本的版权已经被搜索引擎重塑了一遍。2005-2010年,纽约时报等传统媒体不断诉讼谷歌搬运他们的原创内容。经过十几年的博弈,各方对文字内容版权基本形成共识。视频还没有经过这样的洗牌,大家的版权保护意识非常强。Sora要真正开放使用,可能要面临比ChatGPT更大的合规问题。

我猜测OpenAI或许已经用了一些电影、电视剧、游戏以及YouTube的数据。如果只用社会媒体的UGC数据,Sora的生成效果可能根本达不到这个质量。

当然,Sora现在只是学术研究的demo,无法证明OpenAI到底有没有侵权。这也是OpenAI相对于谷歌的优势——他们在合规方面可以更加野蛮

甲小姐:对于国内公司而言,ChatGPT和Sora哪个追赶难度更大?

李志飞:去年和今年情况不太一样。去年国内对大语言模型原理的理解不到位,基础设施也比较差,导致最初的训练效率很低,GPU的利用率也很低。但好处在于,ChatGPT的原理有公开论文,你只要努力看懂就行。

今天我们在基础训练设施方面更成熟,可能只需要去年1/2甚至更少的GPU就能训练出同样的模型。但不好的地方是,Sora的技术细节并未公布,比如它用的编解码器到底是啥?60s的视频是一次成功生成的还是多次调整prompt的结果?60s是一个token sequence还是拆成了多个15s的token sequences?这些细节决定到底能不能复现。

甲小姐:在你眼中,谁有可能最先做出“中国的Sora”?

李志飞:我不知道。这次我没跟任何人聊,就是自己看论文,跟我们的工程师讨论,甚至连硅谷的人都很少聊。我不觉得他们能有比我更深的认知,大家都是处于同一起跑线瞎猜。X上面那些人的认知、理解跟我们比也没有多大差别。去年ChatGPT出现后,我和业内的高频互动从结果看也对我作用不大。既然找不到真正的答案,我还不如自己研究。

甲小姐:你可以直接找OpenAI的人聊。

李志飞:我懒得找,估计也找不着,OpenAI可能也就10个人做这个项目,再加上保密限制估计也聊不出啥。另外,我们要去实现Sora,并不一定要跟它一模一样,达到类似的效果就可以,那我肯定要有自己的一套理解去做。

甲小姐:你为什么对Sora有如此大的兴趣?

李志飞:一是个人爱好,去年读了不少多模态的论文,但大部分都是小打小闹的demo,各说各的,没啥让人信服的效果,但Sora的效果让我特别好奇到底是怎么做到的。二是我认为出门问问过去做的AIGC产品的终局就是视频生成。比如魔音工坊是为短视频生成配音,奇妙元是生成数字人视频。虽然这些产品现在的用户量和商业化都不错,但如果Sora这种端到端的技术路线成为主流,我们这些产品没有跟上就不会有竞争力了,所以我们必须理解并跟上。

谈原理:“如果我是OpenAI,就做纯粹的GPT”

甲小姐:OpenAI发布的Sora技术报告,你最关注哪个部分?

李志飞:最让我困惑的是“时空编码器”,也就是OpenAI怎么把视频数据转成patch

刚开始我一头雾水,好奇每一步是怎么做的。OpenAI技术报告里也没怎么写,我就把编码器、解码器相关论文都看了一遍,发现其实没那么复杂。

这里的patch就是大家常说的token,数据处理的原子性单位。就像人学知识一样,在一片汪洋大海中,你可能没有头绪,不知道怎么学,但把它分成块,每一块单独突破,肯定简单很多。

甲小姐:概括一下patch的来龙去脉?

李志飞:2021年6月,谷歌推出ViT(Vision Transformer),即用Transformer来做一个图片分类模型,这篇论文最早提出“patch”的概念每一个patch可以当作一个token,用Transformer把图片转换成tokens。以前做图片分类不是基于token,都是用CNN提取图片feature(特征)。


图片来源:ViT论文

2021年11月,谷歌推出ViViT(Video Vision Transformer,视频ViT)。把ViT从图片拓展到视频,把视频也转换成了tokens。视频增加了时间的维度,这篇论文提出,要从时间和空间的维度同时切块,即时空patch


图片来源:ViViT论文

2023年7月,谷歌提出NaViT(Native Resolution ViT),可以处理不同分辨率、纵横比的视频数据。

2023年10月,谷歌又推出MAGViT V2(Masked Generative Video Transformer),解决图片和视频联合训练的问题。

强调图片和视频联合训练的原因有二:第一,视频跟文本对齐的数据很少,但图片跟文本对齐的数据很多。第二,图片有很多高分辨率的数据,但视频没有。所以图片跟视频最好在同一空间、同一vocabulary(词汇)中联合训练。

OpenAI可能还大量使用了模型再生数据。Sora技术报告明确说,他们将所有的训练视频与文本对齐,由专门的Dalle-3为之生成相应的captions(说明文字)。

甲小姐:视频数据token化后,在接下来的处理上和文本有什么本质区别?

李志飞:照常理说,时空片出来了,相当于视频数据已经token化,如果用GPT,那一切都简单了。但大家都猜测OpenAI没有用GPT,而是用了DiT(Diffusion Transformer)或其变体。

类比来看,GPT的核心架构有三大块:编码器(tokenizer)、解码器(De-Tokenizer)和转换器(Transformer)。GPT的过程可抽象为:编码器将数据token化,通过转换器做上下文依赖关系的建模,再由解码器转换为人们熟知的形式。我猜测Sora核心也是这个框架,只是转换器换成了Diffusion。

甲小姐:到底什么是token?

李志飞:Token是模型处理数据的基本单元,有两个方面,一是切分成块,二是分块后把对应的token值量化。

很多人认为token一定是离散的,这是很大的误解。Token的值不一定离散,也可以是连续的。对Transformer来说也是如此,只要分块就可以了,它既可以处理连续值也可以处理离散值的分块。

文本模型通常使用离散表示,因为文本是天然离散的(文本是由字符或词构成的字符串),OpenAI用的DiT不需要将token值离散化,模型学的是不同连续之间的关系。所以他们用的编解码器引用了VAE(Variational Autoencoder,变分自编码器),而不是VQ-VAE(Vector Quantization,向量量化)。

Token的离散和连续关系到模型学习的颗粒度,Tokenize都是为了找到最合适的、最能表示原始数据的学习颗粒度假设token值的范围是0-100,如果token量化后以1为单位,就只有101个整数值(vocabulary的大小),但如果token值是连续的,那这个值就有无穷种可能。

甲小姐:从思想上看,GPT和DiT的核心区别是什么?

李志飞:GPT像人类的“工笔画”,一笔一笔地画,后一笔依赖于前一笔;Diffusion很像人类的“泼墨画”,“一泼即成”,之后在初稿上一遍遍细化,直到最终呈现出一幅高清图像。

甲小姐:既然都可以“画画”,为什么不用GPT而用Diffusion?

李志飞:说实话,如果我是OpenAI,就做纯粹的GPT,因为GPT擅长捕捉各种依赖关系,包括对长视频一致性很重要的远距离依赖关系。

我认为GPT的成功在于next token prediction,模拟人的思考方式。我觉得GPT也能模拟扩散的生成过程。具体来说,GPT生成一版粗糙的token sequence后,把它放在上下文窗口中再次生成下一版更精细的token sequence,如此反复,GPT也能完成扩散模型的“从粗到细”过程,这其实更像人类作画的方式。

但这对模型的上下文窗口要求很高。比如MAGViT生成2.125秒、帧率为每秒8帧、分辨率为128*128的视频需要1280个token,生成1分钟视频需要3万多个token;实际场景中分辨率和帧率都会更高,生成一分钟视频动不动就要几十万的token。

以前不用GPT是因为模型支持处理的上下文窗口不够长,但这个问题现在已经解决了。如果一切模态的数据都转成token sequence,用Transformer学习它们之间的关系,那就很通用了。大家的注意力可以放在各种模态的Tokenizer以及数据收集上。

甲小姐:既然如此,为什么过去文生图一般选择用Diffusion?

李志飞:我猜测大家选择Diffusion,一是为了降低模型每一次学习的复杂度,二是为了找到正确的模型学习颗粒度。Diffusion把整个生成过程拆分为很多版本,不断加噪、降噪,完成从粗到细的过程,从而生成高分辨率的图片或视频。

加噪降噪本质一种模拟人类作画的过程。模型难以学会一次性生成最终版图片,最好有不同清晰度的图片数据用来训练模型,比如第一版用粗略的轮廓图,第二版加入细节线条,第三版加颜色,第四版调整对比度,以此类推。但这些数据很匮乏,于是人为对一张图片加噪,制造不同清晰度的图片数据用于模型训练。降噪的过程则是把文本prompt作为条件,让模型学习不同版本图片之间的关系,进而学会把模糊的图片还原输出最终的高清图。

甲小姐:DiT路线会成为文生视频领域的“大一统范式”吗?

李志飞:之前文生视频有不同路线,有的是U-Net,代表包括SD、Gen-2、Pika等;也有把U-Net换成Transformer的,即DiT(Diffusion Transformer),Sora就是这条路。

我认为把U-Net换成Transformer应该是共识。Transformer更加scalable,最终可能会遵循Scaling law;而且,大家花了大量精力和金钱优化Transformer的工具链,各种论文也特别多,现在研究U-Net的人少了。

但是否一定要用Diffusion?我认为不一定。我个人觉得用GPT把语言和视觉等模态统一处理更好。

目前还处于技术早期、没有收敛,各种视频相关模型的分类或讲法比较混乱。我一直说OpenAI“狡猾”,他们的技术报告只是很笼统地引用了几篇谷歌的文章,但没说到底用了什么,怎么用的,以及做了哪些创新,感觉OpenAI在隐藏一些东西,你不知道他到底用了什么。

甲小姐:OpenAI的技术报告中强调了模型处理可变时长、分辨率、宽高比数据的能力,这些问题为什么重要?有多难?

李志飞:自然界能收集到的图像数据有各种格式,比如不同分辨率,不同纵横比、不同时长。但以前学术研究为了简单,一般先把各种格式转换成一个固定格式。这相当于模型还没开始训练,在数据处理环节就丢失了很多信息。

处理各种格式并不难,只是在学术界看来都是脏活累活,他们可能不愿意干。但如果要做一款面向公众的产品,用户的数据和需求一定是多格式、五花八门的,就必须解决这个问题。

甲小姐:Sora用的很多技术路径都来自谷歌,你认为OpenAI真正的贡献是什么?

李志飞:OpenAI真正的原创贡献是Scaling law(规模法则)的信仰和实践另外,他们产品目标定义得非常好,比如说,别人都是生成几秒视频,他们敢于一开始把目标定为生成一分钟视频。如果这个目标实现很好的效果,就能对人产生很大的冲击;也正因为目标定义足够清晰,所以他们能够拆解一系列细分问题,并在文献中找到答案,而不需要每一个地方都自己做研究

谈猜想:“视频生成的任务复杂度不见得比语言模型更大”

甲小姐:视频生成的算力需求比文本更高吗?

李志飞:我也没有答案。但如果视频模型一定比语言模型的算力需求还多,那我们就不用努力了,因为已经没什么意义了。我之所以努力看论文、想复现,是因为我觉得视频不像大家说的那样需要比文本多很多算力

甲小姐:Sora的模型规模多大?

李志飞:大家猜测Sora可能只有30亿参数,我也觉得是百亿级别的参数,跟语言模型差了几个数量级。但是,这让我们很困惑:如果要让视频符合物理规律,那模型得有大量的世界知识,但模型又不大,这些知识从哪来呢?

现在大致有两种方法:一种是将语言模型的知识迁移到下游模态中,让视频继承语言模型里海量的常识,这会大大降低对视频数据质量和数量的需求,也会大大降低模型学习的难度;另一种是,只拿文本跟视频的匹配对去训练,这种匹配对含有的文本量很少,与几百万小时的视频相对齐的文本可能只有几百亿token,跟训练语言模型的万亿级别文本差距比较大。

甲小姐:Sora是否是跟ChatGPT结合的模型?

李志飞:我们之前分析得出,Sora跟语言模型没有深度融合,语言模型的世界知识没有有效迁移过来。如果只靠文本跟视频对齐的数据来训练模型,文本数量是非常少的,那么凭什么这个模型能够很好地学到世界知识,同时生成符合世界知识的视频?

我有个猜想:我们用视频文本联合训练模型,我们就有可能用比语言模型小很多的文本量,学出很好的世界模型。在这个前提下,视频生成的任务复杂度不见得比语言模型更大。

我总结一下,一种方式是纯文本的模型去学世界知识;另外一种是用文本跟视频的对齐去联合学习世界知识。虽然文本数量远小于以前的全文本数据量,但还有大量视频tokenize后的tokens,另外视频模型的参数可能比语言模型小,此消彼长,最后视频模型和纯语言模型的算力需求可能相当。

甲小姐:这个猜想很有意思,有点像小孩子成长的过程,要么死读书,要么一边读书一边在外面实践。

李志飞:核心是grounding(抽象概念和实际的联结)。视频、图片是对文本抽象概念的一种grounding,哪怕你在文本里已经知道物理定义,但如果你没见过图片或视频,你脑海里还是没有特别具象的理解。

甲小姐OpenAI内部已经开始做知识迁移了吗?

李志飞:我不知道,真的不知道,我再一次说OpenAI很狡猾。

我认为现在视频和文本是比较解耦的关系,GPT和Sora可能还是两个单独的模型,GPT生成文本的embedding(嵌入)只是作为视频生成的一个条件,用来指导视频的生成。

而Google的Gemini和RT-2反而是先把语言模型训练得很大,基于语言模型再加视频、图片和文字的对应关系,再接着往下训练,这样文本知识自然就迁移到下游的多模态任务里——这就是我一直强调的跨模态知识迁移

比如,如果我们生成一只杯子掉在地板上的视频。今天的大语言模型本身就含有玻璃会碎、水会溅出等常识。如果不继承这些常识,视频生成模型还需要大量类似玻璃掉地的视频数据来训练。此外,语言模型还包含了对其它物理规律(比如声光电、碰撞等)的各种描述,这些知识都可以迁移到下游其它模态模型里。

跨模态的知识迁移超级重要。如果我是OpenAI的工程师,我一定会重点做知识迁移。如果语言模型和视频模型能够深度融合,最终可能会实现技术路线的“大一统”。

谈争议:“大家不能对世界模拟器太认真”

甲小姐:Sora发布后你写了一篇文章《为什么说Sora是世界的模拟器?》,现在你对世界模拟器有新思考吗?

李志飞:当时我还没有系统性看论文,还不知道原理,现在我觉得大家不能对世界模拟器太认真。现在大家对世界模拟器想太多了。世界模拟器往深了研究是研究物理,然后你可能会变成研究神学。(笑)

甲小姐:工程师就是有“造物”情结。

李志飞:如果一直往下思考,你会进入一个很难具象的讨论,每个人都有自己的理解。上次有个活动在讨论Sora到底是不是世界模拟器,各说各的,没有一个具象的讨论基础,听得我都快睡着了。我现在一门心思想知道Sora到底怎么做到的,以及我该怎么复现Sora。

甲小姐:如果一定要回答,那你觉得Sora是否学会了世界模型?

李志飞:如果你期望Sora学会了很多物理现象背后精准的数学公式(所谓解析解),比如说F = ma,V_t = V_0 + a*t,那Sora大概率没有学会世界模型,甚至永远都没法靠数据驱动学会。

如果你接受Sora学会很多物理现象展示的输入和输出的近似关系(所谓数值解),而且参数的数量远超精准数学公式里的参数个数,那么Sora大概率学会了世界模型,就算现在还没有“学会”,很快随着模型的scale up也能学会。

这就像ChatGPT可能学会了词性,但它学会的词性个数和颗粒度跟语言学家定义的可能很不一致。某种程度,我认为ChatGPT的词性定义可能更合理、更符合语言的规律。

甲小姐:你到底相信哪一种?

李志飞:相信第一种的“没学会”和第二种的“学会”本质不冲突,就看你是否抱着一种开放的心态,是否接受AI可以有跟人类不一样的世界观。如果你自负地认为人类总结的物理规律就是“伟光正”,那当我没说。

而且,就算Sora学会了世界的数值解,也只是人类观察到的世界,这个世界是“真”的吗?是不是模拟出来的?那什么是“真实”世界?你看,我们进入了讨论神学的境界。(笑)

甲小姐:大家对世界模拟器的期待或许并不在于它理解所有因果关系,而是好奇沿着暴力美学的路径,能否实现用AI将整个物理世界数字化,继而演绎真实世界的可能性,这样人类可以从中选取最优解。例如工业界能够降低试错成本,科学界可以通过暴力美学发现未知的科学现象。

李志飞:我们要定义清楚什么是世界模拟。如果从人的视角看,科学、工业都是人占主导,自然界只是配合,只要是人工的,由于我相信AGI会大概率超越人类,所以我相信AI能模拟和预测世界。如果从上帝视角看,世界还有很多事情是自然占主导,人类只是配角。比如灾难、风雨电雷以及各种未知的自然现象,人对这些问题无能为力,这个世界的90%,我们人类可能都没见过,我们凭什么去模拟它?除非上帝的规则很简单。

甲小姐:要做世界模拟器要解决幻觉问题,60秒的视频里面任何一帧违反了力学或者光学定律就会不真实。假设幻觉问题始终解决不了,Sora的应用范围是不是就被锁在“文艺工作者”这个角色里了?

李志飞:我认为终局不是两极分化的。幻觉问题百分之百不能彻底解决。联结主义的核心就是打碎重来,一定会产生幻觉,这是它的feature,是它的基因。不像符号主义,只组合,不打碎,所以不会产生太多幻觉

ChatGPT和Sora虽然不能生成没有任何差错的世界,但并不代表它不能对世界模拟做出很多贡献。比如自动驾驶,我们可以用Sora生成很多以前根本搞不定的corner case,帮自动驾驶收集数据。

甲小姐:现在我给Sora提出同样的问题,它给我的答案“可重现”吗?

李志飞:训练模型的过程在采样、加噪、降噪、预测环节都有很多随机变量,如果要复现一模一样的视频,你只能把第一次采样的随机变量记下来,重现时不要再随机产生。但现本身没有意义,模型不是这么玩,你现这个视频的生成还不如直接copy原来的视频。

谈竞争:“人才密度太高对大公司反而是问题”

甲小姐:为什么很多人在谷歌没有做出ChatGPT、Sora这样惊艳的产品,到了OpenAI就能做到?

李志飞:OpenAI使用的很多技术是谷歌之前做出来的工作,但很多都是学术论文,不是完整的工程系统,更别说产品了,只是个半吊子。

我之前也很困惑,我每次都觉得谷歌应该能跟得上,至少不会被OpenAI碾压,但这次在视频模型上又被OpenAI打得完全找不到牙。很多人把OpenAI的成功归因于它有很多天才,哪有那么多天才?你看一看谷歌团队的简历,哪个比OpenAI差?

谷歌内部组织的复杂性和政治正确的文化,让他们很难做出好的生成式产品。

写论文或做算法是小规模协作,可能顶多10个人,大家志同道合,就能做出一个原型系统,对组织力要求不高。但如果要面向公众发布一款生成式AI产品就非常难。生成式AI产品本身就有很大争议性,比如Deepfake(人工智能深伪技术)等隐患对大众追求的确定性有很大的冲击。

谷歌作为公众公司,从算法原型产品上线有难以跨越的鸿沟。具体来说,Google的算法团队Google Research和DeepMind都没有自己直接掌控的产品。如果要做新产品,谷歌CEO又不强势,二十多万人的公司,谁来own视频生成这类全新产品就成了巨大的难题。产品要上线就更难了,研发、PR、市场、 合规等各部门都有自己的考虑。大公司确实应该考虑这些,但这会让内部消耗很大。OpenAI一周就搞定的事情,他们可能两个月都搞不定。

甲小姐:这是否是所有公众公司都面临的问题?

李志飞:美国大公司都存在这些问题,谷歌尤其典型。

因为谷歌人才密度太高,同一个研究方向有很多算法研究员和工程师,他们也会相互抢项目。你看过去几个月谷歌已经发布了好几个视频相关的模型,比如Gemini、VideoPoet、Lumiere等。这会让产品团队很困惑自己到底该用哪个模型。同一个方向,由于人才太多,他们算法团队可能有五六个,产品团队也有五六个,你可以算一下能产生多少交叉组合。

另外,工程师文化很理性,想抢到项目就要证明“我的模型比你好”——这本身就是一件巨复杂、巨耗时间的事情。

我听说谷歌有团队去年本来做了视频生成模型,差不多就要集成到YouTube,但另外一个视频生成模型的团队负责人听到消息,就去和YouTube说应该用他们的模型。产品部门一方面迫于大佬的压力,另一方面也想看看到底谁更好,就开始评估。大家都说自己好,用自己的数据、benchmark跑一通,谁也说服不了谁,最后只能请外部团队来评估,又要搞一堆事,几个月又过去了。

坦白讲,很多时候模型之间不会有太大差别,可能我今天比你差一点,我改一改,效果又跟你差不多了,就跟国内to B企业去竞标一样。很多最后都是靠关系或者低价取胜,而不是靠技术。To B项目竞标折腾下来要大几个月,谷歌内部产品可能也类似。到最后大家看产品上线无望,干脆离开,人才可能都被挖走了。

由于谷歌人才密度太高,我一直认为谷歌应该把算法团队拆成“开源模型、内部产品模型、前沿研究模型”三大块,各自有所侧重——开源更多面向开发者,要做得更通用、更轻量级,有更多工具链;内部产品模型团队则面向用户,相对to C,主要指标就是用户体验;前沿研究团队可以多花精力研究新算法。在人才等资源充分情况下,分开或许反而使每个项目都有ownership(主人翁意识),也有清晰的方向,不会一片混沌。

谈应用:“模型应用的最终形态一定是视频生成”

甲小姐:去年你曾说王慧文官宣的动作是想“吓退”其他人,但今年大家好像都没有被“吓退”,反而对复现Sora都很有信心。

李志飞:作为初创公司,更多是从融资方面被“吓退”。比如说做语言模型,很多人的投入可能是我们的10倍甚至50倍,我们也没融资。一年下来,我们除了少烧几个亿外,语言模型的认知或实践也不见得就比同行差。我有种感觉,受限的资源更能做出创新。

甲小姐:对于复现Sora,你已经有信心了吗?

李志飞:理论上是的,但真正要复现还需要很多细节,可能一个超参数就决定了能否生成高质量视频。这更多是我们工程师要干的活,他们要做各种实验,我只是抓住大的方向。

我给内部团队打气,说我们是少有的既懂语言模型、又有视频应用用户和数据的公司,所以我们有潜力做出好的视频模型。

但是,从公司投入上看,我们百分之百不可能像OpenAI那样做,因为我们没法那样烧钱,也不想那么做。就像去年2月追赶ChatGPT一样,我跟人说复现ChatGPT可能有“乞丐版”搞法。后来开源的LLaMA出来后,确实成就了很多“乞丐版”的ChatGPT。

很多人老说开源套壳,那都是不懂的人在瞎掰——你为什么要花大量时间、金钱和精力重新造个轮子,还不如别人好?我觉得核心是弄懂开源背后的细节,能在它基础上做创新。

甲小姐:谁最可能做出“乞丐版”Sora?

李志飞:如果我是Meta的LLaMA开源团队,我必须搞。因为即使是做语言模型,要达到所谓的AGI水平,必须要有视频的模态。某种意义上,能解决视频的生成理解自然就解决了。

甲小姐:为什么生成解决了,理解就解决了?

李志飞:以语言为例,以前文本的理解是专门训练模型做情感分类、画语法树、做词性分析,都是单独做理解任务。但ChatGPT基于prompt的接口方式,一个生成模型把所有的理解任务都cover了。从原理上看,我相信只要你能回答出针对性的问题,就算是理解了,就像考试会出很多题目考我们对知识的理解一样。

甲小姐:我认可生成是证明理解最好的方式。某种意义上,我们对于“理解”的定义本来就很模糊,但“生成”清晰得多。“理解是内化,生成是外化

李志飞:没错。而且,生成是用户能直接感受到的,更容易商业化。比如,语音识别是理解,很难商业化;但语音生成的商业化就更容易,我们的魔音工坊商业化就比较成功,因为用户能感知到。

甲小姐:你对要做的产品有定义了吗?

李志飞:我还没有考虑到视频的产品形态那一层,更多是先解决技术疑问。感觉Sora现在还不是产品,它没有应用场景。我们只是在尽量让我们的视频生成模型接近Sora的效果。视频生成有很多路径,Sora实现了最彻底的端到端生成,而且很通用。

从产品角度来说,我们做模型的终局就是视频生成,而且我们更关注短视频。但以前我也下不了决心,很难想象有一天能够端到端生成高质量的视频,但Sora让我们看到了希望。以前我也看过相关论文,但没有系统研究过他们之间的关系。Sora的技术报告把32篇论文串联在一起,我只用努力把这32篇论文理解清楚就有了个大概思路。

谈终局:“我们正在接近大一统,接近智能的本质”

甲小姐:2024年有哪些看点?

李志飞:第一,大家什么时候能用Sora;第二,谁能复现Sora,最好是以开源的形式;第三,谷歌能不能在视频生成产品层面有不一样的表现。对谷歌我现在比较悲观,觉得他们可能又会发个论文,说可以生成5分钟的长视频,在一些榜单上比Sora表现得更好,但可能就是没有一个真正能打的产品。

甲小姐:国内已经有团队说自己复现了Sora。

李志飞:这种挺没意思的,有篇文章写清华一个团队说他们做的比DiT早。首先我根本不在意DiT,难点根本不在于把U-Net换成Transformer,而在于怎么在工程上真正做到scale up,提升生成质量,以及怎么从图片拓展到视频的时空建模

从实验的角度来说, DiT的数据规模很小,国内好像对DiT比较在意,网上都在说DiT,很少有人仔细分析Sora的内部原理。我认为DiT没那么重要。从复现角度来说,它可能是最容易理解、也最容易被复现的部分。

甲小姐:每一位AI从业者此时可能都站在一个十字路口,下一步是去做文生视频、具身智能、Agent还是其他……爆点层出不穷,哪条道路是“主路”,你有建议吗?

李志飞:不同角度肯定有不一样的思考。我永远都是用最简单的“技术-产品-商业化”三个层面思考。我认为从产品和应用角度来看,视频是终局,语言模型是最重要或者说光有语言是远远不够的。

甲小姐:有人认为“语言就是一切”,LLM以文本的单模态就能实现AGI。

李志飞:从纯技术角度我认同语言模型的重要性,语言是认知,图片、视觉、动作是感知,认知模型最难,机器学会了认知,再学感知就容易多了。但AI很大的价值就是代替人类的繁琐工作,而社会上绝大多数人不靠语言代表的认知赚钱,而是靠感知。你不能说环卫工人主要是靠认知赚钱,认知是这个工种的基础,但能赚钱的还是“扫地”这个感知的技能

所以,语言代表的认知是基础和起点,声音图片视频动作代表的感知才是应用的闭环。从最终的产品形态来看,只有语言认知意义不大

对模型层来说,确实要想视频怎么做,和语言模型有什么关系;对产品端来说,以前视频生成更多基于模板,现在Sora实现端到端生成,以前的产品也许就会被淘汰——原来的技术路线不升级,产品就没有竞争力,可能就是“死路一条”。这也是我为啥这么关心Sora的原因之一,我担心我们现有产品会死。当然,淘汰的过程不会太快,还有成本、版权等问题。Sora完全淘汰上一代视频生成产品,可能至少还要一年。

甲小姐:2024年还会是OpenAI一家独大吗?

李志飞:我没法直接给你答案,还得看Sora开放体验后,产品能否真正达到demo的效果。如果Sora的demo就是真正的产品能力,那我真的不知道谷歌什么时候能跟上,肯定比追ChatGPT更难。

甲小姐:目前你已经拼出完整的Sora原理版图了吗?

李志飞:我的结论只是基于论文,其实真正理解Sora的是一线工程师,因为我没有看源代码。最终的本质是代码,就像要理解这个世界就得拿到上帝源代码。如果工程师除了看源代码外还具备抽象思维,比如想清数据和算法代码之间的关系,他们就是最理解Sora原理的人。但很多一线工程师对抽象问题没兴趣,更多是拿着别人的东西改代码,不愿真正理解背后的思想。

甲小姐:OpenAI内部做AGI也会有团队分工,有点像盲人摸象,每人做一块,很难有人真正上升维度在抽象意义层面思考全局。

李志飞:以前这个人是Ilya(Ilya Sutskever,OpenAI 联合创始人兼首席科学家),现在他可能被边缘化了。

甲小姐:现在AGI真正的源代码或许还分散在各位一线工程师的脑子里?如果有一位产品经理从上帝视角抽象出整个原理版图,现在我们对AI的理解或许会更深刻。

李志飞:很多时候工程师没精力思考抽象问题,他们忙于调参数搞数据但你要相信,和10年前相比,我们已经越来越接近智能的真相了。以前视觉、图片、声音、语言,都是完全不同工种的人通过不同方式在做,现在我们越来越接近大一统,接近智能的本质。