钛媒体AGI对话生数科技CEO唐家渝:数亿元融资背后,中国 AI 视频技术何时超越Sora?

更新时间:2024-03-13 17:56:17作者:橙橘网

钛媒体AGI对话生数科技CEO唐家渝:数亿元融资背后,中国 AI 视频技术何时超越Sora?


利用 AI 技术生成的视频动图(来源:受访者提供)

随着Sora爆火,国内 AI 多模态大模型赛道再添热度。

3月12日消息,钛媒体App 获悉,北京生数科技有限公司(以下简称“生数科技”)今天宣布完成新一轮数亿元融资,由启明创投领投,达泰资本、鸿福厚德、智谱AI,以及老股东BV百度风投和卓源亚洲继续跟投。由华兴资本担任独家财务顾问。

本轮融资将主要用于多模态基础大模型的迭代研发、应用产品创新及市场拓展。

生数科技联合创始人、CEO唐家渝对钛媒体App表示,这是目前国内多模态大模型赛道“最高融资额”。团队积累了完整高效的工程化经验,拥有在大规模GPU集群上实现高效兼容、低成本的模型训练经验。接下来生数科技将会发布新版本的3D生成产品。

“整体上来讲,我们(中国)追赶Sora肯定比追赶GPT-4容易一些。今年一定能达到Sora目前版本的效果,很难说是三个月还是半年(笑),但这件事我们的信心还是非常足的。”唐家渝称。

生数科技CEO唐家渝(来源:钛媒体App编辑拍摄)

据悉,生数科技成立于2023年3月,是全球领先的生成式 AI 基础设施及应用提供商。公司由清华系 AI 公司瑞莱智慧RealAI、蚂蚁集团和百度发起的BV百度风投联合孵化创立,致力于打造可控多模态通用大模型。

公司CEO唐家渝毕业于清华大学计算机系本科、NLP组硕士,此前曾任瑞莱智慧副总裁、腾讯优图实验室高级产品经理等;公司首席科学家朱军是清华大学计算机系人智实验室主任、清华大学人工智能研究院副院长、智源研究院首席科学家。

人才方面,目前生数科技员工总数超70人,其中近90%为研发人员,50%员工是研究生以上学历;核心团队来自清华大学人工智能研究院,此外还包括来自北京大学和阿里巴巴、腾讯、字节跳动等科技公司的多位技术人才。

融资方面,去年6月、8月,生数科技连续完成天使、天使+两轮融资,投资方包括蚂蚁集团、BV百度风投、卓源资本、锦秋基金,首轮融资后估值高达1亿美元。

技术产品方面,生数科技团队是国内率先开启扩散模型和多模态文生图方向研究的团队,成果涉及骨干网络、高速推理算法、大规模训练等全栈技术方向。

2022年9月,生数科技提出基于Transformer架构的底层统一网络框架U-ViT,并在千万至数亿参数量级范围内验证了极强的可扩展性(scaling up);2023年3月,团队又开源了全球首个基于U-ViT框架的多模态扩散大模型UniDiffuser,其模型参数量从最早开源版的1B不断扩展至3B(30亿)、7B、10B及以上,参数量和训练数据规模上都与Stable Diffusion直接对齐。

基于自研多模态大模型,截至目前,生数科技面向艺术设计、游戏制作、影视动画、社交娱乐等创意领域上线了两款工具产品:视觉创意设计平台PixWeaver;3D资产创建工具VoxCraft。

商业化方面,唐家渝向钛媒体App透露,依托于MaaS(模型即服务)能力,生数科技商业化路径分To B、To C两部分:一方面是To C端,开发面向终端用户的应用,打造垂类应用产品,例如图像创作助理、3D资产生成平台,以订阅等形式收费;另一方面,面向B端机构,提供调用模型服务,以API的形式提供服务。

“我们希望帮助个人用户解决细分场景下的图像创作需求,同时能实现高质量效果。目前,我们一款内测的产品就是定位个人图像创作助理,围绕更通用底层的图像创造和编辑需求,真正做到言出法随,让用户用特别简单的指令和交互就能创造出理想的图像。难点涉及到底层模型可控生成方面的技术突破,以及对于普通用户在图像创作和编辑需求意图方面的深刻理解。”唐家渝表示。


今年2月,Sora的突然爆火已经将整个 AI 视频生成行业推向了舆论焦点。

事实上,整个 AI 技术门槛非常高、投入资金也特别大。此前很多企业对此投入非常犹豫,但今年OpenAI用“暴力美学”再捧出一个Sora,验证了这条路的正确性,也打消了团队的许多顾虑。

据头豹研究院数据,基于中国AI音频生成行业的AIGC技术渗透率为0.08%,2021年,中国AI视频生成行业的市场规模为800万元人民币。预计2026年,中国AI视频生成行业市场规模将达到92.79亿元,增长迅猛。


唐家渝坦言,“目前国内 AI 视频生成领域与Sora相比差得还很远,但我们一定要去追赶它。相比去年追赶ChatGPT,挑战Sora还是比较容易一些——Sora大概相当于GPT-2阶段,并没有形成明显的这种先发或者垄断的一个优势。而且从底层架构来说,至少我们团队是非常熟悉的。所以一旦团队积累大量的工程化经验,肯定有可能追赶(超越Sora)。”​

“时间上的话,确实我们很难去精确预估是一、两个月,还是半年、一年的时间。但总体上来讲,我们觉得这个时间不会太长,今年内肯定是能去达到一个至少是目前Sora版本效果的。至于是否能更往前的话,我们也在努力。但我们现在确实很难对外说是非常明确的3个月、6个月。”唐家渝表示。

截至目前,国内对标Sora的 AI 视频生成类初创公司主要包括三家:智谱 AI,梅涛院士创立的HiDream智象未来,前字节跳动AI Lab总监王长虎创立的爱诗科技。此外,腾讯、阿里也在对此赛道积极布局。

对于智谱 AI、百度文心与生数的定位关系,唐家渝表示,两家机构均不会与生数科技起冲突,商业竞争其实还好。另外,百度都是All in语言模型,对于多模态模型都是与生数合作,包括3D、图像等层面。

“AI 难以说是取代还是促进(人类)。但对于 AI 行业来说,它肯定会繁荣的,对于各种职位也会产生变化,就相当于可能有些职位就是‘消亡’了,同时他可能又会创造出一些新的机会。”唐家渝认为,新一轮 AI 热潮和之前不一样的点在于,它真的可以展现出人的智能了,而非机器规则判别器。未来,AI 一定会不断增长,产生“翻天覆地”的变化,并非已经到天花板了。

唐家渝表示,国内 AI 视频生成领域仍存在两个重要挑战:一是成功率与幻觉问题;二是算力成本和算法成本不断降低。

“目前的视频生成长度在4-5秒左右,我们近期将重点突破长视频生成能力……尤其长视频画面的连贯性,我们还在做一系列攻克工作。”唐家渝称。

谈到对生数科技未来的规划,唐家渝表示,公司将始终坚持“原生多模态”方向:对产品端持续迭代、在基础模型层面持续优化,提升语义理解、可控性、美观度等方面的生成效果。

唐家渝强调,生成式 AI 技术已经让每个人都能更好地进行表达和创造。公司将持续打磨通用大模型和应用产品,致力于通过不断解放想象力进而提升全人类的创造力和生产力。

(本文首发钛媒体App,作者|林志佳)