国产数据库风口再起!对话镜舟科技CEO孙文现:大模型将为决策链路带来惊喜

更新时间:2023-12-06 00:10:33作者:橙橘网

国产数据库风口再起!对话镜舟科技CEO孙文现:大模型将为决策链路带来惊喜

本文来源:时代周报 作者:郭美婷

“我过去的工作经历,就是一个大数据工程师‘艰难’的一生。”北京镜舟科技有限公司(简称“镜舟科技”)CEO孙文现在接受时代周报记者采访时调侃道。

孙文现从业以来一直与数据打交道。早期,他在百度做广告效果监测,为防止数据丢失,团队每间隔一段时间就要进行一次数据恢复,被称作“反恐24小时”。后来,他加入了金山云,积累了大数据平台的研发、解决方案、销售等多方面的经验。这些经历,让孙文现看到了企业数据分析的痛点及数据库产业的巨大市场需求。

在2022年3月,孙文现创立了镜舟科技。同年9月,镜舟科技发布了基于StarRocks开发的商业版本镜舟数据库。在短短一年时间内,镜舟数据库的付费客户超过了70余家,覆盖金融、零售、制造、物流、电商、游戏、汽车出行等多个行业。

近年来,我国已迈入全球数据库产业第一梯队,国产数据库产业正在迎来大风口。中国通信标准化协会大数据技术标准推进委员会发布的《数据库发展研究报告(2023年)》显示,2022年全球数据库市场规模为833亿美元,中国数据库市场规模为59.7亿美元(约合403.6亿元人民币),占全球7.2%。预计到2027年,中国数据库市场总规模将达到1286.8亿元,市场年复合增长率(CAGR)为26.1%。

而随着生成式人工智能席卷全球,适应大模型的向量数据库趋热,数据库产业又将发生怎样的变化?

孙文现在接受时代周报记者采访时谈到,大模型并不会在技术上影响数据库行业,大模型使用自然语言与用户对话,中间要依靠数据库进行转移。“我们所有的行业合作都不依靠大模型,大模型不是我们的卖点。不过在‘百模大战’的趋势下,需求延伸到了数据库产业。”

孙文现还提到,未来,如果存储介质成本极低,原始数据全部直接按照列存和行存的方式存在存储介质里,且大模型训练速度极快,可任意回溯,当这些条件都满足后,数据库可能就不需要存在了。“但当这些条件一一实现的时候,AI也许就能统筹世界了。”

但不可否认的是,大模型的浪潮给数据库厂商带来了一波红利,镜舟科技的用户和订单量都有所增长。另外,大模型催动向量数据库需求涌现。孙文现表示,目前正加强数据库在向量化搜索方面的能力。


数字化转型的本质是“业财一体化”

Q:目前,中国企业数字化转型发展到了哪个阶段?

孙文现:数字化转型分为两类。一类是完全没有进行数字化,如温州、东莞等地的一些老鞋厂,目前仍然依赖手写接单。此时要进行的转型是基于一级数据进行决策,使用一级数据分析得出结果并用于营销等。很多传统企业都将此称作“业财一体化”,也即公司明年的业务指标是由财务定的,让财务的敏感度直接能够直达业务的第一线。事实上,数字化转型的本质就是“业财一体化”,最大的动力也是这个。

在具备一定数字化基础,初步完成IT化和数字化后,公司就需要做一些开源的事情,进行数字化升级。通过“业财一体化”,公司拟定了业务目标,实现该业务目标的路径是否可行,要依据市场调研数据、测试数据等进行检测。

目前,绝大多数企业需要的是数字化升级。我们能看到某些行业互联网营销做得越好,数字化升级就越好。财务收入是可以滚动预测的,有的企业即使在历史上碰到了非常多次资本市场的危机,仍然能够迅速翻身活过来。

再下一步就是智能化改造。决策链中的任何一个人都不是全能的,每个人的想法都有限,依赖于自己的经验进行决策。所谓大模型,就是能够为决策链路的提供想象不到的、不确定性的、认知以外的惊喜。其商业价值是非常高的。不确定性产生的购买意愿和商业价值,让商品实现买方定价而非卖方定价。

智能化改造的目的,就是让大模型集合所有人的经验,以及历史上所有可能被学习到的、挖掘到的经验给出决策建议,这些建议在通常情况下只有特别高级的数据分析师才能给出,而利用大模型进行智能化改造,就已经能轻易实现。

Q:你觉得智能化改造的最大难点是什么?

孙文现:它需要同时实现以下三个条线:

第一,数据量足够大。很多企业是缺数据的,如历史财务数据、订单数据、渠道数据等,这种情况就特别难进行智能化改造。但是有一个行业是永远不缺数据的,监管要求企业必须把过去30年的数据全部保留下来,这就是金融行业。这也是我们重点做金融行业的原因。

在数据不缺的情况下,还有一个技术架构上的问题,即数据不仅要存得好,还要存得便宜,这要求基础存储层的优化和效率的提升。

第二,计算能力要强。因为所有的分析、推理都需要非常强的计算资源,高效能的算力不至于给系统运行带来过高成本。

第三,计算成本要低。目前大模型最差的使用体验就在于计算成本太高,普通企业只能租用算力资源,但调取API接口的费用非常昂贵。

当跨越了这三个鸿沟之后,我认为技术可以改变所有企业的经营模式和员工的工作模式。

向量化数据为大模型加速

Q:行业内有声音说“未来可能是一个私有化大模型定义的时代”,你如何看待不同行业对私有化大模型提出的需求?

孙文现:私有化大模型的前景非常好。企业私有化大模型的关键之一是将企业积累的所有结构化和非结构化的数据统一存储起来,同时调用外部互联网信息和资源,辅助大模型决策。

如果未来OpenAI所用的框架还能符合摩尔定律,我预估还有3年时间,才能将硬件成本降下来,进而降低公共算力资源的租赁成本。到那时,企业可以基于公用算力资源训练私有化大模型,同时利用开源的开发框架将精准数据、半精准数据和非精准数据,纳入到模型中进行训练,最后得出一个相对科学的、符合认知又让人感到惊喜的结论。我认为这是私有化大模型未来最可能帮助企业的点,尤其是金融、制造类企业。

大模型时代或私有大模型时代,数据库都不是“主角”,“主角”一定是做模型开发的人、做算力提升的人。

Q:大模型火了之后,向量数据库变得非常热门。这对于整个数据库行业有什么影响?

孙文现:向量数据库的发展对大模型较为友好,原因是向量数据库可以做很多非结构数据的分析。现实中也有非常多这样的需求,如汽车的智能化停车监控等,向量化数据能够加快大模型的计算速度。

目前,我们的产品还不具备这样的能力。在镜舟数据库3.2版本发布后,我们将与腾讯合作,加强向量化搜索。

国产数据库崛起

Q:近年来,国产数据库渐成趋势,我国数据库和国外传统数据库的差距主要在哪里?

孙文现:技术上基本没有差距,甚至随着中国互联网公司下场做数据库,在技术积淀方面已经超过海外的传统数据库厂商了。

主要差距在于成熟度上,每家企业对于这一项目的评价指标不一,概括起来主要包括三个维度:一是市场维度,如市场占有率、用户或客户数量等;二是用户的反馈,如应用性、稳定性、可靠性等;三是公司经营的成熟度,研发的规范性、有效性等。

例如,过去我们使用MySQL(关系型数据库管理系统)一般不会使用最新版本,多用半年前的版本——可以简单地认为,成熟度高等于使用的人多。如Oracle等数据库运行的时间足够长,积累了大量的用户和数据,研发支持者众多,投入也较为巨大,这是目前中国任何一家数据库厂商都很难匹敌的。

Q:如果国产数据库“弯道超车”,可能的方向是什么?

孙文现:这个弯道已经找到了,并且正在“超车”。目前,国产数据库分布式技术的性能和在某些情况下的易用性,已经超过国外。以Oracle为标杆,即使国产数据库在每个方面都超过了Oracle,最后集合起来是否能全面超过Oracle,现在还不好说,需要整个产业共同决定。

Q:镜舟数据库是依托于开源StarRocks发展起来的国产企业级分布式数据库,开源与商业化并行,如何平衡二者之间的关系?

孙文现:开源能够让企业快速了解其忠实用户,同时具备市场洞察能力和嗅觉。

镜舟在创立之初就拒绝闭门造车,当我们决定做某个产品之前,必须要求产品经理和前线人员沟通十个以上的客户,确认其所认知到的“痛点”是真实存在且具备普适性的,同时我们还要考虑到了开源用户的需求。

如果纯做商业化,那么公司能看到的只有客户的需求和合同化的订单,慢慢会失去市场洞察力,战略和产品策略调整也会迟钝。我们看到很多同行只做商业化而不做开源的,碰到的最大困难就是案例难以复制,不具有生命力。

镜舟将开源与商业化融合统一,同等对待开源用户与付费客户,开源用户基本就等同于我们的商业用户。尤其是腾讯、小红书、携程、滴滴、阿里、火山引擎、金山云等合作伙伴,它们能为公司提供代码,实现双赢。

Q:能否透露公司目前的营收情况?未来规划是什么?

孙文现:我们每年以两倍多的速度增长,预计明年能够实现收支平衡。

在产品策略上,我们主推金融。因为金融行业的IT非常发达,且金融产品的迭代能力非常快,基本上不会长期使用开源,付费意愿较高。未来,我们营收规模最大的可能是金融行业,第二大是新零售行业(包括快递物流等)。