云计算一哥,再一次预判了行业

更新时间:2024-04-26 03:46:29作者:橙橘网

云计算一哥,再一次预判了行业



题图|视觉中国

在以“服务”为核心的云计算行业,客户最多的企业,对市场的感知通常最敏锐,也最可能成为其他厂商跟随的对象。这种情况在亚马逊云科技身上屡屡发生,直到生成式AI爆火。

人们突然觉得,云计算市场的绝对一哥,这一次好像没有在技术上取得领先。智能时代会重新洗牌吗?亚马逊云科技会成为被新技术折叠掉的又一个巨头企业吗?种种猜测甚嚣尘上。而事实证明大家多虑了——即使全球数百个大模型开启混战时,亚马逊云科技依然把核心放在服务上。况且在技术上的投资也收获了成效,Claude 3发布后,也没人再质疑亚马逊云科技在AI层面的底层能力。

而与微软Azure的Copilot策略不同的是,亚马逊云科技的更新ToB色彩更重,也更适配公有云场景。在亚马逊云科技的定义下,今天云计算的“服务”概念,在生成式AI场景中发生了变化,它逐渐演化成三个维度:对最新硬件性能的充分利用;对大模型技术更新的充分利用,同时规避行业动荡的风险;充分适应生成式AI时代的全新应用思维。

这使得亚马逊云科技在某种程度上形成了对微软Azure的差异化竞争优势。

以“服务”的概念封装硬件产业

当前硬件市场,企业的经营者正在为硬件更迭问题而发愁。

这一切,或多或少都源于英伟达的聪明劲,它敏锐地捕捉到大模型引发的成本问题,也因此拒绝将客户的采购理由,仅仅限定为“新卡性能更强”。

实际上,除了在全球占据主导的几家基础模型研发厂商,以及在科研领域主攻气象、制药的机构和巨头,大部分客户并未迎来暴涨的算力需求,其收入也还没到以年为单位大规模迭代 GPU的地步。所以,每年GTC所引导的一个关键话题是,新卡的能耗,以及随之而来的训练成本在快速降低。以2024 GTC发布的GB200 NVL72,推理性能提升了30倍,很厉害,但在笔者看来,成本和能耗降低25倍,这更有诱惑力。

此外,英伟达高达90%以上的市占率并未导致其受到太多反垄断调查,一个核心原因是,当前芯片市场的竞争仍然客观存在。谷歌、英特尔、高通等企业联合成立了UXL基金会,决定先攻破英伟达围绕CUDA建立的软件护城河。而AMD自去年至今,都以MI300为主力,试图正面挑战英伟达。从更长远的视角来看,方舟基金“木头姐”认为英伟达存在风险,很像二十年前的Cisco。结果就在4月19日,英伟达大跌10%。

某种意义上,这强化了基于GPU算力孵化创新业务的不安感——使用旧卡的ROI在快速降低,风险却在快速提高,谁都说不好明年会是哪家企业,突然放出一个劲爆消息。且一但进入“买卡创业”的模式,该AI项目马上变成重资产属性,进一步加剧了风险。

企业的焦虑,通常也是云计算的机会,云计算习惯将一切都看做“服务”。因此,亚马逊云科技围绕底层算力构筑,做了完整的布局。

首先,亚马逊云科技作为英伟达的头部客户,双方在品牌上高强度绑定。黄仁勋出现在了去年的亚马逊云科技re:Invent上,而亚马逊云科技CEO Adam Selipsky则出现在了GTC 2024 上,且重点谈及了双方超过13年的合作历程。而且亚马逊云科技也很快官宣提供基于NVIDIA Grace Blackwell GPU的Amazon EC2实例、首款搭载英伟达Grace Hopper超级芯片的云AI 超级计算机,以及首款采用英伟达GH200 NVL32的NVIDIA DGX cloud。

但另一方面,亚马逊云科技也并未把鸡蛋都放在一个篮子里。最新的亚马逊云科技自研的用于AI训练Trainum 2,以及用于AI推理的Inferentia 2,都已经发布。前者可以支持千亿级甚至万亿级参数规模模型训练,用于引导大规模并行计算的UltraClusters也已经相当成熟。

亚马逊云科技大中华区产品部总经理陈晓建透露,UltralClusters可以支持最多10万多个最新的Trainium2进行并行训练。这不禁让人想起NVLink和NVSwitch,在单块芯片的性能逼近晶圆的物理极限后,这种集群场景下的连接与编排能力,变得相当重要。单个芯片,不足以让人对亚马逊云科技屏蔽硬件行业动荡的“服务”放心,但加上UltralClusters后或许可以。

在硬件层面,亚马逊云科技关注的是创业公司的焦虑核心,用云模式代换掉了重资产模式,屏蔽生成式AI基础设施构建的复杂一面。云计算公司,做的始终是服务,而不是技术,这是当人们试图理解亚马逊云科技时,必须要谨记的重点。

“货架”才是GenAI B端市场最好的进入形态

这种对服务的贯彻,脱开IaaS层,进入PaaS层后,变得更加明显。

业内自2023年开始,模型发布的新闻版式一直相当固定:我们发布了xxx LLM,参数规模xxx,性能逼近或超越了GPT-3.5/GPT-4。

而在亚马逊云科技向Anthropic投资40亿美金后,Anthropic却掏出了一个与以上通用版式截然不同的答卷:Anthropic发布了Claude 3大模型,但包括三个版本——Opus、Sonnet和Haiku,三者性能存在显著差别,按从高到低排列。陈晓建表示,客户可以根据自己的商业需求,从中选择最合适的智能、速度和价格组合。Opus是智能水平最高的模型,最适合复杂的开放式场景;Sonnet兼具智能和速度,适用于绝大部分场景;Haiku最具成本效益的模型,适用于大容量用例。

简单地说,Haiku性能最低,多项评测落后于GPT-4,但它便宜啊。

这实在是个再典型不过的,关于“服务”概念的呈现。

还不止于此,在PaaS层,亚马逊云科技精准命中了太多的痛点问题。比如,当下其实还不存在,一个在所有场景中性能、ROI表现都是第一的通用模型。Claude 3 Sonnet在“多语言数学”维度得分胜过GPT-4,但在“数学问题解决”维度的得分又低于GPT-4。当涉及到具体应用场景时,问题可能变得更加复杂。

这为亚马逊云科技构建Amazon Bedrock提供了绝佳的角度。

作为中间工具层的重点,Amazon Bedrock让用户能够轻松接入来自AI21 Labs、Anthropic、Cohere、Meta、Mistral AI、Stability AI以及亚马逊等公司的27个领先基础模型。当然,Bedrock也可以导入自己的定制模型,这一方面是为了增加灵活性,另一方面也是考虑到产业现阶段的模型应用进展。

亚马逊云科技在大模型白热化竞争的阶段,创造性的构建了一个“大模型货架”的概念,企业选用大模型,有点像挑不同口味的乐事薯片,使其再一次在保持对Azure的压迫感的同时,创造了差异化的竞争优势。

仔细想想就知道了,无论是希望在生成式AI趋势里,进行创新创业的公司,还是希望利用AI 能力完成对业务智能化改造的公司,这都更符合逻辑。

对于前者而言,当下对于生成式AI的认知,仍然存在障碍。比如Stable Diffusion不属于LLM,这违背很多人对所谓大模型的笼统认知(何况产业自己对这一系列概念的定义也是模糊的)。这种认知障碍,最终会转化为人力成本,映射在公司的项目进度中。除非以“服务”的模式,做好封装与屏蔽。

对于后者来说,一家企业的不同业务部门可能都需要生成式AI的能力,但单个团队的规模却不大。在中国市场,超过300人规模的公司,即被定义为大型公司。而在一个所谓的大型公司内,研发团队可能只有50人,设计团队只有10人,市场团队甚至还不足10人。无论单独引入哪一种模型,服务上述侧重完全不同的团队,都有点得不偿失。

最后,当下还没有一家大模型可以拍着胸脯说,自己有绝对的竞争优势。OpenAI曾出现剧烈“宫斗”;Stable.AI被曝谋求出售;李彦宏表示开源模型终将被闭源模型击败,但随后又被Llama 3射出的“回旋镖”击中。一系列动荡显示这个市场远未到达稳定态,它的竞争剧烈又隐形,任何预判都有失效的风险。在非云环境引入一款大模型,组建技术团队特别训练、精调,一旦出现变动,损失将是巨大的。

总而言之,“大模型货架”在这里是必须的,它不是个营销概念,而是个产品概念。

在“货架”的概念外,亚马逊云科技正在快速完成对客户需求的抽象和产品化。他们推出了Model Evaluation,支持对模型效果自动评估和人工评估,以免当下未统一的测试标准误导企业决策者,也防止一些针对某个测试集做定向优化的企业扰乱市场;他们推出了Guardrails,以保证大模型的输出内容合规。

他们甚至连当下最大的热门场景:图像生成,也考虑到了。亚马逊云科技推出了Titan Image Generator,可以根据提示词生成图像,并且包含隐藏水印,支持水印检测。

亚马逊云科技的这种判断,很大程度上基于对客户的极端关注和了解。有业内人士透露,亚马逊云科技的历年产品发布,受战略规划影响较小,受客户反馈影响较大。这与后来的新兴软件企业Datadog(解决微服务架构下的可观测问题)几乎一致——Datadog的产品迭代,完全自包含数万客户的Slack用户组内产生。某种程度上,这成了老牌和新兴头部公司的一种“内功心法”。

在云计算的直接战场外,这种PaaS层服务的加码,也间接打死了一批妄图成为大模型集成商的竞争对手,从而进一步拓展了亚马逊云科技的竞争纵深。今天的OpenAI从技术维度在对一些小企业完成折叠,而亚马逊云科技则在服务的维度进行折叠。直接导致大模型市场开辟一年后,已经不存在事实上的“Easy Money”,“创新”成为了最重要的竞争力。

埋葬旧时代的SaaS服务

那么,谁将在接下来的创业潮中,拥有至关重要的创新能力?

这没人可以断言,按目前行业内专家共识逻辑,任何当下对生成式AI SaaS应用的认知,都受到移动互联网时代固有的思维定式影响,都不是原生的AI SaaS。

唯一可以确定的是,当新的原生SaaS出现时,一定会埋葬一批旧有SaaS。

在对外宣传上,亚马逊云科技将Amazon Q定义为企业级生成式AI助手,可以连接到公司数据、信息和系统,可以根据客户的业务定制Amazon Q,企业中的营销人员、项目经理以及销售代表等,都可以利用Q进行定制对话、解决问题、生成内容、采取行动,等等。许多人将其定义为2023 re:Invent上最有分量的发布。

这是因为Amazon Q上融合着太多不同产品的特质——它是Copilot,可以生成并解释应用程序代码,并为代码包、存储库和框架更新草案和文档;它也是过去几年经常被提及的数字员工,比如公司可以通过Web应用程序要求Q分析用户在使用哪些功能时遇到了问题、应该如何改进这些功能。在亚马逊云科技内部的定义中,Amazon Q的概念比AI Agent更高阶、更宽泛。

某种程度上,云服务的呈现模式,自Amazon Q出现,已经开始分化出截然不同的路线。Amazon Q几乎为旧时代低代码、零代码的“坟墓”埋上了最后一铲土,同时也让为企业定制数字员工的业务变得岌岌可危。

核心在于,在智能时代,你是将生成式AI的交互能力,当做一个产品,简单卖给用户,还是当做一个服务,打包呈现。前者更为主流,但盈利能力堪忧,流量成本较移动时代高出十倍不止;后者看起来更合理,但需要有足够多的场景,能将商业闭环在其他产品上。

无论如何,Amazon Q的未来发展,恐怕很快将迎来阶段性的结论。随着对模型参数的追求、对硬件成本的控制逐渐达成平衡,技术体系逐渐稳定,服务的概念将越来越多的影响B端市场竞争格局。