这家成立不到一年的小公司,怎么就成了OpenAI的死敌?

更新时间:2024-02-29 19:56:12作者:橙橘网

这家成立不到一年的小公司,怎么就成了OpenAI的死敌?



大伙儿听说了吗, OpenAI 的劲敌又有新动作了。

就在前两天, Mistral AI ( 下称 Mistral )接连曝出了好几个重磅消息,省流版就是:Mistral 抱上了微软的大腿,还发布了类 ChatGPT 的聊天机器人,以及号称能跟GPT-4 媲美的大模型。



这一下,给原本就不平静的 AI 圈又浇了桶油。

在创始人之一 Guillaume Lample 的最新推文下面, Lecun 、 Jim Fan 等一众圈内人纷纷前来祝贺。



国内媒体也不忘凑热闹,什么下一个 OpenAI 要来了、 “ 渣男 ” 微软脚踏两只船、 OpenAI 成 “ 备胎 ” 的论调满天飞,大有 Mistral 要把 OpenAI 的风头给抢了去的意思。



可能有差友对 Mistral 并不熟悉,世超先给大伙儿介绍介绍这家 AI 独角兽、开源大模型圈新晋王者的故事。

事实上去年这时候, Mistral 的三位核心创始人,还在为各自的实验室打工。

Arthur Mensch ( 中 )在 DeepMind 搞大模型,另外的 Timoth é e Lacroix ( 右 )和 Guillaume Lample ( 左 )则是在 Meta 的巴黎 AI 实验室。



至于离职的原因, Mensch 的说法是 “ 不想在一个开发不透明( 闭源 )技术的大型科技公司工作 ” ,而 Lacroix 和 Lample 也因为不想卷入公司内部的算力 “ 斗争 ” ,收拾包袱离开了 Meta 。

在机缘巧合下,年龄相仿又曾经是校友的三人,联手在法国创办了 Mistral ,为的就是要搞出个欧洲人自己的、真正 Open 的 “ OpenAI ” 。

可能是创始人自带履历光环,也有可能是因为欧洲的 AI“ 独苗苗 ” , Mistral 在还没有像样模型的时候,就拿到了 1 亿多美元的种子轮融资。

“ 4 周, 7 页 PPT , 1.13 亿美元融资 ” 这几个关键词,也迅速传遍 AI 圈。



而他们的推广方式也很简单,不开发布会、不发宣传视频,直接免费甩自家大模型Mistral 7B的磁力下载链接。。。

结果开发者们一用,发现虽然只有 70 亿参数量,但性能并不比 130 亿参数的 Llama 2 弱多少,而且微调一下,在一张显卡上就能运行,这在当时直接引爆了整个开源社区。

但这还没完,很快, Mistral 又祭出了首个 MoE 开源模型Mixtral 8x7B

这个 Mixtral 8x7B ,相当于有 8 个擅长不同领域的专家,而模型会选出其中最符合的 2 个,帮咱解决问题。这种方法,既能快速准确地完成任务,又能减少模型的推理成本。

在 Mistral 发布的基准测试对比中, Mixtral 8x7B 的性能不输 700 亿参数版本 LLaMA 2 ,而且还追平了 GPT-3.5



从 Mistral 7B 到 Mixtral 8x7B 的发布, Mistral 只花了三个月,而这三个月, Mistral 的估值也一路狂飙,暴涨到了 20 亿美元。

更重要的是, Mistral 在整个圈子里还带起来了一股 “ 小 ” 模型的风潮。

以前都说,参数量越大模型性能就越好,但堆参数量,你算力也得跟上才行。大公司们财大气粗耗得起,但小企业个人开发者可吃不消。

而且把大模型塞进手机、汽车这些智能设备里本地运行,也成了目前比较火的方向,这也要求大模型得 “ 小而美 ” 才行。

于是乎在 Mistral 7B 之后,微软也整出了 27 亿参数的 Phi-2 ,面壁智能整出了 20 亿参数的 “ 小钢炮 ” MiniCPM ,包括几天前,谷歌也开源了 20 亿和 70 亿参数的 Gemma 模型。



但 Mistral 的上分之路,还远没有结束。

这次, Mistral 又带来了号称能跟 GPT-4 单挑的 Mistral Large 。

根据官方的说法, Mistral Large 的性能不输 GPT-4 和 Gemini Pro ,但训练成本却只有大约 2200 万美元,可能是 GPT-4 的五分之一。



不过有人发现,向来坚定开源的 Mistral 这次竟然不公开 Mistral Large 的代码了。

而且, Mistral 官网还把之前有关开源社区义务的内容给删了。



这一举一动,不免让人猜测:Mistral 是不是要走 OpenAI 的老路了。

就连马斯克,也忍不住在 X 上嘴了一句:是微软让他们这么干的?



世超去查了下,在 Mistral 官网上 Mistral 7B 和 Mixtral 8x7B 还是开源的状态,可以自行下载到本地部署。

但 Mistral Large 和 Mistral Small 几个模型,的确没有开放代码,“ 闭源 ” 的事儿算是坐实了。



为了安抚开发者们的情绪, Mistral 的 CEO 也出来公关了一把:团队未来依然会坚持开源理念,同时也会推出更强大的闭源模型参与商业竞争。

相当于两条腿走路,小参数规模的模型( Mistral 7B 和 Mixtral 8x7B )继续开源, “ 大中小杯 ” 则是闭源去跟 OpenAI 这些个大厂battle。



这事儿免不了落人话柄,但世超觉得,把 Mistral 闭源的锅全甩给微软,也不太地道。

说到底, Mistral 还是家初创公司,微软要算力有算力,要钱有钱,而 Mistral 的模型表现有目共睹,放到微软的 Azure 上,也是笔生意。

另外对已经重注了 OpenAI 的微软来说,鸡蛋,总不能只放 OpenAI 这一个篮子里吧。

大伙们别忘了, Meta 和微软在 AI 领域的合作也相当密切,当年的 Llama 2 ,就是 Meta 和微软联合发布。



而最后,无论是 OpenAI 所代表的闭源大模型占优,还是 LlaMA 为代表的开源阵营获胜,目前全球市值第一的微软,似乎都是最后的赢家。

再结合一下这次和 Mistral 的合作,世超只想说,目前的世界的 AI 格局其实很简单,那就是:收手吧 AI 巨头们,外面都是微软

本文标签: 微软  谷歌  openai  人工智能模型  deepmind