本文来自于微信公众号 机器之能(ID:almosthuman2017),作者:机器之能。
烧钱的闭源,逆袭的开源。
当 LLaMA 被泄露出去、任何人都可以下载时,开源的命运齿轮已经开始转动,并在MistralAI最新一轮融资中达到高潮。
七个月前,来自 Meta 和谷歌的研究人员在巴黎成立了 Mistral AI。短短六个月,这家拥有22名员工的初创企业在最近 A 轮融资中筹集了4.15亿美元,估值从2.6亿美元狂飙到20亿美元,涨了七倍多。
同时,公司也低调发布了大模型 Mixtral8X7B。
Mixtral8x7B 采用了一种独特的架构方法——专家混合 (MoE) ,可产生流畅的、类似人类的响应,与传统的 LLM 方法形成鲜明对比。
根据公司提供的数据,Mixtral8X7B 优于一些竞争对手,包括 Meta 的 Llama2系列和 OpenAI 的 GPT-3.5。
成立仅四周,获1.13亿美元的种子轮融资,估值约为2.6亿美元。半年后,A轮融资后身价涨到了20亿美元。
与具有讽刺意味的名字 OpenAI 不同,Mixtral-8x7B 是开源的,这意味着它可以免费用于商业用途。开发人员还可以更改、复制或更新源代码,并将其与许可证副本一起分发。
不少网友积极为 Mixtral-8x7B 打 Call,夸赞它有多快、有多有趣。有研究者甚至称:「闭源大模型走到结局了。」
在此之前,他们在9月底发布的 Mistral7B 至今仍被称为「最好的7B 模型」,在每个基准测试中都优于 Llama-213B,并且在代码、数学和推理方面优于 LLaMA-134B。
有研究者称:「闭源大模型走到结局了。」
OpenAI 一直保持其最新LLM 闭源,并因此引发外界一定程度的强烈反对。
OpenAI 和谷歌警告称,在开源领域发布如此强大的模型是非常危险的,因为该技术可用于传播虚假信息。
他们也倾向于防御性发布模式,以便严格控制模型的使用方式。他们花了几个月为自己的 LLM 开发安全护栏,确保不会被用来传播虚假信息和仇恨言论,或者对问题产生有偏见的答案。
Mixtral 专注于开源其所有 AI 软件,坚定站在了日益激烈的文化战争的另一边。
他们坚信,生成式 AI 技术应该是开源的,允许自由复制和修改 LLM 代码,通过这种方式帮助其他用户快速构建自己的聊天机器人。
他们追求的轨迹也很明确:「开放、负责任和去中心化的技术方法」。
广泛分享 AI 的底层代码是最安全的途径,因为更多的人可以审查这项技术,发现它的缺陷,并努力消除或减轻它们。顶级风投 Andreessen Horowitz 普通合伙 Anjney Midha 在接受《纽约时报》采访时说,他领导了对 Mistral AI 的 A 轮投资。
「没有一个工程团队能够找到每一个错误,」他说。「大型社区更擅长构建更便宜、更快、更好、更安全的软件。」
国内大模型初创公司面壁智能也致力于开源 LLM 的商用落地。
面对市场竞争,开源软件的免费使用是非常有吸引力的获客手段,低成本试错也有助于加速创新。「基于开源路线,可以更快触达潜在用户群体,降低企业认知和决策难度。」联合创始人曾国洋曾告诉机器之心。
另外,LLM 涉及许多技术问题,单靠一家企业很难解决,可以通过开放技术,依靠社区力量共同解决,共享 IP,互惠互利。
这种集中与去中心化的博弈力量一直贯穿于现代计算机技术发展史中。
正如网友所言,「开源不仅是未来,也是过去。」
reddit上,网友也就 Mistral最新融资展开了一场关于开源与闭源的讨论,开源会是LLM的未来吗?
开源社区的主流思想之所以被人接受,更大的时代背景正是大公司对于软件业的垄断。推动现代计算的大多数主要技术都是开源的,包括计算机操作系统、编程语言和数据库。
Meta 从一开始也是站在开源大模型这一边,也被视为开源最大的受益者。
不过,谁能赢得这场博弈,仍然仁者见仁。
许多人工智能研究人员、技术高管和风险投资家认为,这场竞赛将由那些构建相同技术然后免费提供出去的公司赢得——即使这意味着没有任何护栏。
一份为人津津乐道、从谷歌内部泄露出来的备忘录(标题是《我们没有护城河》)质疑了东家对专有模型的坚定不移。
「我们无法赢得这场军备竞赛,OpenAI 也一样。当我们争吵不休的时候,第三个派系(开源)却在悄悄地吃掉我们的午餐。」
开源具有一些我们无法复制的显着优势。虽然谷歌的模型在质量方面仍略占优势,但差距正在以惊人速度缩小。
谷歌备忘录作者发现,自从 LLaMA 泄露后,立刻出现了大量的创新,比如羊驼、小羊驼等,都可以在智能终端上运行,重大开发成果之间的间隔也在缩短。Meta 是一个明显的赢家。他们有效地获得了整个星球的免费劳动力,大多数开源创新都发生在他们的架构之上,没有什么能阻止他们将其直接整合到他们的产品中。
开源替代方案可以而且最终会让它们黯然失色。「当免费、不受限制的替代品在质量上具有可比性时,人们就不会为受限制的模型付费。」
这一担心也部分得到了一些验证。
最近,Meta 首席 AI 科学家 Yann LeCun 转发了方舟投资(ARK Invest)制作的一张趋势图,描绘了开源社区与专有模型在生成式 AI 上的发展。
「开源人工智能模型正走在超越专有模型的路上。」他感概道。
不久,方舟投资又更新了这张广为流传的图表,新增了一些模型,包括 Gemini 和 Mixtral Mixtral8X7B 。
散点图最近有更新,增加了一些模型,如 Gemini和Mixtral,我们可以看到,开源模型的性能在不断追赶专有模型。有网友甚至表示,我们正在接近一个临界点。以目前开源社区项目的发展速度,我们将在未来12个月内达到 GPT-4的水平。
我们可以从图中看到,领先的前沿模型在绝对能力上仍然具有优势,但开源社区研究人员正利用免费线上资源取得可媲美最大的专有模型的成果。
Meta 最初发布 LLaMA 时,参数量从70亿到650亿不等。这些模型的性能非常优异:
有130亿参数的 Llama 模型「在大多数基准上」可以胜过 GPT-3( 参数量达1750亿),而且可以在单块 V100GPU 上运行;
最大的650亿参数的 Llama 模型可以媲美谷歌的 Chinchilla-70B 和 PaLM-540B。
Llama2开源再一次使大模型格局发生巨变。
相比于 Llama1,Llama2的训练数据多了40%,上下文长度也翻倍,并采用了分组查询注意力机制。
Falcon-40B 刚发布就冲上了 Huggingface 的 OpenLLM 排行榜首位,改变了 Llama 一枝独秀的场面。目前,最大的公开型号是 Falcon180B。
还有 Yi 模型,可以一次处理40万汉字、中英均霸榜。Yi-34B 也成为迄今为止唯一成功登顶 Hugging Face 开源模型排行榜的国产模型。
Mixtral Mixtral8X7B 亮点在于模型规模和性能(击败GPT3.5)的「性价比」——未来,我们更加渴望有更多这样的开源 MoE 模型,而不是更大的模型。
散点图勾勒出一股创新大潮,正改写着大模型战局,开源力量可能在未来1~2年与专有模型分庭抗礼。
但并非所有人都认同这一点。
有分析师指出,开源和闭源,各有利弊,但在技术行业的大多数其他方面,例如基础设施即服务(IaaS)和平台即服务 ( PaaS ),开源已成为明显的赢家。
不过,情况并非总是如此,因为在软件即服务领域( SaaS )大多数领先平台仍然是专有(闭源)软件。所以,还是无法确定哪种方法会赢得竞赛。
也有网友认为,开源还是闭源并不是一场非此即彼的零和游戏。
LLM 也许会找到一个类似平衡——就像互联网是基于开源软件运转的,但我们也离不开 Adobe、Windows 这样的付费专有软件。
开源固然迷人,一些网友也在质疑 Mistral AI 这样的公司怎么赚钱?从收益回报上看,投资者为什么要如此重视 Mistral 这样的公司?
开源总是让人和自由分享和免费的互联网精神联系在一起,盈利好像与之天然相悖。但事实上,开源并不意味着公司不能赚钱,最典型例子就是开源软件公司 Red Hat。
被 IBM 收购之前,Red Hat 最后一次报告的收入是2018年的34亿美元。它的软件基本上是免费的,收入主要来自向企业提供支持服务。
比如,纽交所在用免费的 Linux 系统交易股票。每隔几年芯片硬件都会升级,纽交所也想采用新的处理器提升效率,这就需要部署新的系统和应用程序。
纽交所可以养一个团队自己完成所有系统维护、开发工作,也可以花钱请 Red Hat 来做。相当数量的企业用户都选择了后者。
Mixtral 其实也提供即用即付的 API 访问,迎合那些想要快速轻松地访问其功能而无需管理基础设施来支持它的用户,类似于 OpenAI 的 ChatGPT 和 Anthropic 的 Claude 模型。
reddit网友猜想的开源的商业模式。就像当年的网景浏览器变身为流量入口,带动了广告、游戏等其他业务的兴起。
机器之心采访面壁智能时也曾聊过商业模式——他们形容为一种类似于数据库的生意:
公司负责提供模型库,就像现在比较常见的数据库企业;数据库的工作是打磨数据库性能,面壁智能的任务就是提升大模型性能。政府、企业、小型开发者甚至学生通过标准接口接入基础设施,根据自身需求实现业务所需能力。
不过,《经济学人》曾警告说,一部分开源公司可能是好企业,但投资者必须接受他们不会拥有传统软件公司的经营利润,更不用说微软那样的利润了。因为是「开源」,意味着它们是一种公共财产,不能像微软对 Windows 那样利用专利实施垄断,获得丰厚回报。
反过来,就像《经济学人》曾指出的,虽然短期内对拥有这样一个平台的所有者极其有益,但却违背了该行业中其他所有公司的利益,也拖累了整体技术的创新和发展速度。
无论如何,现在有一点很明确——和一年前相比,LLM 实现民主化使用的可能性大大提高了,技术被少数公司垄断的可能性也在减少。
这是计算领域里的又一个转折点。