本文来自于微信公众号 硅星人Pro(ID:Si-Planet),作者:薛良Neil。
最像OpenAI的中国公司
位于清华科技园中的Ricci睿奇餐厅提供了从披萨到意面的各种西式简餐,午餐时段这里熙熙攘攘。
除了就餐,提供了类似于第三空间职能的Ricci还成了许多合作最初开始的地方,比如投资人来公司实地探访会选择在这里吃午饭,而如果你看到两个人在Ricci面对面正襟危坐,那么他们大概率是在面试,2023年以来,面试的主题几乎都是大模型。
之所以选择Ricci,是因为对坐落于清华创业园中的大模型公司来说,它的地理位置实在是很方便。比如智谱AI,它的两个办公地分别位于Ricci北面的赛尔大厦和一条马路之隔的搜狐网络大厦。
在Ricci,冲着智谱而来的人很多,因为哪怕是在高手林立的清华科技园,智谱都是明星。
举个例子来说,智谱的GLM-130B模型是少见的可以和GPT-3175B掰掰手腕的模型,用CEO张鹏引述斯坦福模型评测的结果来说,GLM-130B的准确性、恶意性与GPT-3持平,鲁棒性方面甚至更胜一筹。8月31日,首批获网信办批准向公众提供大模型产品服务的公司中,智谱占有一席。
另一个例子是,尽管是一家成立于2019年的创业公司,智谱已经在涉及大模型链路的许多方面推出了许多产品,这里面不仅有各种尺寸的通用大模型,还有基于通用模型而来的对话产品智谱清言,基于华为MindSpore框架的代码模型CodeGeeX,文生图模型CogView以及多模态对话模型VisualGLM,甚至还有硬件。
根据公开资料,就在9月,超云联合英特尔与智谱AI推出了大模型训推一体机,这台采用异构加速架构,搭载了英特尔至强处理器的一体机预装了智谱的定制模型和标准商用模型。
从软件到硬件,从算法到产品,智谱不仅一手打造了一个人工智能产品系列,更重要的是从数据到训练集群运维再到核心算法,智谱都实现了完全的自研。这看上去完全不像一个初创公司的,甚至有些奢侈的做派倒是和大洋彼岸的OpenAI做法十分类似,眼花缭乱的模型和产品始终围绕着AGI通用人工智能这个一致的目标,基于这个目标来组织各种技术和人才资源,并果断All In其中,也无怪乎有人说,这家清华系背景的大模型公司是中国最像OpenAI的公司之一。
清华的实力
智谱所在的清华创业园毗邻清华,从某种意义上说,这座中国最著名的高等学府给了智谱全自研架构的底气。
智谱成立背后的主导人物唐杰,他是清华计算机系的教授,也是中国在人工智能和大模型领域颇具话语权和声量的学术领军人物,彼时全球最大的万亿级超大规模预训练模型悟道2.0正是由唐杰主导开发的。
在智谱团队中,清华系占据相当比重,从网上公开的清华大学知识工程研究室团队中我们能看到,智谱的CEO张鹏、董事长刘德兵和总裁王绍兰的名字都位列其中。
因此当我们回顾智谱成立的来龙去脉,或许会对那句官方介绍中“源自清华技术成果”有更深的理解。智谱不是一家试图抢占这一波人工智能浪潮身位的,匆忙成立的公司,而是在产学研这条链路上走的最快、最紧密的清华计算机系在技术实力发展到一定程度的时候,自然而然的结出的果实,翻开智谱的官网,在公司发展历程介绍中的时间点不是从2019公司成立,而是从2006年算起的,那一年,这支团队发布了名为AMiner的产品用以“科研情报挖掘”,据说正是这项技术让智谱积累了最早的一批客户,换而言之,这家估值超过10亿美金的AI独角兽,在技术沉淀上并不能算做一家初创公司,而智谱从诞生之初就始终保持着和清华强有力的联系,在大模型人才颇为短缺的中国成为了一种不容忽视的优势。张鹏曾表示过,GLM模型训练和开发阶段,智谱和清华大学一直在“联合研究”。
“三有公司”
2020年OpenAI发布了GPT-3,这个时间点恰逢智谱AI成立一周年,根据公开采访,一直紧盯着全球人工智能进展的智谱几乎立刻就意识到了它的潜力,在公司生日的庆祝活动上,张鹏已经开始和周围的人探讨GPT-3所代表的技术方向,一个稠密的、有千亿参数规模的超级大模型,或许会带来人工智能的突破。在此之前,张鹏的团队尝试过各种方法提高模型的参数量和准确性,但效果都不够理想。
GPT的出现最终让智谱决定All In超大规模参数大模型方向,一年之后,智谱的百亿参数大模型发布了,在当时绝大部分人还根本不知道这意味着什么,又过了一年,GLM-130B诞生。
先发优势显著的智谱最终打造出的不止是一个通用大模型,更是一个全新的预训练模型框架,GLM是 general language model 的缩写,翻译过来就是通用语言模型,在这个框架里智谱试图结合GPT和谷歌Bert等各种预训练模型框架的优点,2022年8月,也就是ChatGPT发布前三个月,千亿参数的超大规模预训练模型GLM-130B发布。它不仅在综合性能上和GPT-3有一战之力,还可以在更便宜的服务器上进行推理——由于采用了和GPT不同的架构,GLM-130B甚至可以在四张24G显存的RTX3090显卡上运行。
如果把百度发布文心一言当做国内百模大战正式开打的标志,那么智谱领先了所有人整整7个月,实际上就在文心一言发布的前两天,ChatGLM-6B ——基于GLM的双语对话模型就率先发布了,由于参数量小,ChatGLM-6B 仅靠消费级显卡就能运行,在今年7月,智谱更是把它和它的迭代升级版ChatGLM2-6B开源。
模型的强劲实力成了智谱对外合作的敲门砖,在相当一段时间内,客户甚至没有什么别的更好的的选择。从360到美团、金山,智谱的模型在客户中的受欢迎程度就像它的模型在huggingface trends排行榜的位置一样高,自然而然的,智谱的融资也异常顺利——某种程度上讲,是智谱在挑选投资者,而不是相反。
这造成了一个很有趣的现象,智谱刚刚完成的B-4轮融资中,腾讯和阿里巴巴据悉都是参投方。能让历来王不见王的阿里和腾讯同时挹注,足见智谱的实力不仅得到广泛认可,而且某种程度上甚至具有一定的排他性——市面上找不到和智谱旗鼓相当的对手让腾讯和阿里分别下注了,要知道上一次这两位巨头投资同一家公司还得回溯到2016年的滴滴,当时的滴滴已经确立了自己在移动出行领域的绝对优势。
清华系背景、强大模型性能还有客户的认可共同形成了外界对智谱的评价:有人、有技术、有客户的三有企业。
百模大战的下一个阶段是?
在2023年下半年,行业中对百模大战下一阶段是什么的回答大多聚焦于用行业数据训练垂直大模型,然而智谱看上去垂直大模型不太感冒。
或许在智谱看来,大模型带来的智能涌现还远未到达尽头,其潜力还有很多可以挖掘的空间,这个时候的主要任务应该是进一步提升大模型的能力,至于垂直行业大模型,那完全可以通过微调实现。
被誉为AI天才,目前正在大模型创业的杨植麟也曾表达过同样的看法——行业模型最终还是要回归到通用大模型上去。巧合(或许也没那么巧合)的一点是,杨植麟本科毕业于清华大学计算机系,他的老师之一,正是唐杰。
与他们的思路不谋而合的还有OpenAI,尽管我们还不知道GPT-5的开发进度(甚至开发有没有开始),但下半年来OpenAI的动作没有一个和所谓垂直大模型有关,相反,OpenAI在竭尽全力提升通用大模型的能力与实用性,比如引入Code Interpreter代码解释器,把新升级的文生图模型DALL·E3和ChatGPT结合起来,甚至允许用户通过图片和实时语音与大模型互动。
许多人把8月31日第一批大模型应用向全社会全面开放作为一个节点,但同ChatGPT带来的破圈效应相比,全面开放的国内大模型应用似乎没有激起太大的水花,这背后同样也反应了通用大模型能力不足的问题,换而言之,推动通用大模型能力持续提升依旧是目前这个阶段中国大模型竞赛玩家的首要任务,百模大战还在继续,但大家的能力差距正在逐步展现。
资本整合背后的技术整合?
6月底,清华大学人工智能研究院新成立了基础模型研究中心,它的首任主任正是唐杰。
清华大学官网视频截图:清华大学校长王希勤(左)、唐杰(中)、中国工程院院士、清华大学人工智能研究院院长张尧学(右)
在这场成立仪式上,智谱AI的CEO张鹏也出席并致辞,他的发言就在唐杰介绍研究中心的发展规划之后。另外两位致辞的人分别是清华大学智库中心的主任和计算机系主任。
值得注意的是,研究中心的两位副主任都是来自计算机系的教授,分别是黄民烈和刘知远,而就在9月,同智谱B-4轮融资消息一同传出的是智谱全资收购了另一家大模型公司聆心智能——它的创立者正是黄民烈。
事实上,尽管是一家初创公司,但智谱在大模型领域出手的次数并不少,聆心智能的天使轮和Pre-A轮智谱都有参与,而智谱还曾投资过另一家清华系的大模型公司的种子轮和天使轮——面壁智能,而它的联合创始人正是基础模型研究中心的另一位副主任刘知远。
有关对聆心智能的全资收购随后被证明不准确,但毋庸置疑的是双方正在进行紧密的合作。这可能与聆心智能自身在通用大模型性能上进展不顺利有关,聆心智能一直在试图打造中国版的CharacterAI,也就是帮助用户创建和定制AI角色并进行对话,去年聆心智能的首个产品“AI乌托邦”基于自研中文对话大模型OPD,但今年,AI乌托邦悄然改名为AiU社区,背后的大模型也变为了名叫CharacterGLM的超拟人大模型,从这个名字我们就能看出,它是由聆心智能联合智谱合作打造的,本质上还是基于GLM-130B模型能力。
从上面的例子中我们看到了大模型赛道上的整合趋势。特别是资本整合背后意味着的是技术上的整合,每个参与百模大战的人都需要证明自己的真正实力,在这一点上,初创公司和巨头之间并不存在本质性差异。
过去的一种比较普遍的观点是,大模型在技术上并不存在绝对的瓶颈,卡脖子的领域主要集中在算力领域。这种略显简单的观点实际上是在说,得算力者得天下,而技术能力和人才储备的重要性被选择性的忽视了。
智谱的例子很好反驳了这一点,无论是针对单卡算力还是国产GPU,智谱的模型都有很好的适配性,最终这导致了成本的大幅度下降,背后依靠的还是技术积累与工程能力上的突破——大厂在这方面并不格外占优,也就是说,胜利的天平最终会向技术领先的那一方倾斜,而智谱也许是这场比赛最终留在牌桌上的几位玩家之一。