本文来自于微信公众号 罗超Pro(ID:uochaotmt),作者:罗超。
11月8日,2023年世界互联网大会乌镇峰会开幕。世界互联网大会早已成为国内规格最高的科技盛事,是展现全球数字经济最新科技成果的舞台,是观察数字经济潮水奔涌方向的瞭望台,堪称数字经济风向标。在生成式人工智能掀起新一轮技术革命的2023年,乌镇峰会具备承前启后的独特意义。
大模型成乌镇峰会关键词
随着ChatGPT、文心一言等产品的爆红,AI大模型在科技行业掀起了滔天巨浪。预训练大模型、生成式人工智能也成了今年乌镇峰会的核心议题之一。
在世界互联网大会人工智能工作组与百度联合主办的“人工智能赋能产业发展”分论坛上,世界互联网大会人工智能工作组发布了由其编写的研究报告及共识文件,汇总产业界在金融、交通、教育等14个应用场景的相关案例,提出“发展负责任的生成式人工智能十条共识”。
AI大模型在乌镇峰会上的强势存在不只是在论坛上有所体现。作为乌镇峰会的官方核心活动,“世界互联网领先科技成果发布活动”在7年后全面升级成“世界互联网大会领先科技奖”。今年的获奖项目大都与AI有关,来自互联网企业的两个获奖项目均属于AI范畴:一个是位列“基础技术组”的“百度知识增强大语言模型关键技术”,另一个是属于“工程研发组”的“腾讯觅影数智医疗影像平台”,其中百度“知识增强大语言模型关键技术”是唯一获奖的大模型技术。
百度“知识增强大语言模型关键技术”领先在何处?据百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰在现场介绍,“人工智能正在引领新一轮科技革命和产业变革,大语言模型让人们看到了通用人工智能的曙光。知识增强大语言模型关键技术,突破知识内化和外用技术,具备知识增强、检索增强和对话增强的独有技术优势,并通过模型与框架联合优化,突破了训练规模,提高了训练效率,提升了模型效果。”
今年3月百度发布知识增强大语言模型文心一言,其具备知识增强、检索增强和对话增强等技术优势。5月文心一言的基础模型升级至文心大模型3.5。8月31日文心一言率先全面开放。10月的世界大会上百度发布了文心大模型4.0,在理解、生成、逻辑、记忆四大能力都有显著提升,综合能力与GPT-4相比毫不逊色。
2023年,除早已入局大模型的百度外,阿里、华为等科技巨头以及多家创业公司均跑步入局大模型赛道,“百模大战”如火如荼。群雄逐鹿下,大模型赛道也出现了一些怪乱象,一些玩家在资本加持下临时上阵做大模型甚至一股脑“梭哈”,有的实力不济也做基础大模型“重复发明轮子”,有的“浑水摸鱼”为了市场炒作强推大模型,更有连核心技术都依靠第三方的“皮包型大模型公司”在凑热闹。其实在众声喧哗下,大模型真正重要的只有两件事:
第一件事是基础大模型的技术提升,说得更直白一点就是要有能担纲与GPT抗衡的基础大模型。在科技自主自立的大时代背景下,这一点至关重要;另一件事是大模型的落地,如果不能应用到实际场景中,大模型狂卷参数“军备竞赛”无意义,毕竟技术只有解决实实在在的问题才有价值。
发展大模型应该基础技术提升与产业场景落地并重,这正是百度的“大模型观”。
早在2019年百度就已在积累AI预训练模型技术并上线文心大模型,当年7月文心大模型升级至2.0,2021年12月正式发布全球首个知识增强千亿大模型鹏城-百度·文心,参数规模2600亿。
在行业因为ChatGPT关注大模型的前一年,百度就在布局大模型且坚持“不卷参数卷落地”,脚踏实地地推动大模型的落地且提出建设性方案。2022年5月,在WAVE SUMMIT2022深度学习开发者峰会上,百度公布飞桨文心大模型最新全景图,提出支撑大模型产业落地的3个关键路径并在业内首发基于文心大模型的行业大模型,构建了一套适宜产业应用的大模型体系,同时提供了配套的工具平台、推动开放生态促创新。
重视场景落地与重视基础技术并不矛盾,百度深知提升基础大模型技术水平的重要性。2023年百度文心大模型加快升级步伐,除不断汲取数据与知识提升智能水平外,通过在输入与输出环节进行知识点增强,在基础大模型上引入智能体机制等手段,提高模型的效率与效果。文心大模型成唯一斩获“世界互联网大会领先科技奖”的大模型技术也足以表明,百度在基础大模型技术上的绝对领先性。尤为重点的一点是,更强的文心大模型进步更快,据王海峰10月发布文心大模型4.0时介绍,在9月小流量上线后,过去一个多月其效果又提升近30%。
基础大模型能力不断提升进而呈现越来越强劲的智能涌现,这给大模型落地到更多应用场景、催生出更多创新应用、发挥出更大的智能价值创造了前提条件。在百度世界大会上,李彦宏提出“AI原生应用”的理念,引导开发者重新思考人与机器的交互模式并重新设计AI原生应用,突破传统互联网应用的价值边界,加速大模型在工作、学习、生活、商业、娱乐等场景的大规模落地。如同App的应用形态带来移动互联网的大繁荣一样,AI原生应用正在催生一个庞大繁荣的AI生态。
正如乌镇峰会“人工智能赋能产业发展”分论坛的主题所示,人工智能最终价值是赋能产业发展,加速千行百业的数字化进程,促进人类社会全面迈向智能化新阶段。大模型良性竞争的核心应该回到基础大模型技术进化与大模型技术落地应用这两个重点上来。
文心加飞桨共赴星河
大模型不是AI浪潮的起点,而是AI浪潮的延续,但不可否认的是,AI浪潮被其推到了全新高度。
大模型并非突然出现的颠覆性技术,其更准确地称呼是“预训练大模型”,“预训练”字面意思很容易理解:预先训练好,其通过堆叠数据集“贪婪式”地训练模式,拥有较强的通用性,理论上可泛化到多种应用场景,而小样本或零样本的技术实现,则可让开发者可快速基于其构建AI应用,而不再需要从0到1训练数据、建立模型。
在大模型技术出现前,AI技术就已出现60余年。10余年来,随着深度学习技术的高速发展,AI技术如知识图谱、机器视觉、语音、自动驾驶等早已被广泛应用。当AI要实现工业化大生产时,AI要支撑更加广泛普适的场景,要支撑更大更复杂的AI计算需求,要实现智能水平的不断升级,依靠传统训练模式已无法满足,大模型生逢其时。
作为深度学习的全新突破,大模型让AI技术的通用性大幅提升,成为AI从作坊式应用迈向工业化生产的关键。不过,大模型不是平地起高楼,它站在深度学习巨人的肩上,两者一起驱动着智能经济的爆发。
在乌镇峰会“人工智能赋能产业发展”分论坛上,王海峰在题为《文心加飞桨 翩然赴星河》的主题演讲中,诠释了深度学习框架与大模型的关系:“深度学习作为人工智能的核心技术,具有很强的通用性,并具备标准化、自动化和模块化的工业大生产特征,而大模型的兴起,使得人工智能应用的深度和广度进一步拓展。人工智能已进入工业大生产阶段。”
深度学习与大模型是协同促进的关系。百度认为,生成式AI和大模型的智能涌现,带来了全新的计算范式,这使得整个IT的技术栈从原来的三层,变成包括芯片、框架、模型、应用在内的四层结构。
在智能时代的四层IT架构中,芯片层,百度有昆仑等面向AI计算的芯片技术布局;框架层,有飞桨深度学习这样的平台;在模型层,则有文心大模型家族(包括文心大模型4.0在内的自然语言处理方向的基础大模型,视觉、跨模态、生物计算等其他方面的大模型,以及众多的行业大模型)来克服机器训练的难题;在应用层,则涌现出智能搜索、智能交通等原生AI应用,互相协同的四层技术栈构成AI时代的通用计算架构。
大模型依赖于软硬件的协同,向下离不开框架层与芯片层的支持,向上则要通过AI原生应用落地到千行百业。深度学习框架飞桨就作为底座支持了文心大模型的训练、推理与部署。在万卡算力上运行的飞桨平台,通过集群基础设施和调度系统、飞桨框架的软硬协同优化,支持了大模型的稳定高效训练。正是通过飞桨与文心的协同优化,文心大模型周均训练有效率超过98%,训练算法效率提升到3月发布时的3.6倍,推理性能提升50倍,由此可见,文心大模型4.0的强劲表现,离不开飞桨深度学习平台的底层加持。
在大模型加强AI通用性的同时,深度学习在不断精进,变得越来越标准化、自动化和模块化,更强大的深度学习平台驱动着更强大的大模型,加速AI在千行百业落地。因此长期来看,“文心+飞桨”这样的CP式AI组合,才是更适合AI工业化大生产的解决方案。
10年之约,百度准备好了
乌镇峰会第十年。10年来的世界互联网大会上,百度出镜率高,且与其相关的主题有且只有一个:AI。
除今年夺得“世界互联网大会领先科技奖”的文心大模型4.0以及2019年入选“世界互联网大会领先成果”的飞桨深度学习平台外,百度还有多个项目入选前些年的世界互联网大会领先成果:百度大脑、DuerOS(小度助手)对话式人工智能操作系统、Apollo,每一个都属于AI技术。
乌镇峰会走过的十年,正值数字经济腾飞的十年。十年间世事变迁,斗转星移。参与乌镇峰会的数字经济企业从2014年的12家增加到2023年的过千家,互联网行业格局早已是沧海桑田,层出不穷的新技术彻底改变了人们的生活乃至世界的面貌,数字经济重心已从“在线经济”全面转移到“智能经济”。作为乌镇峰会十年来的重要参与者与亲历者,置身数字经济中心的百度已从互联网企业蜕变成AI公司,成为中国AI产业的扛旗者。
十年,弹指一挥间,百度AI泛舟已十年,AI信仰不曾改变。
不论是布局深度学习还是加码大模型,百度都不做“追风逐浪”的玩家,它将AI当信仰,对AI的价值十分笃定,对AI的发展路线从无丝毫动摇,一直在力所能及地推动AI朝着正确的方向发展,做“造浪者”而不是“逐浪者”。
百度AI起步于2010年,经过多年的技术积累和市场应用,已经取得了令人瞩目的成果。2013年百度深度学习实验室成立,与谷歌开始布局AI的时间一致。百度做AI最初就有很高的起点,2014年就已大举在全球范围寻觅顶尖人才。
技术的投机主义者会审时度势,根据环境的变化调整投资策略。百度则是AI技术的信仰型玩家,在AI产业陷入低潮的2020年前后,李彦宏对AI技术的笃定也未曾动摇,他对AI此志不渝,也将乐观的情绪传递给行业。在2020年世界人工智能大会上,李彦宏在演讲中表示,“当前,人们对人工智能的态度产生迷茫甚至悲观,这是颠覆性技术在加速普及前的必经阶段。迷雾终将散去,智能经济和智能社会终将成为现实,而人类终将掌握自己的命运。”他当时动情地表示:“我对AI的信仰,没有丝毫改变。”
十年,百度AI技术不断开花结果,终于登顶“珠峰”。
百度AI技术体系在深度学习基础上延展出自然语言处理、图像识别、语音识别、知识图谱等领先的人工智能技术,并积淀形成飞桨深度学习平台、文心大模型。亲自主导和参与这一系列技术体系的王海峰已成百度首席技术官,并继续带领百度科学家与工程师们在深度学习平台、大模型等自主AI技术上深耕。百度财报显示从2012年到2022年的十年间其在AI上已投资超过千亿,自上而下构建出覆盖芯片、云计算平台、飞桨深度学习平台、大模型以及上层垂直AI技术应用在内的全栈AI架构。
坚定投资AI是百度攀登技术珠峰的过程,道阻且难且长,十年终于登顶,与全球顶尖AI巨头们相见于顶峰再论剑。
十年,百度做AI都坚持“基础技术提升与产业场景落地”并重。
在持续投入深度学习平台飞桨、基础大模型文心等AI基础技术的同时,百度积极地推动AI技术落地。
一方面,百度将AI技术应用到每一个业务的“毛细血管”。除持续用AI重塑搜索、地图、文库、网盘等国民级应用外,还成功开创了小度、Apollo等全新业务线。
另一方面,百度积极构建开放的AI生态,与社会力量与资源一起推动AI落地。从飞桨深度学习平台到文心大模型,核心技术成熟一个开放一个。截至目前飞桨和文心生态已凝聚800万开发者,服务22万家企事业单位基于飞桨创建了80万个模型。除技术开放外,百度积极推动AI产学研协同和人才培养,在2020年提出5年为全社会培养500万AI人才,现已培养420万AI人才。在百度世界大会上,百度发布人才培养星河计划,计划再培养500万大模型人才。
在AI工业化大生产阶段,百度的开放只会更加彻底。在乌镇峰会上,面对大模型产业化的挑战,王海峰表示,类似芯片代工厂模式,可采用“集约化生产,平台化应用”的模式,即具有算法、算力和数据综合优势的企业将模型生产的复杂过程封装起来,通过低门槛、高效率的生产平台,为千行百业提供大模型服务,这正是百度在大模型技术开放上努力的方向。
十年,AI从实验室进入到工业化大生产阶段,百度准备好了一切。
在繁荣的AI技术生态基础上,AI应用早已在全面落地。乌镇景区十年的剧变就是AI一日千里的“缩影”。记得在2016年世界互联网大会前夕,百度就在乌镇景区推出了全球首个无人驾驶体验站,笔者也有幸成为全球第26名体验百度无人车的乘客。
除无人车这样的黑科技服务外,乌镇景区已实现刷脸进园、扫脸入住、智能布草、智能床垫、语音导览、智慧停车等智慧景区服务,居民的生活与游客的体验因为AI而彻底改变。
如果我们将目光从乌镇放大到中国乃至世界来看,AI应用更是层出不穷地出现在人们的身边,给生活、学习、工作带来诸多好处,给人类创造更多的福祉。
在乌镇峰会期间,光明网记者孔繁鑫在《十年之约,乌镇准备好了》一文中对乌镇峰会十年进行了生动的复盘。正如他在文中所说,“十年斗转星移,互联网的江湖波云诡谲,话题从网络安全、金融监管切换到数据治理、人工智能,乌镇却总能稳稳站在时代风口浪尖,把脉前沿业态、引领发展潮流。”乌镇大会的十年与百度AI的十年的时间线几乎吻合,这十年百度一直在深耕AI并与时俱进。
在今天的乌镇峰会上,AI接棒互联网成为下一个十年的数字经济之基石。随着大模型技术的涌现,AI产业“轻舟已过万重山”。在全新的AI阶段,百度早已做好了准备,文心加飞桨,翩然赴星河。