今年5月9日,发布仅3天的讯飞星火大模型就在一个评测榜单上拿了个国服第一,力压清华智谱、复旦MOSS以及百度文心一言等国产大模型,仅次于GPT-4和GPT-3.5。
本来外界对讯飞称王并无异议,但这份榜单将文心一言列在最后一名,热心网友就不乐意了。
随后发布榜单的评测机构SuperCLUE被曝光,一个仿照GLUE的国内民间组织,权威度和影响力与GLUE相去甚远,其微信账号主体属性为个人,被网友戏称为AI版李逵和李鬼。
就连讯飞的称王都被挖出来猫腻。
评测榜单发布当天,SuperCLUE官网显示信息,其测评顾问中排名第一的是崔一鸣,身份为学术顾问委员会主任,哈工大讯飞联合实验室(HFL)资深级研究员,而第二天官网就删除了此条顾问信息。
至于这个榜单本身,也被业内人士质疑其合理性,理由是没有公布评估数据以及具体的评估方式。不过SuperCLUE在8月份进行了一次评测体系、方法及变动说明的解读,算是变相回应,只不过3700道的测试题还是较SuperGLUE的2万道相去甚远。
但SuperCLUE却摇身一变,成为各种大模型PR稿里的救世主,堪称大模型界的安兔兔和鲁大师,个中内涵懂得都懂。
手机厂商也顺理成章成为了SuperCLUE的榜单常客。比如OPPO和vivo,前者登上了9月的基础能力排行榜,后者则拿下了10月的国服第一。
在搞机圈跑分作弊早已不算秘密,2013年三星Galaxy S4就曾被曝跑分作弊,事后三星不得不向每位Galaxy S4购买者赔偿10美元。
到2018年,跑分作弊俨然已成一种行业乱象:各大手机厂商费尽心思优化跑分项目,有的甚至专门开设一个白名单,当检测到是跑分软件时,手机各方面的资源就全速运行,以此开启芯片的极限性能模式。Anandtech就曾公开点名荣耀Play跑分作弊,跑分监测机制开启和关闭的情况下,得分相差一倍。
跑分作弊映射出的一个道理是,这种人为极限性能下的分数,设备根本不可能长时间保持这样的水平,因此显得毫无意义。
而这种毫无意义的极限性能跑分,隐隐有传到大模型的迹象。
比如OPPO这次拿出来的SuperCLUE成绩,还不是总榜单,而是十大基础能力排行榜的“知识与百科”能力。
在SuperCLUE的评测方案中,“知识与百科”属于专业知识技能,包含历史地理、科学技术、文化娱乐、社会人文等众多任务。
相对来说,“知识与百科”倾向于是有标准答案的问答评测,不过即便如此后期有用户在测试OPPO大模型时,还是出现了鲁迅和周树人不是同一人的错误。
抛开这种低级失误,对于这种有针对性的评测,小米AI实验室大模型团队负责人栾剑此前在接受媒体采访时就给过定论,目前这些榜单绝大部分都是学科问题,而且是选择题为主,所以用它们对评估大模型的能力是有局限性的。
“如果把这些学科的知识、这些学科搜集到的试题,都拿来对大模型做增强学习,它的效果一定可以达到很好。”界面新闻就曾曝光过两种C-Eval“刷榜”方式:
一种是找数据标注员把题目做一遍,第二种是用GPT-4把题做一遍,再把答案扣下来训练大模型,这样都能在相应学科测试中获得满分。
问题的关键还在于,做这样的训练对大模型其它方面的能力可能会带来负面影响。
目前有一些开源的大模型迭代了版本之后,打榜的分数提高得很明显,但如果测试它的生成能力,比如写作水平,发现其实是有下降的。
还有一点存疑的是,大模型评测榜单的合理性。
比如今年5月SuperCLUE的榜单,文心一言在这个测评的评分是明显偏低的,甚至连一些不知名的国产小型开源模型都比不过,测试结果与实际使用体验不符。
根源在于当时SuperCLUE的测试手段是让大模型做选择题(据称是100道),而这是用来针对BERT时代的判别式AI模型,不适用于现在的这些生成式大模型。
这倒也不是SuperCLUE一家的问题。华泰证券前资深算法工程师邱震宇此前曾深入探究了市面上大模型的各类评测集,综合比较了各家榜单结果,得出的结论是现在并不存在一个公认有效的评测方式。
大模型是一个新的范式,其实一个范式除了对底层逻辑的解释,也需要有一整套的训练方法及评估方法。对大模型来说,这一整套合理的评估方法,大家还在探索中,没有公认的标准。
事实上,大模型很难去实现没有偏颇的测试,所谓的AI模型排名没有什么值得参考的实际价值,评价大模型的唯一标准就是能不能帮助用户去解决实际的问题。
看待打榜,只是从一个侧面验证一个基座大模型是不是能在某个领域里做到极致,但不代表说它就一定能给用户带来最好的应用体验。
在OPPO之前,已经有三家国内手机厂商公开了大模型进度,分别是华为、小米和vivo,均以语音助手的形式。而且各家像是打过商量一样,几乎是在同一时间对外吹风,再加上高通、谷歌、联发科的频频官宣,上马大模型俨然成为手机厂商的必选项。
在这种你追我赶的态势下,就很容易发生“有条件要上,没有条件也要硬上”的老套情节。
2019年OPPO推出小布助手,最初通过调用搜索引擎完成扩展问答,但整个体验不畅,促使后来OPPO开始做知识图谱和海量语料数据,相当于建了一个问答库。
这种机械的“检索式回答”常见于当时的语音助手,优点是成本低上马快,缺点则是周期长成本高,而且要面对长尾问题语音助手无法回答的尴尬。举个例子,长江长还是黄河长这类问题,如果数据库中没有答案,语音助手就无法回答。
为了解决问题,2021年OPPO找到了北京智源人工智能研究院,借悟道大模型推出了“生成式问答系统”,一定程度上弥补了自己的技术短板。
彼时的OPPO属于两条腿走路,一边从外面引入大模型,一边在背后埋头自研。
2022年6月推出的预训练模型OBERT,就是OPPO从发布前两年开始探索的,共有一亿、三亿和十亿参数三个版本。同年11月,OPPO语音语义研究部又推出参数量为30亿的中文预训练大模型CHAOS。
但这两个模型在网上能查到的资料很少,除了官宣的新闻稿外几乎没有其它消息。倒是今年4月,在阿里云峰会上,阿里云官方发布的「企业专属大模型」合作名单里,OPPO却位列第一。
据阿里云CTO周靖人介绍,以上这一系列模型已经和阿里的行业模型形成了层次化、模块化结构,行业模型可以在阿里预训练模型之上进行定制,可以解决当下多达200个业务场景。
换言之,这些AI模型本质上都是基于阿里云通义大模型完成的能力构建。这似乎意味着,OPPO的自研大模型或是火候不到,不得不暂时放弃自研,再转向外部合作。
坊间也有传言称vivo的大模型用的是开源的Llama2,虽不知真假,但也从侧面反映出,手机厂商做大模型的一个被动:无论宣传上多么高调,总令人怀疑没这个技术实力。
至于是自研好还是外部合作好,就各有论调了。
自研的难点在于,从0开始基础大模型的预训练,资金投入需要非常大,除此以外,数据、算力、know-how、维护等也是一道道门槛,但优势也十分巨大,企业能够掌握自己定制模型结构的能力。
在各种设备终端上,使用的芯片不同,就会对模型提出各种各样的要求,这些要求可能细节到一些算子不支持,或者某种结构运行起来效率不高。手机厂商必须根据硬件提出的要求,对模型结构做一些调整。
如果想修改模型结构的话,就一定需要具备从头开始训练的能力。因为开源模型的结构是固定的,没有办法调整,就不能满足需求。
而外部合作的优势正是自研的难点,百度、阿里等平台型企业几乎提供了一条龙服务,不仅省下了成本,还有性能/中文增强、数据集、应用范式等系列服务,几乎一键开发大模型。
尾声
今年2月,高通在一部没有联网的Android手机上使用了Stable Diffusion 来生成AI图像,整个生成时间不超过15秒,过程全部在手机上进行。刚刚发布的骁龙8 Gen3,已经可以支持运行100亿参数的生成式AI模型。
今年5月的谷歌I/O大会上,谷歌一口气发布了四个新一代大语言模型 PaLM 2。其中最小的“壁虎”大模型,可以适配手机运行。
到今天,手机大模型已经是一个无可争议的趋势。但摆在手机厂商面前的问题似乎都被它们忽视了:大模型究竟能为用户带来什么?
至少在当前,无论是华为、小米还是vivo、OPPO,其内嵌大模型的语音助手还没有“涌现”的迹象,提供的功能也没有超出通用大模型的范畴。
而按照手机厂商的惯用套路,新技术是否驱动了新需求尚未可知,但驱动新价格几乎是毫无疑问的。
参考资料
[1] 国内大模型争霸赛,这是你心目中的大模型排名吗?机器学习
[2] 跑的高能卖钱?手机厂商为啥要跑分作弊,威锋网
[3] 小米的大模型“野心”,始于端侧,腾讯科技
[4] 谁在评价大模型?AI大模型评测榜单乱象调查,界面新闻
[5] 手机跑分突破110万!跑分到底是娱乐还是有可信度?中关村在线
[6] 登顶CLUE与MUGE,OPPO语音语义研究部推出中文预训练大模型CHAOS, 新闻助手
[7] 登顶KgCLUE,OPPO小布推出预训练大模型OBERT,OPPO小布团队
[8] 全球最大智能模型“悟道”首次落地:数字人+终端AI助手,支持NVIDIA GTX单卡机运行百亿大模型,雷锋网