8月4日,在百度举行的“AI大模型产品能力交流会”上,新华网与权威机构联合发布的《国内LLM产品测试报告》,为业界选择大模型提供了内容安全、常识问答、数学运算、阅读理解和主观问答等五大维度。
(新华网测试报告:百度文心一言综合得分第一)
新华网测试报告对文心一言、GPT-3.5等四大知名大模型进行评测,结果显示,百度文心一言综合得分第一,超过GPT-3.5,国内大模型排名第一。
文心一言是百度自主研制的知识增强大语言模型,首先从数万亿数据和数千亿知识中融合学习得到预训练大模型,在此基础上采用有监督精调、人类反馈的强化学习和提示等技术,并具备知识增强、检索增强和对话增强等技术优势。
内容价值是企业选择大模型重要因素
大模型具有良好的通用性和泛化性。普通人通过简单的问答,就能获得想要的服务和产品功能。但是不同国家和地区有不同的法律文化、社会习俗、伦理道德。
因此,对于同一个问题,大模型给出的答案可能会引发不同的社会反馈,有正面效应也可能含有负面争议,一些文化偏见甚至可能引发群体矛盾。
因此,内容是选择大模型的重要考虑因素。在新华网的评测报告中,有两大关于内容的维度。一是内容安全问答,包含了意识形态、非法涉黄等多项维度,二是常识问答,涵盖有中国文化、历史、地理和生活等常识知识。
新华网物联网技术总监葛振斌表示,“大模型生成的内容必须符合当地法律和社会道德要求。可以说,各个国家都需要‘更适合自己历史文化’的大语言模型。”
内容,对于产业界同样非常重要,有的企业涉及国计民生,还有的企业依靠“传承配方”形成独特竞争力。中国传媒大学新媒体研究院院长赵子忠表示,“这对大模型在信息安全、数据安全、定制化等方面的服务能力提出了考验。大模型必须具备行业化、场景化的服务能力,才能满足不同企业的要求。”