新华网评测报告：百度文心一言拿下多项第一_科技魔方-中文AI大模型门户网站

　　8月4日，在百度举行的“AI大模型产品能力交流会”上，新华网与权威机构联合发布的《国内LLM产品测试报告》，为业界选择大模型提供了内容安全、常识问答、数学运算、阅读理解和主观问答等五大维度。

　　(新华网测试报告：百度文心一言综合得分第一)

　　新华网测试报告对文心一言、GPT-3.5等四大知名大模型进行评测，结果显示，百度文心一言综合得分第一，超过GPT-3.5，国内大模型排名第一。

　　文心一言是百度自主研制的知识增强大语言模型，首先从数万亿数据和数千亿知识中融合学习得到预训练大模型，在此基础上采用有监督精调、人类反馈的强化学习和提示等技术，并具备知识增强、检索增强和对话增强等技术优势。

　　内容价值是企业选择大模型重要因素

　　大模型具有良好的通用性和泛化性。普通人通过简单的问答，就能获得想要的服务和产品功能。但是不同国家和地区有不同的法律文化、社会习俗、伦理道德。

　　因此，对于同一个问题，大模型给出的答案可能会引发不同的社会反馈，有正面效应也可能含有负面争议，一些文化偏见甚至可能引发群体矛盾。

　　因此，内容是选择大模型的重要考虑因素。在新华网的评测报告中，有两大关于内容的维度。一是内容安全问答，包含了意识形态、非法涉黄等多项维度，二是常识问答，涵盖有中国文化、历史、地理和生活等常识知识。

　　新华网物联网技术总监葛振斌表示，“大模型生成的内容必须符合当地法律和社会道德要求。可以说，各个国家都需要‘更适合自己历史文化’的大语言模型。”

　　内容，对于产业界同样非常重要，有的企业涉及国计民生，还有的企业依靠“传承配方”形成独特竞争力。中国传媒大学新媒体研究院院长赵子忠表示，“这对大模型在信息安全、数据安全、定制化等方面的服务能力提出了考验。大模型必须具备行业化、场景化的服务能力，才能满足不同企业的要求。”

新华网评测报告：百度文心一言拿下多项第一