为辅助国内开发者研发中文大模型,近期,上海交通大学联合清华大学及爱丁堡大学共同构造了适用于大语言模型的多层次多学科中文评估套件“C-Eval”,并被认作为目前最主流且认可度最高的中文预训练评估任务。在该项目组最新公布的中文大模型能力排行榜上,360智脑大模型的千亿参数版本“360GPT-S2”平均分得分超过GPT-4,尤其在社会科学及人文科学两项上表现优异。
据了解,C-Eval是全面的中文基础模型评估套件,覆盖人文,社科,理工,其他专业四个大方向,52个学科(含微积分、线代等),题目范畴涵盖中学到大学研究生以及职业考试,共计13948道题目的中文知识和推理型测试集。
根据官方公布的结果显示,360智脑大模型的千亿参数版本“360GPT-S2”平均分得分为69分,不仅超过GPT-4的平均分,并在社会科学类题目中得分82分,超过GPT-4近5分,人文科学类题目中得分70.6分,比GPT-4该项得分高6分。业内人士评价,以360智脑为代表的国产大模型能力全面超越GPT-4,标志着国产大模型已实现弯道超车。