最近,阿里巴巴达摩院发布的一个名为 POLYLM 的多语言大型语言模型引起了人们的兴趣。与其他多语言模型不同的是,PolyLM能够在理解、推理和生成自然语言指令方面表现出显著的能力,该模型拥有1.7B和13B两种参数版本可选。
官方的介绍是这样的:
PolyLM是一个通晓多语言的大语言模型,涵盖中文、英文、西班牙语、法语、德语、俄语、葡萄牙语、意大利语、阿拉伯语、日语、韩语、泰语、越南语和印尼语等18种语言。该模型可以应用于对话问答、文本生成、机器翻译和情感分析等领域,能够自动生成高质量的多语言文本,从而为跨语言、文化的交流提供便利。
据了解,POLYLM 使用了包含640B 个token 的庞大数据集进行训练,数据集来源于维基百科、mC4和 CC-100等公开可访问的资源。
研究团队提出了一种课程学习技术,逐渐增加高质量、资源较少的语言在训练中的比例,重点是从英语向其他语言转移通用知识。
团队还开发了一个名为 MULTIALPACA 的多语言指令数据集,用于监督微调阶段。为了评估 POLYLM 的多语言能力,团队还开发了一个基准测试,包括十个任务和十五种语言。研究表明,POLYLM 在非英语语言上的表现优于同等规模的开源模型。总的来说,POLYLM 提供了一个具有多语言能力的开源模型,有助于解决现有模型在非英语语言上的局限性。
团队总结了 POLYLM 的表现:
已经执行了熟练的13B 比例模型,在西班牙语、俄语、阿拉伯语、日语、韩语、泰语、印度尼西亚语和中文等主要非英语语言中表现良好。该模型补充了现有的开源模型,这些模型要么缺乏对这些语言的熟练程度,要么具有较小的版本而没有相同的功能。
提出了一种先进的课程学习方法,有助于将主要通过英语获得的一般知识转移到各种非英语语言和特定的自然语言处理任务(例如机器翻译)。
人们提出了一个名为 MULTIALPACA 的数据集,它补充了现有的教学数据集,使大语言模型能够更好地遵循多语言教学,特别是非英语母语人士的教学。