出门问问宣布,将向公众开放其超大规模语言模型“序列猴子”的部分训练数据集,命名为“序列猴子开源数据集1.0”。
序列猴子,作为出门问问的核心技术之一,具备强大的通用表示与推理能力,已在问答系统、自然语言处理、机器翻译、文本摘要等多个领域展现出其卓越的性能,极大地提高了生产效率和数据处理能力。
为了推动大语言模型技术的持续进步,出门问问决定将其部分训练数据集进行开源。这次开源的“序列猴子开源数据集1.0”包括中文通用文本语料、古诗今译语料以及文本生成语料,这些数据资源都经过精心挑选和整理,以确保其高质量和易用的数据格式。同时,公司采用了宽松的许可协议,为广大的开发者和研究人员提供了便捷的使用条件。
出门问问希望通过这一行动,吸引更多的人才和团队参与到大语言模型的研究与应用中来,共同推动这一前沿技术的持续进步。公司坚信,开源数据集的发布将促进学术交流与合作,加速相关领域的创新步伐。