研究人员介绍了 LLEMMA,这是一个开源的大型语言模型,专门设计用于解决数学问题。与其他领先的数学语言模型相比,LLEMMA 在性能上表现出色,为进一步的研究提供了一个强大的平台。尽管 LLEMMA 并不是一个完美的数学求解器,但它代表了专门化大型语言模型发展的重要一步,可以推动人工智能研究进入新的方向。
LLEMMA 是基于 Code Llama 构建的,Code Llama 是 Meta 公司开源的 Llama2模型的改进版本,经过在代码特定数据集上的微调。研究人员开发了两个版本的模型,一个有70亿参数,另一个有340亿参数。这些模型还在研究人员创建的 Proof-Pile-2数据集上进行了进一步的微调,该数据集由科学论文、包含数学的网络数据和数学代码组成。
在实验中,研究人员发现 LLEMMA 在数学基准测试中表现出优越的性能,超过了所有已知的开源模型。“我们得出结论,持续在 Proof-Pile-2上进行预训练可以有效提高预训练模型解决数学问题的能力。”
此外,LLEMMA 还展示了使用工具和证明形式定理的能力,而无需进行额外的微调。它可以利用 Python 解释器和形式定理证明器等计算工具来解决数学问题,这些工具可以通过提供外部知识来验证和纠正模型的答案,进一步增强模型的问题解决能力。
虽然已经有一些大型语言模型针对数学进行了微调,例如 Google 的 Minerva,但 Minerva 并不是开源的。而 LLEMMA 则超越了 Minerva,即使在参数相等的情况下也能够表现得更好。
研究人员已经发布了他们的所有资源,包括70亿参数和340亿参数的模型,Proof-Pile-2数据集以及复制实验所需的代码。根据研究人员的说法,LLEMMA 是第一个能够与闭源模型的性能相匹配的开源模型,这使得其他研究人员可以在此基础上进行进一步的工作和改进。
LLEMMA 是发展特定领域的大型语言模型的更广泛倡议的一部分,而不是能够执行多个任务的通用模型。LLEMMA 的成果表明,通过改进数据和扩大数据集,即使是较小的模型也能够取得显著的结果。例如,LLEMMA-7B 在几乎所有的数学推理数据集上都优于 Code Llama-34B。
研究人员指出,“针对特定领域的语言模型可能会在给定的计算成本下提供更强大的功能,或在给定的能力水平下降低计算成本。” 这与其他研究表明,当小模型在一个由高质量样例组成的非常大的数据集上进行训练时,它们可以继续改进。
大型语言模型是否适合解决数学问题一直是一个广泛讨论的话题。衡量大型语言模型推理能力的难度很大。通常,模型在数学基准测试中得分较高是因为 “数据污染”,即测试样例包含在训练数据中,基本上意味着模型已经记住了答案。
也有研究表明,当以稍微不同的方式提出同一个问题时,大型语言模型可能会给出不同的答案。一些科学家认为,由于其随机性质,大型语言模型基本上不适合解决数学问题。
LLEMMA 的开发人员采取了细致的步骤来验证基准示例是否包含在训练数据中。虽然他们在训练和测试数据中发现了类似的示例,但他们得出结论:“测试示例和训练文档之间的非平凡匹配并不意味着模型生成了一个记忆的正确答案。”
发展可靠解决数学问题的大型语言模型可以增强语言模型的推理和规划能力。LLEMMA 的成就,尤其是模型和代码的发布,也可以为其他领域提供好处,通过为不同领域专门化的大型语言模型提供基础。
研究人员认为,“具有强大数学推理能力的语言模型是一些研究课题的前沿,例如奖励建模、推理的强化学习和算法推理。” 我们将会看到 LLEMMA 能够激发出哪些新的研究。