近期研究人员提出了一种名为 LEVER 的技术,通过学习验证生成的程序与执行结果来改善自然语言到代码的生成。LEVER 使用自然语言描述、程序表面形式和执行结果的组合表示进行训练,以识别和拒绝错误的程序。
为了评估,研究人员在代表不同领域的四个数据集上进行了实验,包括表 QA、数学 QA 和基础 Python 编程,以评估 LEVER 的功效。使用 code-davinci-002的性能提升范围为4.6% 到10.9%,并且结果始终优于基本代码 LLM。在所有数据集中,LEVER 都取得了全新的最先进结果,证明了其在根据自然语言描述生成精确且上下文相关的代码方面的优越性。
LEVER 的技术可以提高代码 LLMs 将自然语言描述转化为可执行代码的能力,有潜力改善数据库接口、机器人控制和虚拟助手等人工智能应用。