本文概要:
1. 研究发现,语言模型通过阅读文档成功学会使用工具,甚至能够发明新的方法。
2. 使用文档训练的模型在零样本性能上与仅使用演示训练的模型相当甚至更好。
3. 通过阅读文档,语言模型可以学习复杂的图像处理和视频跟踪功能。
根据一篇新的研究论文,语言模型可以通过阅读工具和API文档来学习使用工具,并在某些情况下甚至发明新的方法。与传统的通过演示训练的方法相比,仅使用文档的模型在零样本性能上表现相当或更好。
该团队使用文档和演示对六种不同任务的多个模型进行了训练,并比较了它们的性能。仅使用文档,零样本性能等于或优于仅从演示中学习的模型。然后,在扩展到包含200个工具的数据集后,第一个模型的性能显着优于第二个模型。
在图像处理领域,该模型能够通过学习新的、最先进的图像处理模块的文档来执行复杂的图像处理和视频跟踪功能,而无需进一步演示。该团队特别强调,该模型能够重现最近发布的图像处理技术,例如 Grounded-SAM 和 Track Anything 的视频跟踪,展示了该方法在自动知识发现方面的潜力。
论文指出:“总的来说,我们通过关注LLM的内部规划和文档推理能力,而不是通过演示明确指导他们的行为,揭示了LLM使用工具的新视角。”
这项研究揭示了阅读文档对于语言模型学习工具使用的重要性,以及文档对于扩展和自动知识发现的潜力。