科技魔方

OneChart:仅2亿参数,专门用于图表信息结构化提取

更多场景

2024年04月22日

  在图表解析领域,由于样式、数值、文本等的多样性,存在着重大挑战。即使是拥有数十亿参数的先进大型视觉 - 语言模型(LVLMs)也难以令人满意地处理此类任务。

  为了解决这一问题,研究团队提出了一种可靠的工具 OneChart,专门用于图表的结构提取。它捕获了图表标题、来源和对齐的数值数据等重要组成部分,并将它们输出为 Python 字典格式,可以有效地促进下游图表推理任务。

  为了增强文本输出中的数值部分,研究团队引入了一个辅助标记以及一个额外的解码器。这个辅助标记允许后续的文本标记通过因果关注来捕获增强的数值特征。此外,借助一个辅助标记,他们设计了一个可靠的检查机制,在推断过程中通过提供生成内容的自一致性距离来确保输出的可信度。

  此外,研究团队还提出了一个大规模的图表转换为字典的基准测试。这些图表涵盖了广泛的主题和类型,并包括英语和中文内容。实验证明,尽管只有2亿 参数,OneChart 在结构提取方面实现了最先进的性能。在缺乏数值标注的图表中,与次优方法相比,其平均精度(AP)提高了19.1% ~29.4%。作为图表解析代理,它还为下游的 ChartQA 基准测试带来了11.2% 的准确率增益,对于 LLaVA-1.6和 LLaVA-1.5分别提高了32.6% 和11.2%。

  在传统的图表问答基准测试中,通常局限于从图表中查询小的、孤立的信息片段,例如单个数值,这可能无法有效地衡量模型提取和理解图表中呈现的全部数据的能力。相比之下,OneChart 旨在建立一个以结构提取(SE)任务为中心的基准测试,直接评估模型将图表图像转换为结构化 Python 字典表示的准确性。它包括五个数据集部分,其中一个是 ChartY-zh(2,048个样本),其他是 ChartQA-SE(1,509个样本)、PlotQA-SE(33,657个样本)、ChartX-SE(2,360个样本)、ChartY-en(4,000个样本)。

  研究团队提出的 OneChart 在图表结构提取方面取得了令人瞩目的成绩,为解决图表解析中的挑战提供了新的思路和方法。

+1

来源:站长之家

延展资讯