科技魔方

表格、图表统统拿下!阿里达摩院开源DocOwl1.5无需OCR,高效“读懂”文档!

软件应用

2024年10月21日

  阿里巴巴达摩院与中国人民大学联合开源了mPLUG-DocOwl1.5文档处理模型,无需OCR即可理解文档内容,在多个视觉文档理解基准测试中表现领先。

  该模型强调结构信息的重要性,提出“统一结构学习”来提升MLLM性能。

  mPLUG-DocOwl1.5无需OCR即可理解文档内容,在视觉文档理解基准测试中领先。

  强调结构信息对于文档理解的重要性,提出“统一结构学习”来提升MLLM性能。

  提供了开源代码、模型和数据集,取得了在多个下游任务中的最先进性能。

+1

来源:科技魔方

延展资讯