近日,百度飞桨团队宣布推出基于文心大模型的通用图像关键信息抽取工具——PP-ChatOCR。它结合了 OCR 文字识别和大模型技术,可以在多种场景下提取图像中的关键信息。
PP-ChatOCR 的核心思想是利用大模型的泛化能力和规则化处理,将 OCR 识别结果传递给文心大模型进行信息提取。PP-ChatOCR 的技术框架包括 OCR 推理、场景判别、Prompt 构造和后处理等步骤。
百度表示,使用 PP-ChatOCR 可以快速搭建通用的图像关键信息抽取系统,降低开发成本。对于个性化的需求,可以针对业务场景进行优化,包括微调 OCR 模型和调整大模型输出。PP-ChatOCR 已经在多个场景中取得了良好的精度和稳定性。