近日,H2O.ai 宣布推出两款新型视觉语言模型,旨在提升文档分析和光学字符识别(OCR)任务的效率。这两款模型分别是 H2OVL Mississippi-2B 和 H2OVL-Mississippi-0.8B,它们在性能上与大型科技公司的模型相比,展现出令人瞩目的竞争力,可能为处理文档繁重工作流的企业提供更为高效的解决方案。
H2OVL Mississippi-0.8B 模型虽然只有8亿参数,却在 OCRBench 文本识别任务中超越了所有其他模型,包括那些拥有数十亿参数的竞争对手。而20亿个参数的 H2OVL Mississippi-2B 模型则在多项视觉语言基准测试中表现不俗。
H2O.ai 将这两款新模型免费发布在 Hugging Face 平台上,允许开发者和企业根据自身需求对模型进行修改和适应。这一举措不仅扩大了 H2O.ai 的用户基础,也为希望采用文档 AI 解决方案的企业提供了更多选择。