科技魔方

Meta开源长视频LLM项目LongVU:可过滤重复帧 高效精准理解长视频内容

更多场景

2024年10月28日

  Meta AI团队推出了LongVU,一种新型的时空自适应压缩机制,旨在提升长视频的语言理解能力。

  该技术利用DINOv2特征剔除冗余帧,通过跨模态查询实现特征选择性压缩,在各种视频理解基准测试中表现优异,尤其在长视频理解任务中超越其他方法。

  长视频内容的快速增长需要更加高效的处理方式,LongVU的推出为多模态理解领域带来新的可能性。

  LongVU是一种新型的时空自适应压缩机制,旨在提升长视频的语言理解能力。

  该技术利用DINOv2特征剔除冗余帧,并通过跨模态查询实现特征选择性压缩。

  LongVU在各种视频理解基准测试中表现优异,尤其在长视频理解任务中,超越了其他方法。

692 +1

来源:科技魔方

延展资讯