Meta AI团队推出了LongVU,一种新型的时空自适应压缩机制,旨在提升长视频的语言理解能力。
该技术利用DINOv2特征剔除冗余帧,通过跨模态查询实现特征选择性压缩,在各种视频理解基准测试中表现优异,尤其在长视频理解任务中超越其他方法。
长视频内容的快速增长需要更加高效的处理方式,LongVU的推出为多模态理解领域带来新的可能性。
LongVU是一种新型的时空自适应压缩机制,旨在提升长视频的语言理解能力。
该技术利用DINOv2特征剔除冗余帧,并通过跨模态查询实现特征选择性压缩。
LongVU在各种视频理解基准测试中表现优异,尤其在长视频理解任务中,超越了其他方法。