今日,豆包大模型团队联合北京交通大学、中国科学技术大学共同发布了视频生成实验模型“VideoWorld”,并宣布其代码正式开源。与主流多模态模型如Sora、DALL-E和Midjourney不同,VideoWorld在业界首次实现了无需依赖语言模型即可认知世界。
现有模型大多依赖语言或标签数据来学习知识,而VideoWorld则专注于纯视觉信号的学习。例如,折纸、打领结等复杂任务难以通过语言清晰表达,而VideoWorld通过去除语言模型,实现了对这些任务的理解和推理。此外,该模型基于潜在动态模型,能够高效压缩视频帧间的变化信息,显著提升知识学习效率。
值得一提的是,VideoWorld在不依赖任何强化学习搜索或奖励函数机制的前提下,达到了专业5段9x9围棋水平,并能够在多种环境中执行机器人任务。这一创新为视频生成技术开辟了新的发展方向。