视频生成模型“VideoWorld”开源：无需语言模型即可认知世界

首页 更多场景 正文: 视频生成模型“VideoWorld”开源：无需语言模型即可认知世界; 更多场景

2025年02月10日

668
点赞; 　　今日，豆包大模型团队联合北京交通大学、中国科学技术大学共同发布了视频生成实验模型“VideoWorld”，并宣布其代码正式开源。与主流多模态模型如Sora、DALL-E和Midjourney不同，VideoWorld在业界首次实现了无需依赖语言模型即可认知世界。

　　现有模型大多依赖语言或标签数据来学习知识，而VideoWorld则专注于纯视觉信号的学习。例如，折纸、打领结等复杂任务难以通过语言清晰表达，而VideoWorld通过去除语言模型，实现了对这些任务的理解和推理。此外，该模型基于潜在动态模型，能够高效压缩视频帧间的变化信息，显著提升知识学习效率。

　　值得一提的是，VideoWorld在不依赖任何强化学习搜索或奖励函数机制的前提下，达到了专业5段9x9围棋水平，并能够在多种环境中执行机器人任务。这一创新为视频生成技术开辟了新的发展方向。

669 +1; 豆包大模型大模型模型; 来源：科技魔方