Yann LeCun：生成模型不适合处理视频，AI 理解视频得在抽象空间中进行预测

　　根据图灵奖得主、Meta 首席 AI 科学家在世界经济论坛上的讲话，生成模型不适合处理视频，AI得在抽象空间中进行预测。在互联网文本数据即将枯竭之际，很多 AI 研究者将目光转向了视频。但如何让 AI 理解视频数据成了新的难题。

　　斯坦福大学教授指出了理解因果关系对于构建未来AI系统的重要性。

　　Yann LeCun认为，适合用来处理视频的模型并不是我们现在大范围应用的生成模型，新的模型应该学会在抽象的表征空间中预测，而不是在像素空间中。

　　视频预测的难题主要在于像素空间的复杂性，以及对于物体摆放方式和运动轨迹的预测。这些具体的像素空间预测都很困难，导致传统生成模型在视频处理中效果不佳。视频输入需要新的架构来处理，以在抽象表征空间中进行预测。

　　AI系统需要在抽象表征空间中进行预测，而不是在具体的像素空间，同时也需要理解因果关系。当前模型中缺失的重要能力是理解因果关系，尤其在与物质世界的交互中更为重要。

　　为了解决视频处理中的难题，需要创造新的科学方法和技术，使AI系统能够像人类一样利用信息。这将需要一些科学和技术上的突破，对于在制造业、生物学等领域进行常识推理都具有重要意义。