Google AI 推出的 Mirasol3B 是一种创新的多模态自回归模型,能够处理音频、视频和文本等不同模态的数据。该模型通过采用多模态自回归结构,将时间对齐和上下文模态分开建模,并通过交叉注意力机制实现模态之间的信息交换。
Mirasol3B 还应用了自回归建模到时间对齐的模态中,通过智能分块和学习模块 Combiner 协调视频和音频信号,从而有效地处理长视频输入。该模型在各项评估中表现出色,并且相较于更大的模型,在文本生成方面表现出更好的泛化能力。
Mirasol3B 的创新思路和高性能使其成为解决多模态机器学习问题的重要进展,为实际应用提供了强大的多模态理解能力。作为多模态领域的进步标志,Mirasol3B 在不断探索 AI 模型理解世界复杂性的道路上起到了积极的推动作用。