科技魔方

革命性视频合成工具MAGVIT-v2 将视觉内容转化为大模型的标记

大模型

2023年10月12日

  最近,卡内基梅隆大学、Google研究以及乔治亚理工学院联合推出了一项名为MAGVIT-v2的视频标记工具,它成功地将图像和视频输入转化为大型语言模型(LLM)可识别的标记。

  MAGVIT-v2的独特算法让开发者可以实现令人惊叹的应用。从全景视频到智能去除、图像转动动画,再到自动翻转等等。MAGVIT不仅为创作者提供无限灵感,还为视频编辑带来前所未有的便捷性。

  通过MAGVIT-v2的应用,LLM在视觉生成任务中的表现已明显超越了传统的扩散模型。视频标记化是将视觉内容(如图像或视频)转化为大型语言模型能够理解和处理的标记的过程。MAGVIT-v2的问世,毫无疑问为大型语言模型在视觉任务方面提供了崭新的机遇。

  在视觉生成任务方面,这一新型标记工具已经展现出极大的潜力,可以明显改善模型的表现。总的来看,MAGVIT-v2的发布,预示着视觉生成领域的一次重大突破。

+1

来源:站长之家

延展资讯