科技魔方
  • 研究方向
  • MotionDirector:AI定制视频新方法

    最新研究指出,文本到视频传播模型在最近取得了显著进展,用户只需提供文本描述,就可以创建逼真或富有想象力的视频。这些基础模型还被调整以生成与特定外观、风格和主题匹配的图像。

  • 站长之家
  • 672 0
  • Mini- DALLE 3:提高大模型的文本到图像生成技术

    近年来,文本到图像(T2I)模型的快速发展为人工内容生成带来了革命性的变化,这些模型在不到两年的时间内就能够生成高质量、多样性和创造性的图像。

  • 站长之家
  • 718 0
  • 视频编辑器CapCut:针对人工智能驱动的脚本生成工具

    CapCut 是字节跳动旗下的视频编辑应用程序,是该公司继 TikTok 之后第二个消费者支出突破1亿美元的应用程序,目前正在扩展到商业工具领域。

  • 站长之家
  • 640 0
  • 一站式音视频生产协作平台“分秒帧” 提供在线审片批注等功能

    分秒帧是一站式音视频生产协作平台,提供从在线审片批注、意见收集到成片交付,以及素材和版本管理、项目流程管控等全方位功能。

  • 站长之家
  • 575 0
  • Google AI推出SANPO:多属性视频数据集助力高级视觉场景理解

    Google AI最近推出了名为SANPO的数据集,旨在帮助AI模型更好地理解户外人类主观场景。这一数据集的重要性在于,它不仅包括真实世界的数据,还包括合成数据,以及丰富的注释和多属性特征。

  • 站长之家
  • 568 0
  • Kandinsky1:3.3亿参数强大模型,文本生成逼真图像

    最近几年,计算机视觉和生成建模领域取得了显著进展,推动了文本到图像生成的不断发展。各种生成架构,包括基于扩散的模型,在提高生成图像的质量和多样性方面发挥了关键作用。

  • 站长之家
  • 603 0
  • 卷完参数后 大模型公司又盯上了“长文本”?

    4000到40万token,大模型正在以“肉眼可见”的速度越变越“长”。

  • 微信公众号光锥智能
  • 564 0
  • 革命性视频合成工具MAGVIT-v2 将视觉内容转化为大模型的标记

    最近,卡内基梅隆大学、Google研究以及乔治亚理工学院联合推出了一项名为MAGVIT-v2的视频标记工具,它成功地将图像和视频输入转化为大型语言模型(LLM)可识别的标记。

  • 站长之家
  • 540 0
  • FAVOR:通过精细融合音频和视觉细节提升大模型视频理解能力
    FAVOR:通过精细融合音频和视觉细节提升大模型视频理解能力

    研究人员日前发布了一项名为"FAVOR"的创新技术,它能够在帧级别巧妙地融合音频和视觉细节,从而增强大型语言模型对视频内容的理解能力。

  • 站长之家
  • 636 0
  • Dropbox 推出视频应用程序,更新AI工具和网络界面

    Dropbox最近宣布一系列重大更新,旨在适应分布式虚拟工作的新时代。这些更新包括新的视频工具、AI工具的增强功能以及新的订阅计划,旨在提高工作效率和支持用户的不断增长的需求。

  • 站长之家
  • 568 0
  • -------------没有了-------------

    图赏更多>