科技魔方
  • 研究方向
  • 字节跳动推视频编辑工具MagicEdit 支持局部编辑、视频混合

    MagicEdit 是一款视频编辑工具,由字节跳动开发。它可以高保真度和时间连贯性地编辑视频,通过学习明确区分外观和动作。

  • 站长之家
  • 766 0
  • 阿里达摩院开源开放域文本理解大模型SeqGPT

    阿里达摩院宣布,自研开放域文本理解大模型登陆魔搭社区。

  • 站长之家
  • 693 0
  • 开源声音与音乐生成模型AudioLDM2 只需提供文本即可生成高质量音频

    最近,一款优秀的开源声音与音乐生成模型AudioLDM2在 GitHub 上引起了关注。这个模型的运行速度很快,可以生成节奏、音效和基本对话。它操作简单,并具有强大的提示样式鲁棒性。

  • 站长之家
  • 586 0
  • 视觉语言模型BLIVA:让AI更擅长阅读图像中的文本 懂得看路牌和食品包装

    BLIVA 是一种视觉语言模型,擅长读取图像中的文本,使其在许多行业的现实场景和应用中发挥作用。

  • 站长之家
  • 559 0
  • Meta 发布多语言语音翻译模型 SeamlessM4T:可翻译多达 100 种语言、语音或文本

    周二,Meta宣布推出SeamlessM4T,一种用于语音和文本翻译的多模态人工智能模型。

  • 站长之家
  • 705 0
  • SimDA:一种高效视频生成方法

    来自中国科学院自动化研究所、腾讯公司和香港中文大学的研究人士提出了一种名为 Simple Diffusion Adapter (SimDA) 的方法,用于实现高效的文本到视频生成。

  • 站长之家
  • 547 0
  • Runway免费平替!文生视频AI工具Pika Labs 让你30秒“拍出”广告大片

    PikaLabs 是一款强大的文本转视频平台,它能够根据用户输入的提示词和参考图片,生成具有动态转换和流畅转场的短视频。

  • 站长之家
  • 899 0
  • 视频版ControlNet开源 CoDeF靠提示词就能精准切换画风

    最新视频处理算法CoDeF 发布不久就引起网友热议,它能将原视频改变画风但保持其他细节不变。该算法由全华人团队开发,已在 GitHub 上开源。

  • 站长之家
  • 658 0
  • DragNUWA :一个可以实现精细控制的视频生成模型

    DragNUWA 是一种基于扩散算法的视频生成模型,DragNUWA 模型旨在解决视频生成中的精细控制问题。该模型通过引入文本、图像和轨迹信息,并从语义、空间和时间角度提供精细控制。

  • 站长之家
  • 540 0
  • 右脑科技RightBrain AI旗下AI视频创作Video Studio功能开启内测

    右脑科技(RightBrain AI)宣布Video Studio AI视频创作功能开启内测,支持定制视频模型,一键视频风格切换、特效生成、拖拽式视频创作。

  • 站长之家
  • 662 0
  • -------------没有了-------------

    图赏更多>