科技魔方
  • 图像最新相关新闻
  • 谷歌发布开源视觉语言模型PaliGemma 支持多视觉语言任务

    谷歌推出了一款名为PaliGemma的开源视觉语言模型,该模型结合了图像处理和语言理解的能力,旨在支持多种视觉语言任务,如图像和短视频字幕生成、视觉问答、图像文本理解、物体检测、文件图表解读以及图像分割等。

  • 站长之家 谷歌大模型语言图像
  • 562 0
  • OpenAI 发布最新旗舰大模型 GPT-4o
    OpenAI 发布最新旗舰大模型 GPT-4o

    OpenAI 发布最新旗舰大模型 GPT-4o,所有用户都可以免费使用!该模型提供了 GPT-4 级别的 AI 能力,接受文本、音频和图像的任意组合输入,并能够生成文本、音频和图像的任意组合输出。

  • Donews OpenAI大模型图像
  • 648 0
  • 新一代多模态内容生成模型Lumina-T2X 生成质量更高,成本更低

    Lumina-T2X 是一个创新的内容生成系列模型,它采用了统一的 DiT(Diffusion Model)架构,能够通过文本生成图像、视频、多视角3D 对象以及音频剪辑。

  • 站长之家 大模型文本图像视频
  • 642 0
  • StyleMamba:一种高效的文本驱动图像风格转换的ai模型

    近期,来自伦敦帝国理工学院和戴尔的研究团队推出了 StyleMamba,这是一种有效的框架,用于转移图片风格,通过使用文本来指导风格化过程,同时保持原始图像内容。

  • 站长之家 StyleMamba大模型图像
  • 657 0
  • OpenAI开发全新AI人机对话技术 支持识别物体和图像

    据The Information消息,OpenAI正筹备展示一种革命性的人机对话技术。据可靠消息,这一技术将结合声音和文本,不仅能与用户进行流畅的交流,还具备识别物体和图像的能力,为用户带来前所未有的交互体验。

  • 站长之家 OpenAIAI人机对话图像
  • 561 0
  • 华为PixArt-Σ放出模型文件 可在Comfyui使用

    最近,华为的4K图像模型PixArt-Σ放出了模型文件,而且diffusers也支持了这个架构,用户可以在Comfyui上尝试。

  • 站长之家 华为图像大模型
  • 550 0
  • Cog-Become-Image:将任意人物图像转换成指定风格的图

    GitHub 上的 fofr/cog-become-image 项目是一个创新的图像转换工具,它能够将任意人物的面部图像转换成另一种风格的图片。这项技术的应用范围非常广泛,包括但不限于艺术创作、媒体制作和娱乐行业。

  • 站长之家 图像大模型
  • 600 0
  • 新ID保持项目PuLID:图像背景、光线、风格等均保持高度一致

    PuLID是一个新兴的ID保持项目,它在提升ID保持效果的同时,还致力于最小化对原始模型的影响。

  • 站长之家 图像大模型模型
  • 700 0
  • Photoshop重大更新!集成Adobe Firefly Image 3 Model 图像灵活度提升

    AdobePhotoshop迎来了一次重大更新,通过集成Adobe Firefly Image3Model,引入了多项新的AI功能,这些功能大幅提升了图像编辑的深度与灵活性。

  • 站长之家 PhotoshopAdobe图像大模型
  • 610 0
  • Adobe发布新一代图像生成模型Firefly Image3,号称迄今为止最好

    Adobe 发布了 Firefly 图像生成模型的最新版本,名为 Firefly Image3,声称具有 “摄影细节” 的图像生成能力。

  • 站长之家 Adobe图像大模型
  • 523 0
  • 新视频分割技术SAM 可高效识别移动物体

    在视频分割领域,Segment Anything 模型(SAM)被用于探索新的视频对象分割技术。研究团队测试了两种不同的模型,旨在结合 SAM 的分割能力和光流技术的优势,以提高视频分割的性能。

  • 站长之家 视频大模型图像
  • 545 0
  • Midjourney发布random功能 可基于提示词生成完全随机的图像风格

    今天,Midjourney发布了一个有趣的功能,可以基于提示词生成完全随机的图像风格。使用方式:在提示词后添加 --sref random,如果找到了喜欢的风格可以通过 --sref url 将风格迁移到新图片上。

  • 站长之家 Midjourney图像大模型
  • 593 0
  • 字节跳动发布图像模型蒸馏算法Hyper-SD 推理速度更快更完美

    字节跳动的Lightning团队发布的新图像模型蒸馏算法Hyper-SD,是一项在图像处理和机器学习领域的重要进展。这项技术通过创新的方法提升了模型在不同推理步骤下的性能,同时保持了模型大小的精简。

    MoA:用于图片合成的混合注意力架构 可实现风格参考和人物融合

    在最新的研究中,提出了一种名为注意力混合模式(MoA)的新架构,旨在个性化文本到图像扩散模型,可以实现风格参考和人物融合的效果。

  • 站长之家 图片大模型文本图像
  • 515 0
  • InstantMesh:只需10秒就能从图片转3D模型

    InstantMesh是一项突破性的技术,能够从单张图像快速生成高质量的三维网格模型。这项技术利用了前馈框架,结合了多视图扩散模型和基于大规模重建模型(LRM)的稀疏视图重建技术,极大地优化了3D资产的创建过程。

    模型未发API先至!Stable Diffusion 3 API 发布 性能比肩 Midjourney v6

    Stability AI 最近宣布了一个激动人心的消息:其开发者平台API现已支持最新版本的Stable Diffusion3(SD3)及其增强版本Stable Diffusion3Turbo。

  • 科技魔方 模型大模型AI图像
  • 547 0
  • 北大字节开辟图像生成新范式,超越Sora核心组件DiT,不再预测下一个token

    实验数据上,这个名为VAR(Visual Autoregressive Modeling)的新方法不仅图像生成质量超过DiT等传统SOTA,推理速度也提高了20+倍。

  • 量子位公众号 北大字节大模型图像
  • 684 0
  • 谷歌将免费提供3款,生成式AI图像编辑工具

    4月11日,谷歌在官网宣布从5月15日起,将向所有谷歌相册用户免费提供Magic Editor、Photo Unblur和Magic Eraser三款生成式AI编辑工具。

  • AIGC开放社区公众号 谷歌大模型图像编辑
  • 643 0
  • AI图像编辑软件DesignEdit 像PS一样分图层处理图片

    DesignEdit是一款突破性的图像编辑软件,它采用了设计领域中常见的图层概念,为用户带来了一种全新的空间感知图像编辑体验。

    AI图像编辑工具Facet AI 实时图像生成,可精确控制图像元素

    FacetAI是一款创新的图像编辑工具,它以其独特的功能和用户友好的操作界面,为广告制作和产品图像设计领域带来了革命性的变化。这款工具的核心优势在于其精确控制图像元素的能力,使得用户可以轻松地对图像进行实时编辑和

  • 站长之家 AI图像FacetAI图像
  • 539 0
  • Meta推新框架OPT2I 提高SD图像生成一致性

    Meta公司最近推出了一款名为OPT2I的新框架,该框架利用大型语言模型(LLM)来提高SD 图像从提示词到图像(T2I)的生成过程中的一致性。

  • 站长之家 Meta框架图像
  • 701 0
  • DALL-E将推图片编辑功能 生成图像可局部重绘

    DALL-E即将推出图片的编辑功能,类似于局部重绘。这意味着用户可以通过画笔涂抹指定区域,然后对该区域进行重绘。这一功能的推出将为用户提供更多的创作可能性,让他们能够更加灵活地编辑和调整图像。

  • 站长之家 DALL-E图片图像
  • 667 0
  • Freepik推出Reimagine AI 支持无限滚动实时生成图像

    Freepik最近推出了一款名为ReimagineAI的工具,这款工具的推出无疑为图片处理带来了全新的体验。

  • 站长之家 Freepik图像工具
  • 680 0
  • SD3-Turbo:基于LADD的快速文本到图像生成模型

    SD3模型还未发布,SD3-Turbo又来了!近日,一篇关于SD3-Turbo的论文引起了广泛关注。该论文主要介绍了Stability AI升级过的蒸馏技术LADD,以及其在SD3-Turbo模型上的应用效果。

  • 站长之家 SD3模型大模型图像模型
  • 521 0
  •  57    1 2 3 下一页 尾页

    -------------没有了-------------

    图赏更多>