图像最新相关新闻-科技魔方_中文AI大模型门户网站

图像最新相关新闻

谷歌发布开源视觉语言模型PaliGemma 支持多视觉语言任务

谷歌推出了一款名为PaliGemma的开源视觉语言模型，该模型结合了图像处理和语言理解的能力，旨在支持多种视觉语言任务，如图像和短视频字幕生成、视觉问答、图像文本理解、物体检测、文件图表解读以及图像分割等。

站长之家谷歌大模型语言图像

562

OpenAI 发布最新旗舰大模型 GPT-4o

OpenAI 发布最新旗舰大模型 GPT-4o，所有用户都可以免费使用!该模型提供了 GPT-4 级别的 AI 能力，接受文本、音频和图像的任意组合输入，并能够生成文本、音频和图像的任意组合输出。

Donews OpenAI大模型图像

648

新一代多模态内容生成模型Lumina-T2X 生成质量更高，成本更低

Lumina-T2X 是一个创新的内容生成系列模型，它采用了统一的 DiT(Diffusion Model)架构，能够通过文本生成图像、视频、多视角3D 对象以及音频剪辑。

站长之家 大模型文本图像视频

642

StyleMamba：一种高效的文本驱动图像风格转换的ai模型

近期，来自伦敦帝国理工学院和戴尔的研究团队推出了 StyleMamba，这是一种有效的框架，用于转移图片风格，通过使用文本来指导风格化过程，同时保持原始图像内容。

站长之家 StyleMamba大模型图像

657

OpenAI开发全新AI人机对话技术支持识别物体和图像

据The Information消息，OpenAI正筹备展示一种革命性的人机对话技术。据可靠消息，这一技术将结合声音和文本，不仅能与用户进行流畅的交流，还具备识别物体和图像的能力，为用户带来前所未有的交互体验。

站长之家 OpenAIAI人机对话图像

561

华为PixArt-Σ放出模型文件可在Comfyui使用

最近，华为的4K图像模型PixArt-Σ放出了模型文件，而且diffusers也支持了这个架构，用户可以在Comfyui上尝试。

站长之家华为图像大模型

550

Cog-Become-Image：将任意人物图像转换成指定风格的图

GitHub 上的 fofr/cog-become-image 项目是一个创新的图像转换工具，它能够将任意人物的面部图像转换成另一种风格的图片。这项技术的应用范围非常广泛，包括但不限于艺术创作、媒体制作和娱乐行业。

站长之家图像大模型

600

新ID保持项目PuLID：图像背景、光线、风格等均保持高度一致

PuLID是一个新兴的ID保持项目，它在提升ID保持效果的同时，还致力于最小化对原始模型的影响。

站长之家图像大模型模型

700

Photoshop重大更新！集成Adobe Firefly Image 3 Model 图像灵活度提升

AdobePhotoshop迎来了一次重大更新，通过集成Adobe Firefly Image3Model，引入了多项新的AI功能，这些功能大幅提升了图像编辑的深度与灵活性。

站长之家 PhotoshopAdobe图像大模型

610

Adobe发布新一代图像生成模型Firefly Image3，号称迄今为止最好

Adobe 发布了 Firefly 图像生成模型的最新版本，名为 Firefly Image3，声称具有 “摄影细节” 的图像生成能力。

站长之家 Adobe图像大模型

523

新视频分割技术SAM 可高效识别移动物体

在视频分割领域，Segment Anything 模型(SAM)被用于探索新的视频对象分割技术。研究团队测试了两种不同的模型，旨在结合 SAM 的分割能力和光流技术的优势，以提高视频分割的性能。

站长之家视频大模型图像

545

Midjourney发布random功能可基于提示词生成完全随机的图像风格

今天，Midjourney发布了一个有趣的功能，可以基于提示词生成完全随机的图像风格。使用方式:在提示词后添加 --sref random，如果找到了喜欢的风格可以通过 --sref url 将风格迁移到新图片上。

站长之家 Midjourney图像大模型

593

字节跳动发布图像模型蒸馏算法Hyper-SD 推理速度更快更完美

字节跳动的Lightning团队发布的新图像模型蒸馏算法Hyper-SD，是一项在图像处理和机器学习领域的重要进展。这项技术通过创新的方法提升了模型在不同推理步骤下的性能，同时保持了模型大小的精简。

站长之家 字节跳动图像大模型算法

687

MoA：用于图片合成的混合注意力架构可实现风格参考和人物融合

在最新的研究中，提出了一种名为注意力混合模式(MoA)的新架构，旨在个性化文本到图像扩散模型，可以实现风格参考和人物融合的效果。

站长之家图片大模型文本图像

515

InstantMesh：只需10秒就能从图片转3D模型

InstantMesh是一项突破性的技术，能够从单张图像快速生成高质量的三维网格模型。这项技术利用了前馈框架，结合了多视图扩散模型和基于大规模重建模型(LRM)的稀疏视图重建技术，极大地优化了3D资产的创建过程。

站长之家 InstantMesh图像模型大模型

608

模型未发API先至！Stable Diffusion 3 API 发布性能比肩 Midjourney v6

Stability AI 最近宣布了一个激动人心的消息:其开发者平台API现已支持最新版本的Stable Diffusion3(SD3)及其增强版本Stable Diffusion3Turbo。

科技魔方模型大模型AI图像

547

北大字节开辟图像生成新范式，超越Sora核心组件DiT，不再预测下一个token

实验数据上，这个名为VAR(Visual Autoregressive Modeling)的新方法不仅图像生成质量超过DiT等传统SOTA，推理速度也提高了20+倍。

量子位公众号北大字节大模型图像

684

谷歌将免费提供3款，生成式AI图像编辑工具

4月11日，谷歌在官网宣布从5月15日起，将向所有谷歌相册用户免费提供Magic Editor、Photo Unblur和Magic Eraser三款生成式AI编辑工具。

AIGC开放社区公众号谷歌大模型图像编辑

643

AI图像编辑软件DesignEdit 像PS一样分图层处理图片

DesignEdit是一款突破性的图像编辑软件，它采用了设计领域中常见的图层概念，为用户带来了一种全新的空间感知图像编辑体验。

站长之家 AI图像DesignEdit大模型图像

510

AI图像编辑工具Facet AI 实时图像生成，可精确控制图像元素

FacetAI是一款创新的图像编辑工具，它以其独特的功能和用户友好的操作界面，为广告制作和产品图像设计领域带来了革命性的变化。这款工具的核心优势在于其精确控制图像元素的能力，使得用户可以轻松地对图像进行实时编辑和

站长之家 AI图像FacetAI图像

539

Meta推新框架OPT2I 提高SD图像生成一致性

Meta公司最近推出了一款名为OPT2I的新框架，该框架利用大型语言模型(LLM)来提高SD 图像从提示词到图像(T2I)的生成过程中的一致性。

站长之家 Meta框架图像

701

DALL-E将推图片编辑功能生成图像可局部重绘

DALL-E即将推出图片的编辑功能，类似于局部重绘。这意味着用户可以通过画笔涂抹指定区域，然后对该区域进行重绘。这一功能的推出将为用户提供更多的创作可能性，让他们能够更加灵活地编辑和调整图像。

站长之家 DALL-E图片图像

667

Freepik推出Reimagine AI 支持无限滚动实时生成图像

Freepik最近推出了一款名为ReimagineAI的工具，这款工具的推出无疑为图片处理带来了全新的体验。

站长之家 Freepik图像工具

680

SD3-Turbo：基于LADD的快速文本到图像生成模型

SD3模型还未发布，SD3-Turbo又来了!近日，一篇关于SD3-Turbo的论文引起了广泛关注。该论文主要介绍了Stability AI升级过的蒸馏技术LADD，以及其在SD3-Turbo模型上的应用效果。

站长之家 SD3模型大模型图像模型

521

57 1 2 3 下一页尾页

-------------没有了-------------

图赏更多>

: 2024年4月中国彩电内容电商市场总结

: iQOO Pad2系列官宣：5月31日预售

: 剪映已支持杜比视界 HDR 格式视频制作，目前仅苹果设备可用

: 线上市占率超美菱新飞、逼近小米统帅，冰箱“搅局者”是谁？

: Redmi Turbo 3镜瓷白配色发布：今晚开售

: OPPO K12x手机今日首销：骁龙695处理器、5500mAh电池，1299元起

最热新闻最新新闻 更多>

用户推荐最热产品 更多>

倾城

小新

张影

创维电视（SKYWORTH）55V40

小米全面屏电视E43K

康佳（KONKA）55D6S

荣泰S60按摩椅

自媒体头条更多>: 极致听感智能降噪三星Galaxy Buds Pro诠释非同凡“响”

未来科技范试驾摩灵MOi｜视频

品牌专区更多>