LCM-LoRA是什么？它如何让实时生成 AI 艺术成为现实

　　生成 AI 艺术已经成为新技术中最有趣和受欢迎的应用之一，例如 Stable Diffusion 和 Midjourney 等模型已经吸引了数百万用户的使用，此外，OpenAI 还在今年秋季将其 DALL-E3图像生成模型直接集成到其流行的 ChatGPT 服务中。通过简单地描述一幅图像，用户只需等待几秒钟或几分钟，就能在屏幕上看到由 AI 算法生成的图像。

　　然而，用户需要等待这几秒钟或几分钟对于我们快节奏、即时满足的现代社会来说并不理想。

　　因此，本周，网络上的 AI 艺术社区对一种新的机器学习技术 - LCM-LoRA 感到兴奋，它由中国清华大学的 IIIS 研究人员和 AI 代码共享平台 HuggingFace 共同开发，并在预评审开放获取研究网站 arXiv.org 上发布了一篇论文，该技术终于实现了实时生成 AI 艺术。

　　基本上，由于 LCM-LoRA 技术的出现，用户现在可以移动鼠标、绘制简单的画或应用几个形状，以及配上描述性的文本，AI 艺术创作应用程序(如 Krea.AI 和 Fal.AI)将自动即时地呈现不同的、新的生成艺术作品，甚至在用户在数字画布上移动形状或绘制简单线条时，能在几分之一秒内交换图像。

　　你可以在这里自己试试:Fal.AI(只要服务器不因使用量过大而崩溃)。

　　这项技术不仅适用于平面的2D 图像，还适用于3D 模型，这意味着艺术家理论上可以快速创建沉浸式环境，用于混合现实(AR/VR/XR)、电脑和视频游戏以及其他体验。理论上，它们也可以用于电影制作，大大加快和降低制作成本。

　　“一切都将发生变化”，一位初创公司创始人和前 Google AI 工程师在 LinkedIn 上评论了 LCM-LoRA，这是 AI 艺术社区中许多人的共识。

　　“全新的生成 AI 时代即将到来”，另一位 X 用户评论道。

　　宾夕法尼亚大学沃顿商学院教授伊桑・莫利克是生成 AI 领域最活跃和最有影响力的倡导者之一，他认为 “我们很快将看到许多新的用户体验”，这要归功于 LCM-LoRA 技术。

　　那么 LCM-LoRA 是什么，它是如何工作的呢?

　　早期的 LCM-LoRA 集成应用的演示无疑非常吸引人，并且对于我这样的 AI 艺术家来说，它似乎是生成 AI 在视觉艺术领域的一个重要时刻。

　　但是，LCM-LoRA 背后的技术进步是什么，它能否在不同的应用和用途中扩展，就像早期用户所暗示的那样呢?

　　根据清华大学 IIIS 研究人员和 HuggingFace 发表的一篇论文，LCM-LoRA 最终是一个 “通用的、无需训练的加速模块，可以直接插入各种经过 Stable Diffusion 精调的模型或 SD LoRAs 中”。

　　对于不了解机器学习领域的人来说，这可能有些晦涩，但用更通俗的语言解释，它本质上是一个算法，通过减少 “所需的采样步骤”，即 AI 模型必须经过的过程，将文本或源图像(无论是描述还是简笔画)转化为基于 Stable Diffusion 模型从数百万图像中学到的更高质量、更详细的图像。

　　这意味着 LCM-LoRA 使 Stable Diffusion 模型能够更快地工作，使用更少的计算资源，因此它们不需要占据用户计算机上的太多工作内存或运算周期。这就是它能够实时生成令人惊叹的结果的原因。

　　“通用” 意味着它可以被插入到各种依赖 Stable Diffusion 或其变种来生成图像的应用程序中。但它是否可以扩展到 Stable Diffusion 以外的模型，例如 OpenAI 的 DALL-E3或 Midjourney，尚待观察。

LCM-LoRA是什么？它如何让实时生成 AI 艺术成为现实

延展资讯