本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区。
文生图平台Playground宣布开源Playground V2版本,允许商业化,用户通过文本就能生成3D、动漫、素描、朋克、暗黑等多种类型1024x1024图片,同时提供免费在线体验。
Playground V2是基于Stable Diffusion XL开发而成,还从Midjourney搜集了10个类别,每个类别包含3000个样本的高质量图片用于图文对齐。
根据测试数据显示,在超过1000个文本提示中,Playground V2生成图片的受欢迎程度远远超过Stable Diffusion XL。
Playground V2是在Stable Diffusion XL基础上开发的,所以架构上二者几乎差不多。但其从Midjourney搜集的10个类别的高质量样本,在数据微调时发挥了关键作用。
Playground V2采用了更大参数的UNet作为主干模型,是之前Stable Diffusion模型的3倍。
同时额外添加了多个模块包括:基于Fourier特征编码的大小及裁剪坐标条件,用于控制生成图像中对象位置;
基于多个宽高比的多宽高比训练,生成不同形状比例的图像;文本编码器方面使用CLIP ViT-L和OpenCLIP ViT-bigG的特征拼接。此外还采用了独立的细节增强网络来提升主模型生成图像的视觉质量。
此外,考虑到真实图像分辨率及宽高比差异很大,研究人员为使模型适应不同宽高比的训练数据,收集了20种不同宽高比的数据,尽量保证像素数接近1024*1024,通过在训练时切换宽高比数据进行模型微调。
Playground V2生成的图片在光线搭配、阴暗对比、还原文本描述、色彩等方面,都非常不错,无法使用Midjourney、DALL·E3和Stable Difusion的小伙伴们可以试试。
蛇缠绕着女人,非常美丽,水粉画,电影风格,书法线条,黑暗,怪异,神秘,现代复古,丰富的深色,波西米亚风格。
女孩和熊,复杂的皮毛和织物纹理,数字绘画、发光效果、超精细、戏剧性的灯光,女孩的表情令人回味。
蛋糕卷和草莓,干净的白色背景,写实风格,3D效果
超美味的牛排,电影效果,专业美食摄影,影棚灯光,影棚背景,广告摄影,复杂细节,超细致,超真实,8K超高清。
盘子里盛满了色彩缤纷的寿司卷、天妇罗蔬菜和小碗里冒着热气的味噌汤。新鲜的鱼切片,视觉和气味令人陶醉。米醋、芥末酱、腌姜、酱油和绿茶,让每一口食物都更加美味。8K超高清,写实。
戴黑帽子的女巫,穿着黑色连衣裙,巴洛克风格,时尚拍摄,微妙色调的背景,超级微距,,复杂逼真的细节,影棚效果,动态照片,专业照片,工作室摄影,8K超逼真,写实风格。
灰色的外星人,呈现出不同色调的蛇皮纹理,融合了机器人颈部特征,超大迷人的眼睛反射着镜面全息效果,站在全息森林沼泽中,戴着有毛利金丝装饰的威尼斯铁面具,8K超高清。