米兰·(milan)中国官方网站-打破GANs“垄断”｜OpenAI新研究：Diffusion Models 图文转换效果超越DALL

作者：米兰·(milan)文化更新时间：2026-04-20 13:32:14 点击数：

打破GANs“垄断”｜OpenAI新研究：Diffusion Models 图文转换效果超越DALL-E

作者| 莓酊、杏花编纂 | 青暮

之前，当咱们想拥有一副图象时，起首会做的就是找专业画师，将咱们对于丹青的要求一一描写，画师再按照需求醉墨淋漓一番。但这类方式需要泯灭必然的时间及人力成本，且结果纷歧定尽如人意。

如今，基在天然语言天生传神图象的东西使咱们可以或许以一种全新的方式轻松创立年夜量的高质量图象。利用天然语言编纂图象的能力进一步答应迭代细化及细粒度节制，这二者对于在实际世界的运用步伐都至关主要。

今朝，GANs（匹敌天生收集）于年夜大都图象天生使命上拥有开始进的技能，这些技能是经由过程样素质量来权衡的，例如FID，Inception Score 及 Precision等指标。

然而，此中一些指标不克不及彻底捕捉天生图象的多样性，且与开始进的基在似然度的模子比拟，GANs捕捉的多样性较少。此外，假如没有精心选择的超参数及正则化器，GANs于练习中常常翻车。

针对于这些问题，OpenAI的两位研究职员Prafulla Dhariwal及Alex Nichol便着眼在其他系统架构。2021年5月，这两论理学者发表了名为《Diffusion Models Beat GANs on Image Synthesis》的论文，证实了扩散模子于图象合成上优在今朝开始进的天生模子的图象质量。

打破GANs“垄断”｜OpenAI新研究：Diffusion Models 图文转换效果超越DALL-E

论文地址：https://openreview.net/pdf?id=AAWuCvzaVt

半年多的时间，Alex Nichol 及Prafulla Dhariwal再度联袂，领导团队在2021年12月20日发布了最新研究《GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models 》。

打破GANs“垄断”｜OpenAI新研究：Diffusion Models 图文转换效果超越DALL-E

论文地址：https://arxiv.org/pdf/2112.10741v1.pdf

以文本“萨尔瓦多·达勒（salvador daĺı）的超实际主义梦幻油画，画的是一只猫于跳棋”为例，GLIDE模子天生以下具备暗影及反射的传神图象，并以准确的方式组合多个观点，孕育发生新奇观点的艺术效果图。

打破GANs“垄断”｜OpenAI新研究：Diffusion Models 图文转换效果超越DALL-E

文章一出即于推特上引起广泛存眷，收成了无数业内子士的鲜花及掌声。

名为Kyle的网友暗示，他感觉这项研究超过了“渐进式增加GAN”到“StyleGAN”的边界。从尽是拙笨的呆板进修人工伪造物，到此刻忽然变患上与它模拟的真什物体险些没法分辩。

打破GANs“垄断”｜OpenAI新研究：Diffusion Models 图文转换效果超越DALL-E

连GLIDE的掉败案例都透着满满的优异感：它不会画有 8 条腿的猫......

打破GANs“垄断”｜OpenAI新研究：Diffusion Models 图文转换效果超越DALL-E

有网友发问：假如对于它提出指令“没人见过的工具”会天生甚么？

打破GANs“垄断”｜OpenAI新研究：Diffusion Models 图文转换效果超越DALL-E

Em......成果是没见过，但也不是彻底没见过。

打破GANs“垄断”｜OpenAI新研究：Diffusion Models 图文转换效果超越DALL-E

1天生能力逾越DALL-E

试验证实，扩散模子（Diffusion Models）可以天生高质量的合成图象，特别于与指导技能联合利用时，可以或许于保真度上衡量多样性。

作者们为文本前提下的图象合成问题的扩散模子，对于比了两种差别的引导计谋：CLIP guidance 及classifier-free guidance。尔后发明，于写实度及主题相似度方面，后者更受人类评估介入者的青睐，而且常常得到传神的样本。

利用classifier-free guidance的35亿参数文本前提扩散模子的样本收到的评价更高，令来自DALL-E的样本彻底“相形见拙”。GLIDE模子微调后还有可以修复图象，精彩完成文本驱动的图象编纂使命。

已经有的最新文本前提图象模子已经经可以做到按照格局多样的文本中合成图象，甚至可以“理解”语义，根据合理的逻辑组合绝不相干的客体。但于捕获响应文本并天生传神图象方面，还有略逊一筹。

无庸置疑，扩散模子是远景年夜为可不雅的天生模子系列，于诸多图象天生使命上到达了开始进的样素质量基准。

为了于类前提设置中实现真实感，作者们使用分类器引导加强扩散模子，扩散模子以分类器的标签作为前提。分类器起首于有噪声的图象长进行练习，于扩散采样历程中，利用分类器提供的梯度指导样本朝向标签。Salimans等人曾经经由过程利用无分类器的引导，未零丁练习的分类器中得到了近似成果，这给研究者们带来了灵感，于有标签扩散模子及无标签扩散模子的猜测之间举行插值。

受指导扩散模子天生传神样本的能力以和文本到图象模子处置惩罚自由情势提醒的能力的开导，研究职员将指导扩散运用在文本前提图象合成问题。起首，作者们练习了一个 35 亿参数扩散模子，该模子利用文本编码器以天然语言描写为前提。接下来，他们比力了两种将扩散模子指导至文本提醒的技能：CLIP 指导及无分类器指导。利用人工及主动评估，发明无分类器的引导孕育发生更高质量的图象。

研究职员发明GLIDE模子中，无分类器引导天生的样本绘声绘色，图象还有蕴涵着广泛的世界常识。由人类介入者评估后，遍及给出评价：GLIDE“创造”的效果优在 DALL-E。

打破GANs“垄断”｜OpenAI新研究：Diffusion Models 图文转换效果超越DALL-E

2扩散模子的潜力

于论文《Diffusion Models Beat GANs on Image Synthesis》中，研究职员经由过程一系列的溶解试验，以找到更好的扩散模子架构，实现无前提的图象合成。对于在前提图象合成，则利用分类器引导（使用分类器的梯度以来衡量样素质量-多样性）进一步提高了样素质量。

论文的作者们别离于ImageNet 128×128上到达2.97的FID，于ImageNet 256×256上到达4.59的FID，于ImageNet512×512上到达7.72的FID，而且纵然每一个样本只有25次正向通报，其天生图象质量依然可以匹配BigGAN-deep，同时连结了更好的漫衍笼罩率（多样性）。

末了，作者团队发明分类器引导与上采样扩散模子可以很好地联合于一路，从而将ImageNet512×512上的FID进一步降低到3.85。

DeepMind曾经在2018年于一篇 ICLR 2019 论文中提出了BigGAN，其时一经发表就引起了年夜量存眷，许多学者都不敢信赖AI竟能天生云云高质量的图象，这些天生图象的方针及配景都相称传神，界限也很天然。

打破GANs“垄断”｜OpenAI新研究：Diffusion Models 图文转换效果超越DALL-E

由BigGAN模子天生的512x512分辩率图象

如今，Alex Nichol及Prafulla Dhariwal两位学者提出的扩散模子，终究可于图象合成上对抗BigGAN。

从最好ImageNet512×512模子（FID3.85）中选择的样本

扩散模子是一类基在似然度的模子，近来被证实可用在天生高质量图象，同时保留抱负的属性，如更高的漫衍笼罩率、不变的练习方针及更好的可扩大性。这些模子经由过程慢慢去除了旌旗灯号中的噪声来天生样本，其练习方针可以暗示为一个从头加权的变分下界。

Nichol及Dhariwal发明，跟着计较量的增长，这些模子不停改良，纵然于高难度ImageNet256×256数据集上也能天生高质量的样本。

再来看看GLIDE的天生效果。下图是GLIDE基在差别的文本提醒天生的16个图象集，例如“利用计较器的刺猬”、“戴着红色领带及紫色帽子的柯基”等等，如图所示，天生的图象基本切合文本描写。

打破GANs“垄断”｜OpenAI新研究：Diffusion Models 图文转换效果超越DALL-E

美中不足的是，这项研究发布的较小模子的正确性不如全尺寸模子那末完善。下图是由“刺猬”文本提醒天生的16个样本。

打破GANs“垄断”｜OpenAI新研究：Diffusion Models 图文转换效果超越DALL-E

除了了图文转换，该论文还有包括一个交互式体系的原型，用在慢慢细化图象的选定部门。这些图象中的一切都是主动天生的，从整个房间最先，对于绿色区域举行迭代细化。

打破GANs“垄断”｜OpenAI新研究：Diffusion Models 图文转换效果超越DALL-E

于下图中，研究职员将他们的模子与以前开始进的基在MS-COCO字幕的文本前提图象天生模子举行了比力，发明其模子于无需CLIP 从头排序或者遴选的环境下天生了更传神的图象。对于在XMC-GAN，从用在文本到图象天生的跨模态对于比进修收罗了样本。对于在DALL-E，于温度0.85下天生样本，并利用CLIP从头排序从256个样本中选择最佳的。对于在GLIDE，利用2.0刻度的CLIP指导及3.0刻度的无分类器指导。作者没有为GLIDE履行任何CLIP从头排序或者遴选。

打破GANs“垄断”｜OpenAI新研究：Diffusion Models 图文转换效果超越DALL-E

研究职员利用人类评估和谈将GLIDE与DALL-E举行比力（以下表所示）。请留意，GLIDE利用的练习计较与DALL-E年夜致不异，但模子要小患上多（35亿对于120亿参数）。此外，它只需要更少的采样延迟，而且没有CLIP 从头排序。

打破GANs“垄断”｜OpenAI新研究：Diffusion Models 图文转换效果超越DALL-E

研究职员于DALL-E及GLIDE之间履行三组比力。起首，当不利用CLIP从头排序时，比力两种模子。其次，只对于DALL-E利用CLIP从头排序。末了，对于DALL-E利用CLIP从头排序，并经由过程DALL-E利用的离散VAE投影GLIDE样本。后者答应研究者评估DALLE恍惚样本怎样影响人类的判定。他们利用DALL-E模子的两个温度来举行所有的评估，其模子于所有设置中都遭到人类评估职员的青睐，纵然于很是撑持DALL-E的配置中，也答应它利用年夜量的测试时间计较（经由过程CLIP从头排序）同时降低GLIDE样素质量（经由过程VAE恍惚）。

保举浏览

GAIR 2021年夜会首日：18位Fellow的40年AI岁月，一场技能前沿的传承与舌战

2021-12-10