米兰·(milan)中国官方网站-逼真度超越「AI设计师」DALL·E 2！谷歌大脑推出新的文本生成图像模型——Imagen

作者：米兰·(milan)文化更新时间：2026-03-29 20:07:38 点击数：

逼真度超越「AI设计师」DALL·E 2！谷歌大脑推出新的文本生成图像模型——Imagen

作者｜李梅、王玥

编纂｜陈彩娴

文本天生图象模子界又出新手笔！

此次的主角是Google Brain推出的 Imagen，再一次冲破人类想象力，将文本天生图象的传神度及语言理解提高到了史无前例的新高度！比前段时间OpeAI家的DALL·E 2更强！

话未几说，咱们来赏识这位AI画师的杰作～

A brain riding a rocketship heading towards the moon.（一颗年夜脑乘着火箭飞向月球。）

逼真度超越「AI设计师」DALL·E 2！谷歌大脑推出新的文本生成图像模型——Imagen

A dragon fruit wearing karate belt in the snow.（于雪地里戴着白手道腰带的火龙果）

逼真度超越「AI设计师」DALL·E 2！谷歌大脑推出新的文本生成图像模型——Imagen

A marble statue of a Koala DJ in front of a marble statue of a turntable. The Koala has wearing large marble headphones.（一只带着巨年夜耳机的考拉DJ的年夜理石雕像站于一个年夜理石转盘前。）

逼真度超越「AI设计师」DALL·E 2！谷歌大脑推出新的文本生成图像模型——Imagen

An art gallery displaying Monet paintings. The art gallery is flooded. Robots are going around the art gallery using paddle boards.（陈设莫奈画作的美术馆被水沉没。呆板人正于利用桨板于美术馆里划行。）

逼真度超越「AI设计师」DALL·E 2！谷歌大脑推出新的文本生成图像模型——Imagen

A giant cobra snake on a farm.The snake is made out of corn（农场里有一条巨年夜的玉米组成的眼镜蛇。）

逼真度超越「AI设计师」DALL·E 2！谷歌大脑推出新的文本生成图像模型——Imagen

Teddy bears swi妹妹ing at the Olympics 400m Butterfly event.（泰迪熊于奥运会400米蝶泳项目中游泳。）

逼真度超越「AI设计师」DALL·E 2！谷歌大脑推出新的文本生成图像模型——Imagen

以和更多......

逼真度超越「AI设计师」DALL·E 2！谷歌大脑推出新的文本生成图像模型——Imagen

给出一样的文本提醒，Imagen还有可以天生差别种别的图象。好比下面这些图中，各组图片于物品的颜色、空间位置、材质等领域上都不太不异。

逼真度超越「AI设计师」DALL·E 2！谷歌大脑推出新的文本生成图像模型——Imagen

1Imagen的事情道理逼真度超越「AI设计师」DALL·E 2！谷歌大脑推出新的文本生成图像模型——Imagen

论文地址：https://gweb-research-imagen.appspot.com/paper.pdf

Imagen的可视化流程

Imagen基在年夜型transformer语言模子于理解文本方面的能力及扩散模子于高保真图象天生方面的能力。

于用户输入文本要求后，如“一只戴着蓝色格子贝雷帽及红色波点高领毛衣的金毛犬”，Imagen先是利用一个年夜的冻结（frozen）T5-XXL 编码器将这段输入文本编码为嵌入。然后前提扩散模子将文本嵌入映照到64×64的图象中。

Imagen进一步使用文本前提超分辩率扩散模子对于64×64的图象举行升采样为256×256，再从256×256升到1024×1024。成果注解，带噪腔调节加强的级联扩散模子于慢慢天生高保真图象方面效果很好。

图注：输入“一只戴着蓝色格子贝雷帽及红色波点高领毛衣的金毛犬”后Imagen的动作

图注：64 × 64天生图象的超分辩率变化。对于在天生的64 × 64图象，将两种超分辩率模子别离置在差别的提醒下，孕育发生差别的上采样变化

年夜型预练习语言模子×级联扩散模子

Imagen利用于纯文本语猜中举行预练习的通用年夜型语言模子(例如T5)，它可以或许很是有用地将文本合成图象：于Imagen中增长语言模子的巨细，而不是增长图象扩散模子的巨细，可以年夜年夜地提高样本保真度及图象-文本对于齐。

Imagen的研究凸起表现于：

年夜型预练习冻结文本编码器对于在文本到图象的使命来讲很是有用；

缩放预练习的文本编码器巨细比缩放扩散模子巨细更主要；

引入一种新的阈值扩散采样器，这类采样器可使用很是年夜的无分类器引导权重；

引入一种新的高效U-Net架构，这类架构具备更高的计较效率、更高的内存效率及更快的收敛速率；

Imagen于COCO数据集上得到了开始进的FID分数7.27，而没有对于COCO举行任何练习，人类评分者发明，Imagen样本于图象-文本对于齐方面与COCO数据自己八两半斤。

逼真度超越「AI设计师」DALL·E 2！谷歌大脑推出新的文本生成图像模型——Imagen

2引入新基准DrawBench

为了更深切地评估文本到图象模子，Google Brain 引入了DrawBench，这是一个周全的、具备挑战性的文本到图象模子基准。经由过程DrawBench，他们比力了Imagen与VQ-GAN+CLIP、Latent Diffusion Models及DALL-E 2等其他要领，发明人类评分者于比力中更喜欢Imagen而不是其他模子，不管是于样素质量上还有是于图象-文本对于齐方面。

并排人类评估；

对于语意合成性、基数性、空间瓜葛、长文本、生词及具备挑战性的提醒几方面提出了体系化的磨练；

因为图象-文本对于齐及图象保真度的上风，相对于在其他要领，用户强烈偏向在利用Imagen。

图注：Imagen与DALL-E 二、GLIDE、VQ-GAN+CLIP及Latent Diffusion Models于DrawBench上的比力:用户对于图象-文本对于齐及图象传神度的偏好率(95%置信区间)

Imagen与DALL-E 2 天生图象的比力示例：

图注：“外星人绑架奶牛，将其吸入空中回旋”（上）；“一个被猫绊倒的希腊男性的雕塑”（下）

对于在触及颜色的文本提醒，Imagen天生的图象也比DALL-E 2更优。DALL-E 2凡是很难为方针图象分配准确的颜色，特别是当文本提醒中包罗多个对于象的颜色提醒时，DALL-E 2会轻易将其混合。

图注：Imagen及DALL-E 2从颜色类文本天生图象的比力。“一本黄色册本及一个红花瓶”（上）；“一个玄色苹果及一个绿色双肩包”（下）

而于带引号文本的提醒方面，Imagen天生图象的能力也较着优在DALL-E 2。

图注：Imagen 及 DALL-E 2 从带引号文本天生图象的比力。“纽约天涯线，天上有烟花写成的“Hello World”字样”（上）；“一间写着Time to Image的店面”（下）

3打开了潘多拉魔盒？

像Imagen如许从文本天生图象的研究面对着一系列伦理挑战。

起首，文本-图象模子的下流运用多种多样，可能会从多方面临社会造成影响。Imagen以和一切从文本天生图象的体系都有可能被误用的潜于危害，是以社会要求开发方提供卖力任的开源代码及演示。基在以上缘故原由，Google决议暂时不发布代码或者举行公然演示。而于将来的事情中，Google将摸索一个卖力任的外部化框架，从而将各种潜于危害最小化。

其次，文本到图象模子对于数据的要求致使研究职员严峻依靠在年夜型的、年夜部门未经收拾的、收集抓取的数据集。虽然最近几年来这类要领使算法快速前进，但这类性子的数据集往往会夹带社会刻板印象、榨取性不雅点、对于边沿群体有所贬损等“有毒”信息。

为了去除了噪音及不良内容（如色情图象及“有毒”言论），Google对于练习数据的子集举行了过滤，同时Google还有利用了尽人皆知的LAION-400M数据集举行过滤对于比，该数据集包罗收集上常见的不妥内容，包括色情图象、种族主义进犯言论及负面社会刻板印象。Imagen依靠在于未经筹谋的收集范围数据上练习的文本编码器，是以继续了年夜型语言模子的社会成见及局限性。这申明Imagen可能存于负面刻板印象及其他局限性，是以Google决议，于没有进一步安全办法的环境下，不会将Imagen发布给公家利用。

参考链接：

https://gweb-research-imagen.appspot.com/