Imagen 是一个 AI 系统,可从输入文本创建逼真的图像
Imagen
前所未有的照片级写实感×深层次的语言理解
我们提出了Imagen,一种文本到图像的扩散模型,具有前所未有的照片级真实感和深层次的语言理解。Imagen 建立在大型转换器语言模型在理解文本方面的强大功能之上,并依赖于扩散模型在高保真图像生成中的优势。我们的主要发现是,在纯文本语料库上预训练的通用大型语言模型(例如T5)在编码文本以进行图像合成方面非常有效:在Imagen中增加语言模型的大小比增加图像扩散模型的大小更能提高样本保真度和图像 – 文本对齐。Imagen 在 COCO 数据集上获得了 7.27 的新的最新 FID 分数,而无需对 COCO 进行培训,人类评估者发现 Imagen 样本在图像文本对齐方面与 COCO 数据本身相当。为了更深入地评估文本到图像模型,我们引入了DrawBench,这是一个全面且具有挑战性的文本到图像模型基准。使用DrawBench,我们将Imagen与最近的方法(包括VQ-GAN+CLIP,潜在扩散模型和DALL-E 2)进行了比较,发现人类评分者在并排比较中更喜欢Imagen而不是其他模型,无论是在样本质量和图像 – 文本对齐方面。
Imagen 是一个 AI 系统,可从输入文本创建逼真的图像

大型预训练语言模型×级联扩散模型
深度文本理解→逼真的生成
影像研究亮点
- 我们表明,大型预训练冻结文本编码器对于文本到图像任务非常有效。
- 我们表明,缩放预训练文本编码器大小比缩放扩散模型大小更重要。
- 我们推出了一种新的阈值扩散采样器,它可以使用非常大的无分类器引导砝码。
- 我们引入了一种新的高效 U-Net 架构,该架构的计算效率更高、内存效率更高,收敛速度更快。
- 在COCO上,我们实现了7.27的最先进的COCO FID;人类评估者发现 Imagen 样本在图像-文本对齐方面与参考图像相当。
型 | 可可菲德 ↓ |
---|---|
接受过COCO培训 | |
AttnGAN (Xu et al., 2017) | 35.49 |
DM-GAN (Zhu et al., 2019) | 32.64 |
DF-GAN(陶等人,2020) | 21.42 |
DM-GAN + CL(Ye 等人,2021 年) | 20.79 |
XMC-GAN(张等人,2021) | 9.33 |
拉菲(周等人,2021) | 8.12 |
制作场景(加夫尼等人,2022 年) | 7.55 |
未接受过 COCO 培训 | |
DALL-E(拉梅什等人,2021 年) | 17.89 |
滑翔(尼科尔等人,2021) | 12.24 |
DALL-E 2(拉梅什等人,2022 年) | 10.39 |
Imagen (我们的工作) | 7.27 |
DrawBench:新的综合挑战基准
- 并行人工评估。
- 系统地测试:组合性、基数、空间关系、长格式文本、生僻词和具有挑战性的提示。
- 人类评分者在图像文本对齐和图像保真度方面都非常喜欢 Imagen 而不是其他方法。
数据统计
相关导航
暂无评论...