OpenAI魔法模型DALL-E论文、代码公布

文章图片
编译|AI科技评论
OpenAI在1月5日公布DALL-E模型以来 , 人们都惊艳于模型的语言想象力是如此丰富和细致 。 如今 , 我们终于等到了论文的公布 , 从而得以了解DALL-E天马行空创造力背后的奥秘 。 值得一提的是 , OpenAI还开源了DALL-E的代码 , 然而 , 只包含了其中的一个非核心模块 。
以下是DALL·E的几个演示案例 。
文本提示:穿着芭蕾舞短裙的萝卜宝宝在遛狗 。
AI生成的图像:
文章图片
文本提示:一只X射线的猫头鹰:
AI生成的图像:
文章图片
文本提示:孔雀橡皮 。
AI生成的图像:
文章图片
文本+图像提示:参照上面的猫在下面生成草图
AI生成的图像:
文章图片
更多示例请查看:
OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生 , 仿佛拥有人类的语言想象力
以下 , AI科技评论对论文核心内容进行了编译 , 具体细节还请参看原论文 。 
文章图片
论文链接:https://arxiv.org/pdf/2102.12092.pdf
Blog:https://openai.com/blog/dall-e/
GitHub(VAEinDALL-E):https://github.com/openai/DALL-E
摘要:
按照传统 , 文本到图像的生成一直专注于寻找更好的建模假设 , 以便能够在固定数据集上进行训练 。 这些假设可能涉及到复杂的架构、辅助损失或边信息(sideinformation) , 比如训练过程中提供的物体部分标签或分割掩码 。
我们基于transformer描述了用于此任务的一种简单方法 , 该transformer能够将文本和图像token自动回归建模为单个数据流 。 有了足够的数据和规模后 , 在零样本情况下进行评估时 , 我们的方法就可以与先前的特定领域建模(DSM)一争高下 。。
1引言
从文本到图像的现代机器学习合成方法始于Mansimov等人在2015年的研究工作 , 他们将Gregor等人提出的用于生成图像标题的生成模型DRAW进行扩展 , 进一步生成新颖的视觉场景 。 2016年 , Reed等人证明 , 使用生成对抗网络(而不是使用递归可变自动编码器)可以提高图像逼真度 。 在同年的另一篇工作中 , Reed等人又证明 , 该系统不仅可以生成具有可识别属性的对象 , 还可以零样本泛化至留出(held-out)类别 。
在接下来的几年里 , 研究人员又提出多种方法 , 推动了文本到图像生成领域的进展 。 比如 , 通过修改多尺度生成器来改进生成模型的架构;整合注意力和辅助损失;利用文本以外的其他条件信息资源 。
在2017年 , Nguyen等人提出了一种基于能量的条件图像生成框架 。 相对于现代方法 , 该框架在样本质量上取得了重大进步 。 他们的方法可以兼并预训练判别模型 , 并且证明 , 将其应用于在MS-COCO上预先训练的字幕模型时 , 模型能够执行文本到图像的生成 。 2020年 , Cho等人还提出了一种方法 , 可以优化预训练跨模态掩码语言模型的输入 。 Manshimov等人在2015年的工作大幅提升了视觉逼真度 , 但样本仍然面临影响失真的“灾难” , 例如物体变形、不合理的物体放置 , 或前景和背景元素的不自然混合 。
由大规模生成模型驱动的最新进展表明了进一步改进上述问题的可能途径 。 具体来说 , 当计算、模型大小和数据进行仔细缩放时 , 自回归transformer(autoregressivetransformer)在文本、图像和音频上能取得非常不错的效果 。
相比之下 , 文本到图像的生成通常是在较小的数据集(例如MS-COCO和CUB-200)上进行评估 。 数据集大小和模型大小是否有可能成为限制当前方法发展的因素呢?在这项工作中 , 我们证明了 , 在从互联网上收集的2.5亿个图像文本对上训练一个包含120亿个参数的自回归transformer , 能够得到一个可通过自然语言控制的灵活且逼真度高的图像生成模型 。
同时 , 随之形成的系统无需使用任何训练标签 , 就可以在流行的MS-COCO数据集零样本泛化实现高质量的图像生成 。 它比先前由人类评估员在数据集上进行训练的工作节省了90%的工作时间 。 此外 , 它还能够执行复杂的任务 , 比如在基本级别上进行图像到图像的翻译 。
2方法
我们的目标是训练一个transformer进行自动建模 , 即将文本以及图片的tokens转换为单一的数据流 。 然而 , 将像素直接作为图片token会占用大量的内存进行存储高分辨率图片 。 另外 , 似然目标(Likelihoodobjectives)倾向于对像素之间的近距离相关性进行建模 , 因此大部分内存会被用来捕捉高频细节上 , 忽略了能够在视觉上识别对象的低频结构 。
- 为欧洲MaaS模型创建功能基础
- 硬核观察 | 写字的纸条就能骗过 OpenAI 的物体识别
- 网友制作《怪物猎人 世界》怪物模型体积对比视频
- 希格生科获约6000万元天使轮融资,让疾病模型促进癌症靶向药研发
- 石油钻井开采教学模拟装置 石油机械仿真模型 欠平衡钻井装置教学平台
- 蒙特利尔光影金字塔,如同走入奇异博士用魔法创造的高维空间
- 写作神器还是魔鬼化身?万能语言模型GPT-3起底
- 哈利波特魔法觉醒龙蛋召唤流攻略 实战技巧分享
- JXK. STUDIO 迷你法国斗牛犬 小法斗 仿真动物模型 一套五款
- 哈利波特魔法觉醒碎片任务怎么做 碎片任务位置
