文本秒生成图像，震惊业界！详解OpenAI两大AI模型( 二 ) 智东西（公众号：zhidxcom）编译|子佩

原输入文本：三角形绿色的钟
2、同时改变多个物体以及其位置关系
将上方的物块改成书，再将物体的上下叠放关系改成左右摆放。
文章插图
当一句话含有多个主体时，例如“红色的物块放在绿色的物块上面” ， DALL·E需要分辨出这两个物块是两个不同的物体，且他们之间的位置关系是上下叠放。
但OpenAI的研究人员也承认，随着输入文本中描述主体的增多和关系的复杂， DALL·E生成的图像会更不准确。
文章插图
输入文本：一堆立方体，红色的立方体在绿色立方体的顶部，绿色立方体在中间，蓝色立方体在底部。
3、可视化透视与背景
如动图所示，将特写图改成前视图，将背景从草地改成山上。
文章插图
原输入文本:特写图下，在草地的水豚
除了二维图像理解， DALL·E也能将某些类型的光学畸变（Optical Distortions）应用到具体场景中，展现出“鱼眼透视”或“球形全景态”图等效果。
4、内外部结构
文章插图
输入文本：核桃横截面图
5、上下文推理
将文本目标“翻译”成图像这个问题，是没有唯一答案的，且语言中常含有字面所没有的引申义。
如“日出时，坐在田野上的水豚的绘画像”这一文本目标，其中并没有提到水豚的阴影，但根据经验我们也能知道，日出时，水豚必然会有由于阳光照射产生阴影。
因此， DALL·E就需要通过Transformer中的上下文推理，通过自己的“经验” ，得到这一结论。
文章插图
输入文本：日出时，坐在田野上的水豚的绘画像。
6、不存在的物品
DALL·E还具有将完全不同的物品合成起来的能力，创造一些现实世界不可能出现的物体。
文章插图
输入文本：竖琴状的蜗牛
三、“zero-shot”践行者：按词分图的CLIP如果说DALL·E是GPT-3在图像领域的延伸，那CLIP就是主打“zero-shot（零样本）” ，攻破视觉领域的深度学习方法的三大难题。
1、训练所需大量数据集的采集和标注，会导致的较高成本。
2、训练好的视觉模型一般只擅长一类任务，迁移到其他任务需要花费巨大成本。
3、即使在基准测试中表现良好，在实际应用中可能也不如人意。
对此， OpenAI联合创始人Ilya Sutskever曾发文声称，语言模型或是一种解法，我们可以通过文本，来修改和生成图像。
基于这一愿景， CLIP应运而生。
CLIP全称是Contrastive Language-Image Pre-training ，根据字面意思，就是对比文本-图像预训练模型，只需要提供图像类别的文本描述，就能将图像进行分类。
怎么分？为什么能分？
CLIP靠的就是预训练阶段， OpenAI从互联网中收集的4亿个文本-图像对。接着，凭着与GPT-2/3相似的“zero-shot”设计， CLIP在不直接针对基准进行优化的同时，表现出优越的性能：鲁棒性差距（robustness gap）缩小了75% ，性能和深度残差网络ResNet50相当。
也就是说， CLIP无需使用ResNet50同样大的训练样本，就达到了原始ResNet50在ImageNet数据集上的精确度。