文本秒生成图像,震惊业界!详解OpenAI两大AI模型( 二 )


原输入文本:三角形绿色的钟
2、同时改变多个物体以及其位置关系
将上方的物块改成书 , 再将物体的上下叠放关系改成左右摆放 。
文本秒生成图像,震惊业界!详解OpenAI两大AI模型文章插图
当一句话含有多个主体时 , 例如“红色的物块放在绿色的物块上面” , DALL·E需要分辨出这两个物块是两个不同的物体 , 且他们之间的位置关系是上下叠放 。
但OpenAI的研究人员也承认 , 随着输入文本中描述主体的增多和关系的复杂 , DALL·E生成的图像会更不准确 。
文本秒生成图像,震惊业界!详解OpenAI两大AI模型文章插图
输入文本:一堆立方体 , 红色的立方体在绿色立方体的顶部 , 绿色立方体在中间 , 蓝色立方体在底部 。
3、可视化透视与背景
如动图所示 , 将特写图改成前视图 , 将背景从草地改成山上 。
文本秒生成图像,震惊业界!详解OpenAI两大AI模型文章插图
原输入文本:特写图下 , 在草地的水豚
除了二维图像理解 , DALL·E也能将某些类型的光学畸变(Optical Distortions)应用到具体场景中 , 展现出“鱼眼透视”或“球形全景态”图等效果 。
4、内外部结构
文本秒生成图像,震惊业界!详解OpenAI两大AI模型文章插图
输入文本:核桃横截面图
5、上下文推理
将文本目标“翻译”成图像这个问题 , 是没有唯一答案的 , 且语言中常含有字面所没有的引申义 。
如“日出时 , 坐在田野上的水豚的绘画像”这一文本目标 , 其中并没有提到水豚的阴影 , 但根据经验我们也能知道 , 日出时 , 水豚必然会有由于阳光照射产生阴影 。
因此 , DALL·E就需要通过Transformer中的上下文推理 , 通过自己的“经验” , 得到这一结论 。
文本秒生成图像,震惊业界!详解OpenAI两大AI模型文章插图
输入文本:日出时 , 坐在田野上的水豚的绘画像 。
6、不存在的物品
DALL·E还具有将完全不同的物品合成起来的能力 , 创造一些现实世界不可能出现的物体 。
文本秒生成图像,震惊业界!详解OpenAI两大AI模型文章插图
输入文本:竖琴状的蜗牛
三、“zero-shot”践行者:按词分图的CLIP如果说DALL·E是GPT-3在图像领域的延伸 , 那CLIP就是主打“zero-shot(零样本)” , 攻破视觉领域的深度学习方法的三大难题 。
1、训练所需大量数据集的采集和标注 , 会导致的较高成本 。
2、训练好的视觉模型一般只擅长一类任务 , 迁移到其他任务需要花费巨大成本 。
3、即使在基准测试中表现良好 , 在实际应用中可能也不如人意 。
对此 , OpenAI联合创始人Ilya Sutskever曾发文声称 , 语言模型或是一种解法 , 我们可以通过文本 , 来修改和生成图像 。
基于这一愿景 , CLIP应运而生 。
CLIP全称是Contrastive Language-Image Pre-training , 根据字面意思 , 就是对比文本-图像预训练模型 , 只需要提供图像类别的文本描述 , 就能将图像进行分类 。
怎么分?为什么能分?
CLIP靠的就是预训练阶段 , OpenAI从互联网中收集的4亿个文本-图像对 。 接着 , 凭着与GPT-2/3相似的“zero-shot”设计 , CLIP在不直接针对基准进行优化的同时 , 表现出优越的性能:鲁棒性差距(robustness gap)缩小了75% , 性能和深度残差网络ResNet50相当 。
也就是说 , CLIP无需使用ResNet50同样大的训练样本 , 就达到了原始ResNet50在ImageNet数据集上的精确度 。