产业气象站 那些让我半夜偷偷收藏的沙雕表情包,竟是出自AI之手,想不到( 二 )


如何用memeBot制作表情包?
「memeBot」是一种端到端的神经与概率架构 。 该模型共有两个组成部分 , 如下图所示 , 首先是使用meme模版选择模块 , 根据输入语句确定用哪张图;然后是meme字幕生成器 , 生成合适的字幕 。
产业气象站 那些让我半夜偷偷收藏的沙雕表情包,竟是出自AI之手,想不到
文章图片
meme模版选择模块
基于BERT、XLNet、Roberta等trans-former架构的预训练语言表征被广泛用于自然语言理解任务 。 这些模型在针对相应任务微调之后 , 均达到了新的SOTA水平 。
该研究在meme模版选择任务上 , 使用线性神经网络对预训练语言表征模型进行了微调 。 在训练过程中 , 通过使用公
产业气象站 那些让我半夜偷偷收藏的沙雕表情包,竟是出自AI之手,想不到
文章图片
将依据给定语句选择正确模版的概率最大化 。 其中θ_1表示meme模版选择参数 , T表示模版 , S是输入句 。
meme字幕生成
研究者借鉴了降噪编码器的方法 , 通过破坏输入字幕来训练meme字幕生成器 , 并使用词性标注器(POSTagger)来提取输入字幕的词性 。 研究者使用POS向量来对输入字幕进行遮罩 , 仅把名词短语和动词短语作为输入传递给meme字幕生成器 。
破坏数据的目的是让模型从现有的字幕中学习meme生成 , 并在推断过程中将基于给定输入语句生成meme的过程进行泛化 。
meme字幕生成器模型使用了transformer架构 , 通过对选定的meme模版和输入语句执行多头缩放点积注意力 , 来创建给定输入语句的meme嵌入 。
transformer解码器首先对预期的字幕执行maskedmulti-headattention , 然后在编码的meme嵌入和maskedmulti-headattention的输出之间执行多头缩放点积注意力(如图3所示) 。 这使得meme字幕生成器能够学习输入语句、所选meme模版和预期meme字幕之间的依赖关系 。
此外 , 该研究还使用公式
来优化transformer 。
其中θ_2表示meme字幕生成器的参数 , C表示meme字幕 , M是基于transformer编码器获得的meme嵌入 。
数据集
模型训练所用数据有两个来源 , 一个是全球最大的meme图片生成网站「imgflip」 , 另一个就是众所周知的meme图片集合地「推特」 。 为了爬取更多的数据 , 研究者开发了一款网络爬虫工具 , 尽可能多地收集meme图 。
该研究最终创建的数据集包含源自24个「经典沙雕梗」的177942个meme字幕 。 表1展示了数据样本的组成部分 , 附录A展示了训练所用的「经典源图」 , 图4为meme字幕主题的分布情况 。
产业气象站 那些让我半夜偷偷收藏的沙雕表情包,竟是出自AI之手,想不到
文章图片
表1:meme字幕数据集中的样本示例 , 包括模版名称(Templatename)、字幕(Caption)、meme图(MemeImage)三部分 。
附录A:实验所用meme字幕数据集中的的模版和图像 。
产业气象站 那些让我半夜偷偷收藏的沙雕表情包,竟是出自AI之手,想不到
文章图片
图4 。
此外 , 研究者收集了推特平台的推文 , 用以评估memeBot在线上社交互动中通过语句生成meme的效力 。
研究者在关键词「Coronavirus」查询结果中随机抽取6000条推文 , 从中选择了1000条非负面情绪的推文 。 目的是通过输入推文让模型生成meme图 , 并评估生成结果是否与推文内容相关 。
memeBot效果如何
该研究在训练、验证和测试阶段的数据集分别包括142341、17802和17799个样本 , 评估内容包括模版选择模块在选择兼容模版时的性能、字幕生成器的生成效力等 。
首先 , 研究者对BERT、XLNet和Roberta几种预训练语言表征模型进行了微调 , 并在meme字幕测试数据集上测试了模型的meme模版选择性能 , 结果如表2所示 。