产业气象站 那些让我半夜偷偷收藏的沙雕表情包,竟是出自AI之手,想不到( 三 )


产业气象站 那些让我半夜偷偷收藏的沙雕表情包,竟是出自AI之手,想不到
文章图片
表2:加粗部分为最佳分数 , 精确度和F1两项指标是越高越好 , 损失则越低越好 。 研究者使用了性能表现最佳的Roberta_base模型作为meme生成pipeline中的模版选择模块 。
然后 , 在字幕生成任务中 , 研究者使用了两个变体「MT2MC」和「SMT2MC」(SMT2MC也有两个变体) , 分别代表「基于模版生成字幕」和「基于输入语句及模版生成字幕」 。 下图是字幕生成器的变体所生成的meme示例 。
产业气象站 那些让我半夜偷偷收藏的沙雕表情包,竟是出自AI之手,想不到
文章图片
可以看出 , MT2MC根据给定的meme模版随机生成字幕 , 与输入语句无关联 , SMT2MC变体生成的meme字幕则与输入语句有语境关联 。 在SMT2MC的变体中 , 以名词短语和动词短语作为输入生成的字幕能够更好地还原输入语句的本意 。
在评估时 , 研究者使用了BLEU分数来评估生成字幕的质量 。 鉴于meme生成没有固定的指标 , 研究者还引入了一组评估人员进行「主观评价」 , 评估的维度包括图片与字幕的连贯性和相关性等等 , 分数在1-4分不等 。
产业气象站 那些让我半夜偷偷收藏的沙雕表情包,竟是出自AI之手,想不到
文章图片
BLEU值以及人类评估得分情况 。
产业气象站 那些让我半夜偷偷收藏的沙雕表情包,竟是出自AI之手,想不到
文章图片
相关性与连贯性分数的定性比较 。
研究者还设计了一个实验 , 来评估meme生成结果在线上社交环境中的效力:
产业气象站 那些让我半夜偷偷收藏的沙雕表情包,竟是出自AI之手,想不到
文章图片
表5:推特数据中的人类评估分数 。 相关性和一致性指标满分为4分 , 「UserLikes」一项代表喜欢该生成结果的人数占总体的百分比 。
产业气象站 那些让我半夜偷偷收藏的沙雕表情包,竟是出自AI之手,想不到
文章图片
图9:SMT2MC-NP+V变体生成的meme结果 。
最后 , 研究者也提到 , meme的生成效果评价因人而异 , 很难通过预定义的指标进行评估 。 接下来他们会将继续拓展这一方面的研究 , 比如将meme引入社交媒体流 , 并根据meme在人群中的传播对其进行评估 。 meme传播率和传播人群可用于强化训练 , 生成更高质量和更具创意的meme 。