H好菇凉666用万字长文聊一聊 Embedding 技术( 五 )
假设数据集的一个样本为 , 则将输入到预训练好的模型中 , 得到文本的embedding向量 , 最后采用线性层和softmax来预测标签 , 输出和损失分别为:
其中 , 为下游任务的参数 。
为避免在Fine-Tuning时 , 模型陷入过拟合和加速收敛 , 添加了辅助训练目标的方法 , 就是在使用最后一个词的预测结果进行监督学习的同时 , 前面的词继续上一步的无监督训练 。 最终的损失函数为:
其中 , 用于控制无监督目标权重 , 一般取 。
总体来说 , Fine-tuning阶段需要的额外参数是和以隔符token的embedding 。 其他任务迁移的输入格式可参考下张图:
本文插图
C) BERT BERT (Bidirectional Encoder Representations from Transformers)是Goole在2018年10月发表的 , 当时刷新了11项NLP任务 , 从此成为NLP领域“最靓的仔” 。 BERT、ELMo和GPT模型结构对比图如下图所示:
本文插图
相较于ELMo , BERT采用句子级负采样来得到句子表示/句对关系 , 使用Transformer模型代替LSTM , 提升模型表达能力 , Masked LM解决“自己看到自己”的问题 。 相较于GPT , BERT采用了双向的Transformer , 使得模型能够挖掘左右两侧的语境 。 此外 , BERT进一步增强了词向的型泛化能力 , 充分描述字符级、词级、句子级甚至句间的关系特征 。
BERT的输入的编码向量(长度为512)是3种Embedding特征element-wise和 , 如下图所示:
这三种Embedding特征分别是:
- Token Embedding (WordPiece):将单词划分成一组有限的公共词单元 , 能在单词的有效性和字符的灵活性之间取得一个折中的平衡 。 如图中的“playing”被拆分成了“play”和“ing”;
- Segment Embedding:用于区分两个句子 , 如B是否是A的下文(对话场景 , 问答场景等) 。 对于句子对 , 第一个句子的特征值是0 , 第二个句子的特征值是1;
- Position Embedding:将单词的位置信息编码成特征向量 , Position embedding能有效将单词的位置关系引入到模型中 , 提升模型对句子理解能力;
在模型预训练阶段 , BERT采用两个自监督任务采用来实现模型的多任务训练:1)Masked Language Model;2)Next Sentence Prediction
MLM的核心思想早在1953年就被Wilson Taylor提出 , 是指在训练时随机从输入语料中mask掉一些单 , 然后通过该词上下文来预测它(非常像让模型来做完形填空) , 如下图所以:
本文插图
在论文实验中 , 只有15%的Token会被随机Mask掉 。 在训练模型时 , 一个句子会被多次输入模型中用于参数调优 , 对于某个要被Mask的Token并不是每次都一定会被Mask掉:
- 80%概率直接替换为 , 如my dog is hairy -> my dog is
- 10%概率替换为其他任意Token , 如my dog is hairy -> my dog is apple
- 10%概率保留为原始Token , 如my dog is hairy -> my dog is hairy
- 如果某个Token100%被mask掉 , 在fine-tuning的时候会这些被mask掉的Token就成为OOV , 反而影响模型的泛化性;
- 加入随机Token是因为Transformer要保持对每个输入Token的分布式表征 , 否则模型就会记住这个=“hairy”
- 虽然加入随机单词带来的负面影响 , 但由于单词被随机替换掉的概率只有15%*10% =1.5% , 负面影响可以忽略不计
- 服务|【IPO解码】恒大物业(06666-HK)拟12月2日敲钟上市,五大竞争优势助力恒久质远
- 每经19点丨股票代码6666!恒大物业即将上市
- 钛媒体微信上线“裂开”“666”等6个表情包,“让我看看”灵感来自《还珠》五阿哥?
- 沉默不语666小米外海创子品牌POCO,新机与红米Note9多项参数重合
- 扬眼|他写下10万字“相亲指南”爆红,成爱情导师,相亲失败80多次后
- 趣味社会学|却用10年写出80万字专著,打脸他人,他送外卖不上进被嘲笑
- 王者荣耀|孤影再露丑恶嘴脸,solo赛三分钟被杀穿投降,影响心情666给你下一把
- 美剧去哪看|北大最强“扫地僧”上线!网友:666+牛牛牛
- 深夜重磅!遭自媒体“空袭”,千亿巨头近万字公告反击
- 沉默不语666 中端机型,荣耀还有新机!水滴屏+天玑800U