"全能选手"召回表征算法实践( 二 )
3. 技术发展快速
文章插图
向量表征是学术圈的热点 , 不断推陈出新 , 特别是GCN ( 图卷积神经网络 )、GNN ( 图神经网络 ) 都很火 , 学术界每年都发表很多paper 。 学术研究快速发展附带的技术红利能给业务带来增量价值 。 接下来我们会从两个方向去聊向量表征的模型 , 一个是序列模型SeqModel , 另一个是图网络模型 , 这两种模型都能解决向量表征的问题 。 那在选择模型的时候到底该选两类模型的哪一个?这个是与产品数据是强相关的 , 如果产品数据具有时间强相关性 , 用序列模型效果肯定不会差;如果产品数据的节点比较稀疏 , 需要用邻域节点做信息协同建模 , 这时候建议尝试下GNN 。 图数据几乎可以纳入任何场景产生的数据关系 , 所以GNN是一个普适性很高的通用模型方案 , 但是并不意味着在所有场景GNN都比序列模型好 , 实验出真知不同场景下需要多种方案对比 。 接下来基于我们搜索推荐业务场景的结论 , 与大家分享下序列模型和GNN模型的迭代 。
03
迭代实现
1. 聚焦Item Embedding
严选业务中用户量是远远大于Item量的 , User Embedding因为用户量很大行为又比较稀疏实验的效果不太好 , 所以我们初始阶段先聚焦Item Embedding , Item量较少所以落地成本较低 , 关联数据稠密所以表征效果较好 。
① SeqModel优化
文章插图
第一个模型是我们自定义并优化的Session Based Embedding Model , 它的主要思路来自Aribnb的一篇Embedding论文 ( 这篇论文写的非常好 , 建议大家了解一下 ) 。 这个模型的主要思路就是构建类似word2vec的序列 , 关注序列数据上下文时间窗口中向量的相关性 。 图中的每一个圈代表一个item , 多个圈构成一个行为序列 , 行为序列来自用户在一段连续时间内的行为数据 。 传统的word2vec只会关注上下文的信息 , 这篇论文的关键思路提出global item , 跳出了序列模型窗口的限制 。 Global item指的是序列数据中一些重要的节点 ( 图示中实心节点 ) , 比如用户的加购、支付、分享等行为 。 Global item 打破模型窗口的限制 , 使Item向量能学到一些high order connection信息 , 大幅提升序列模型的表征效果 。
在此之上 , 我们做了一些loss function的优化 , 包括去除负采样的过程、在batch内构建pair-wise loss , 能大幅提升训练速度;同时也引入多层向量 , 多层向量是side-info embedding的思路 , 对Item做向量表征的时候不仅仅利用它的id类特征 , 还会引入商品的属性、类目、适用季节、适用人群等特征以进一步提升向量表征的效果 , 同时还能缓解新Item冷启动表征的问题 。
② GCN定义
文章插图
接下来聊一下学术界的热点GCN/GNN模型 , 图神经网络一般会有三个阶段的定义:
- 如何将邻域节点的信息传递给目标节点
- 如何聚合传递到目标节点的邻域信息
- 集成邻域信息的目标节点定义
③ GraphSage可落地
文章插图GraphSage是基于采样思路降低落地难度 , 用采样代替矩阵计算的过程 。 采样深度 ( 一般深度不会超过2 ) 对应迭代次数 , 多次迭代能获得高阶领域信息来做信息协同建模 , 同时可以调整每次迭代采样的数量 。 这个模型最大贡献提供了一种通用的Neighborhood Aggregation聚合方法 , 可以采用mean的方式进行聚合 , 或者引入池化层 , 也可以引入LSTM进行序列的聚合 。
④ LightGCN的压缩数据尝试
文章插图GCN需要一个大矩阵计算过程 , 相比工程化的思路二者效果有多少差异?能否缩减现有数据实现GCN和其他模型做一个对比?所以我们就实现了一个LightGCN , 主要是参考了图中的两篇论文 。 两篇论文出自同一团队 , 论文定制信息的构建和聚合过程 , 能够捕捉结点的高阶相关性 , 显式的编码协同信号 。 一般GCN的网络深度不会超过2 , 而这里的LightGCN能做到三层 , 这里面的节点已经涵盖了user、item 。 本文最后会对所有的效果做一下对比 。 从知识表达上这两篇论文写得很好 , 大家可以去研读下 , 会对GCN有更好的认知 。
- X50|vivo X50 Pro+深度测评:全能影像机皇登场
- 示该站点|虾秘功能大揭秘之订单监测&广告概况
- 京东另类科学实验室之"5G来了"
- ICPC--1200:数组的距离时间限制&1201:众数问题
- "财富梦"AI外贸配方?国货搭载AI"火箭营销"?
- ICPC--1206: 字符串的修改&1207:字符排列问题
- ICPC--1204: 剔除相关数&1205: 你爱我么?
- 音乐平台"改头换面",是新一轮社交平台,还是生活放松圈
- MITRE ATT&CK系列文章之Windows管理共享风险检测
- 极品"看片"神器!震撼来袭~手机端盒子端全部通用
