H好菇凉666用万字长文聊一聊 Embedding 技术( 八 )
Metapath2vec总体思想跟Node2vec和DeepWalk相似 , 主要是在随机游走上使用基于meta-path的random walk来构建节点序列 , 然后用Skip-gram模型来完成顶点的Embedding 。
作者首先给出了异构网络(Heterogeneous Network)的定义:
即 , 存在多种类型节点或边的网络为异构网络 。
虽然节点类型不同 , 但是不同类型的节点会映射到同一个特征空间 。 由于异构性的存在 , 传统的基于同构网络的节点向量化方法很难有效地直接应用在异构网络上 。
为了解决这个问题 , 作者提出了meta-path-based random walk:通过不同meta-path scheme来捕获不同类型节点之间语义和结构关系 。 meta-path scheme定义如下:
其中表示不同类型节点和之间的关系 。 节点的跳转概率为:
其中 ,, 表示节点的类型的邻居节点集合 。 me ta-path的定义一般是对称的 , 比如user-item-tag-item-user 。 最后采用skip-gram来训练节点的embedding向量:
其中:表示节点的上下文中 , 类型为的节点 ,
通过分析metapath2vec目标函数可以发现 , 该算法仅在游走是考虑了节点的异构行 , 但在skip-gram训练时却忽略了节点的类型 。 为此 , 作者进一步提出了metapath2vec++算法 , 在skip-gram模型训练时将同类型的节点进行softmax归一化:
metaptah2vec和metapath2vec++的skip-gram模型结构如下图所示:
本文插图
metapath2vec++具体步骤如下图所示:
本文插图
2、深度图模型 上一节讲的浅层图模型方法在世纪应用中是先根据图的结构学习每个节点的embedding向量 , 然后再讲得到的embedding向量应用于下游任务重 。 然而 , embedding向量和下游任务是分开学习的 , 也就是说学得的embedding向量针对下游任务来说不一定是最优的 。 为了解决这个embedding向量与下游任务的gap , 研究人员尝试讲深度图模型是指将图与深度模型结合 , 实现end-to-end训练模型 , 从而在图中提取拓扑图的空间特征 。 主要分为四大类:Graph Convolution Networks (GCN) , Graph Attention Networks (GAT) , Graph AutoEncoder (GAE)和Graph Generative Networks (GGN) 。
本节主要简单介绍GCN中的两个经典算法:1)基于谱的GCN (GCN);2)基于空间的GCN (GraphSAGE) 。
其他方法有兴趣的同学可以参考 。。。
提取拓扑图的空间特征的方法主要分为两大类:1)基于空间域或顶点域spatial domain(vertex domain)的;2)基于频域或谱域spectral domain的 。 通俗点解释 , 空域可以类比到直接在图片的像素点上进行卷积 , 而频域可以类比到对图片进行傅里叶变换后 , 再进行卷积 。
- 基于spatial domain:基于空域卷积的方法直接将卷积操作定义在每个结点的连接关系上 , 跟传统的卷积神经网络中的卷积更相似一些 。 主要有两个问题:1)按照什么条件去找中心节点的邻居 , 也就是如何确定receptive field;2)按照什么方式处理包含不同数目邻居的特征 。
- 基于spectral domain:借助卷积定理可以通过定义频谱域上的内积操作来得到空间域图上的卷积操作 。
谱图卷积是直接对图结构数据及节点进行卷机操作 , 其定信号与卷积核(为参数化的滤波器)在傅立叶域上的乘积为:
- 服务|【IPO解码】恒大物业(06666-HK)拟12月2日敲钟上市,五大竞争优势助力恒久质远
- 每经19点丨股票代码6666!恒大物业即将上市
- 钛媒体微信上线“裂开”“666”等6个表情包,“让我看看”灵感来自《还珠》五阿哥?
- 沉默不语666小米外海创子品牌POCO,新机与红米Note9多项参数重合
- 扬眼|他写下10万字“相亲指南”爆红,成爱情导师,相亲失败80多次后
- 趣味社会学|却用10年写出80万字专著,打脸他人,他送外卖不上进被嘲笑
- 王者荣耀|孤影再露丑恶嘴脸,solo赛三分钟被杀穿投降,影响心情666给你下一把
- 美剧去哪看|北大最强“扫地僧”上线!网友:666+牛牛牛
- 深夜重磅!遭自媒体“空袭”,千亿巨头近万字公告反击
- 沉默不语666 中端机型,荣耀还有新机!水滴屏+天玑800U