联系人建模困难,缺乏行为数据?了解一下联系人倒排表特征吧


编辑导语:建模 , 是为了理解事物而对事物做出的一种抽象 , 是对事物的一种无歧义的书面描述 。 建模是研究系统的重要手段和前提 , 凡是用模型描述系统的因果关系或相互关系的过程都属于建模 。 如果在建模的过程中发现缺乏行为数据 , 你该怎么办?针对这个问题 , 本文作者为我们分析了联系人倒排表 。
联系人建模困难,缺乏行为数据?了解一下联系人倒排表特征吧
本文插图
一、联系人倒排表特征简介
1. 使用背景
在构建用户风控评分卡时 , 工程师们经常为特征数量和数据维度所困 。 特别是实时评分卡 , 因为实时申请用户往往缺乏行为数据而使得模型构建困难 。
在大集群数据计算时 , 使用图数据效率又不是很高 。 因此 , 倒排表成了一个可以高效率挖掘用户关系特征的重要方向 , 倒排表特征是新申请用户关联到老平台用户的特征 。
2. 倒排表特征简介
倒排表区别于正向表 , 和传统的倒排索引区别于正向索引有类似之处 。
例如:关系人电话倒排表也是通过在正向关系表的用户-联系人电话维度表(图一) , 导出逆向的倒排的联系人电话-用户的维度(图二) 。 但倒排表和倒排索引不同的地方在于 , 电话与电话之间和用户与用户之间不存在先后关系 。
联系人建模困难,缺乏行为数据?了解一下联系人倒排表特征吧
本文插图
图一:用户-联系人电话的正向表
联系人建模困难,缺乏行为数据?了解一下联系人倒排表特征吧
本文插图
图二:联系人电话-用户的倒排表
倒排表特征区别于常规特征 , 倒排表特征的主键往往不是用户身 。
例如:常规特征如表1所示 , 主键是用户本身 , 常规特征也是属于用户本身的 。 但是 , 倒排表特征的主键却不是用户本身 。 从根本上说 , 这个倒排表特征是属于对应的主键的 , 联系人倒排表特征的主键则是联系人电话 , 如表2所示 。
表一:常规特征表
表二:联系人倒排特征表
倒排表特征的使用是通过用户的某项用户数据 , 关联成用户本身的特征 。
例如:本文要介绍的联系人倒排表特征是 , 先拿到这个用户拥有的电话号 , 然后再去联系人倒排表中查找这个电话号的倒排表统计特征 。 除了联系人电话这个主键外 , 还可以使用地址或设备信息作为主键 。 在本文中主要介绍以联系人电话为主键的倒排表特征 。
3. 倒排表特征的结构
要制作倒排表特征总共需要准备与制作4张表 。 分别是:倒排关系表 , 用户特征表 , 倒排用户特征表和倒排特征最终表 。
它们的关系如图三所示:
联系人建模困难,缺乏行为数据?了解一下联系人倒排表特征吧
本文插图
图三:倒排表特征制作结构
首先 , 倒排关系表和用户特征表合成成倒排用户特征表;然后 , 使用倒排用户特征表计算出倒排特征最终表;最后 , 用过倒排特征最终表关联用户数据得出倒排表特征 。
我会在下文中分别介绍这4张表的作用和制作方法 。
二、联系人倒排表特征的制作
1. 联系人倒排关系表
倒排关系表是由原始关系数据生成的一张关系表 。
例如:联系人倒排关系表是一张联系人电话和现有用户的关系表 , 表中的联系人电话和用户关系是通过通讯录数据或者电商下单购买数据等提取出的;例如:在电商下单数据中 , 每一条数据都有收货人电话和下单用户的用户id 。
如果 , 用户1给电话a和电话b下过单 , 记:
共两条数据 。
如果 , 用户2给电话b和电话c下过单 , 则记下:
共两条数据 。
因此 , 关系人倒排表会如表3中记录所示 , 共4条数据 。 表中 , 主键是电话 , 每行数据对应一个电话和下单用户的关系 。