周涛:利用社交媒体内容信息,为新用户提供位置推荐( 六 )

,特别是为新用户做更准确的推荐,解决冷启动问题

[8][9]



我们爬取乐街旁265951用户在189850个地点的18653706个签到数据,因为大部分用户都会在新浪微博分享签到,所以我们可以打通这两个平台的用户信息,获得大量文本信息——其中每一个用户平均我们能够得到6700+单词(words)和5个标签(tags)——通过

结巴切词和tf-idf过滤

,我们最终保留了包含8000个单词的词汇表,在这个词汇表下面平均每个用户只有1500+单词。部分用户的性别、年龄等特征也可以获取。地点的一些特征,包括分类、描述等等也可以得到。

 

我们以

用户-地点偏好矩阵