公开课 | 年前“封麦”直播:配对标注还原数据真实排序+慢特征分
本周四晚,年前“封麦”公开课,3场连续语音直播!错过这场,咱们就年后再见啦。公开课可以永久回听,暂时没空的小伙伴可以扫码进入直播间收藏课程,假期学起来。
抽象数据的智能具象:配对处理让标签精准化
大量有标注数据的产生,是机器学习研究取得进展的重要因素。如果我给你一张“赫敏”的照片,问你“美不美?请用1-10分打分”,你可能会打满分。但是,你的女票/男票对同一张照片会打几分?很难说。
Emma Watson,图片来自网络
如果我同时给你两张照片,比如同时让你看“赫敏”和“罗恩”的照片,让你给出两张照片“美不美”的相对得分,这样是不是更好呢?如果有了很多人给出的照片相对得分,我们可以更科学地恢复出数据中隐藏的“真相”——到底谁美。
本次公开课主要介绍在众包平台中,众多工作者用连续变量对数据进行标注的问题。此类问题经常出现在对视频中人物的图像进行标注、工作面试评估、年龄估计等应用中。为了获得较准确的标注,一般需要专业人员对这些数据进行评估。由于需要标注的数据量较大、专业人员人数少且雇佣成本高,所以通常需要求助于群众的智慧,雇佣众多没有经过专业训练的人对数据进行标注。但当有很多工作者一起对数据进行少量的标注时,工作者的偏见很难进行评估和纠正。配对打分的标注方式,可以在一定程度上降低偏见的问题。在标注的过程中,工作者一次看到一对比较对象,给出他们的偏好,基于这些偏好,我们能够较好的恢复出原始数据的排序。
本次公开课将对比配对Ranking问题中的Fisher信息最大化无监督采样算法、贝叶斯信息最大化有监督采样算法、小世界网络算法,尝试小世界网络图构造。
嘉宾介绍
曾令辉
,华院数据技术(上海)有限公司算法研究员,致力于基于人格分析的用户智能画像,通过对小数据的精准分析获得用户的人格特质,立体化深度洞察人与人的内驱差异。复旦大学计算数学专业理学博士,博士期间主要研究力学和工程中的数值代数和科学计算问题。曾任职华为,历任无线网络研究部MBB研究部和云核心网 NFV 研究部研发工程师,主要从事于云计算和区块链等技术在电信网络中的应用。
2月8日(周四)19:00
扫码听课??
慢特征分析及其在个性化推荐中的应用
慢特征分析(SFA)是Wiskott提出的一种在快速变化的时序信号中抽取慢特征的批量学习算法。
我们常见的视频、脑电波和时间序列等都属于时序信号。什么是慢特征?慢特征就是变化比较缓慢的特征。
比如,人的感观器官中,视网膜比较原始(能处理的信号维度少),对光线强弱的变化明显,即随时间变化快。而大脑处理的信号维度比较多,层次较为复杂,随时间的变化相对比较缓慢。
本次公开课将介绍如何采取定量刻画的方式提取慢特征,从数学的角度进行分析,包括数学模型和输入输出信号的分析。
最后,我们将结合个性化推荐系统的一个案例,具体给出行为数据中的慢特征分析方法。
为帮助大家理解此次公开课内容,大数据文摘特意采访了公开课嘉宾徐清博士——
大数据文摘:
对于从未接触过慢特征的小白来说,怎么理解慢特征比较合适?
徐博士:
慢特征就是变化比较缓慢的特征。比如说,一段视频中,有一只猴子从左边走到右边。像素点和色块的变化是很快的,但是物体的变化(以及视频中是否有猴子)相对来说比较缓慢。这种变化比较缓慢的特征抗干扰性强,比如说,稍微对像素点加点扰动,或者把彩色的变成黑白的,猴子还是猴子,但是色块已经不是原来的色块了。
视频中是否有猴子,是一种慢特征
大数据文摘:
是否可以将猴子的变化理解成一种慢特征?
徐博士:
是的,视频中出现的物体是否是猴子,以及猴子的位置,这种都是慢特征。
大数据文摘:
如何判定大脑处理的高层次信息随时间变化缓慢?
徐博士:
大脑处理的信息可以用脑电实验做出来,脑电信号的变化一般来说比像素点的变化缓慢得多。
大数据文摘:
请问定量刻画慢特征是如何实现的?
徐博士:
这也是本次公开课的重点,这方面结果国内研究和相关资料比较少,也是也比较新研究课题。在这里先给大家透露一下,利用拉格朗日对偶法和广义特征值问题可以定量计算慢特征。
嘉宾介绍
徐清
,华院数据技术(上海)有限公司分维(Fra+)团队算法研究员,致力于研究个性化推荐技术,整合不同来源小数据打造新一代智能画像引擎。本科与博士均毕业于复旦大学数学科学学院,研究方向是随机控制、随机分析与优化理论。博士期间建立了无穷时域的二次倒向随机微分方程理论,在金融风险度量、Feymann-Kac表示等领域中有诸多应用,所写论文Some Results on the Controllability of Stochastic Schrodinger Equations荣获第三届随机系统与控制论坛优秀博士生论文奖。在校期间荣获多次全国数学与建模竞赛一等奖,三次荣获国家奖学金,2011届复旦大学本科生毕业之星。
2月8日(周四)19:40
扫码听课??
新消费升级时代下机器学习在数字化精准营销中的应用
随着人口结构的波峰迁徙、城镇化水平的持续提高、数字化全面渗透至生产生活的各个领域,我们迎来了新消费升级时代。在时代的大趋势下,如何通过机器学习进行用户识别与行为特征分析,进而基于客户需求及动机的深层次消费者洞察,将大数据带来的信息更好的应用在消费场景当中,是数字化精准营销领域一直在研究探索的课题。
本次公开课将主要介绍基于Host2vec Model快速高效的Lookalike用户群拓展算法,以及算法成果在数字化精准营销领域的评估与应用。
Lookalike Machine Based on Host2vec Model
Host2vec是Word2vec方法在用户群拓展推荐领域的迁移应用。
用户上网行为特征序列等价于Word2vec中的word序列,同一个用户一段时间周期内的上网特征集可视为positive,将one-hot编码后的海量高维稀疏的用户online浏览行为,通过浅层神经网络训练后,映射到低维稠密的向量空间中,最终得到每个上网特征的embedding表示,即用有限维度的低维向量来表示该host(域名/IP/URL标签/Patterns…),进而可以通过计算每个低维向量之间的相似度来衡量host之间乃至用户之间的相似性。
相比较于传统的用户群拓展算法将种子用户标记为正样本、备选用户标记为负样本、并训练分类模型筛选备选用户群,Host2vec方法可以大幅度减少计算时间,同时在错误标签的检测和纠错方面也有良好的表现。
以股票app用户举例,与同花顺股票最为近似的标签集中于金融相关的外汇、财经、基金、证券等,截图内,中国游戏中心也与同花顺股票非常近似,实际为其旗下的德州扑克游戏人群与同花顺股票人群重合度较高,需要另外拆分标签。
嘉宾介绍
林昱洲
,华院分析DMP数据产品总监,高级数据分析师。中国人民大学统计学学士,意大利佛罗伦萨大学统计精算与金融学硕士。在数据挖掘、统计建模、大数据处理技术、互联网精准营销、DMP产品设计等领域有丰富的项目经验,擅长使用R语言、Python、SAS等统计程序实现评分卡、协同过滤、文本挖掘、BP神经网络、逻辑回归、RFM、Embedding等算法模型。曾负责实施运营商、金融、电商等多个领域的数据分析和挖掘项目,在数据运营、精准营销、风险评估、客户画像等领域有多年的市场经验。
2月8日(周四)20:20
扫码听课??
公开课福利!
进入直播间后,点击“邀请朋友一起来听课”,生成专属邀请海报,开课前邀请人数排名前5的小伙伴,将获赠大数据文摘与清华大学数据科学研究院联合发布的2017年
《顶级数据团队建设全景报告》
完整版PDF一份。如有疑问,请添加课程小助手微信(微信ID:ai_learner)
【今日机器学习概念】
Have a Great Defination
- 科学家:29亿年前的金星有生命
- 2022年前哈国将完成对 85% 的地方公路翻修
- 二十年前收到这样的一摞纸币当做压岁钱,现在有人出价三千!
- 中国两千年前的经济学家,用“货币战争”灭了两个国家!
- 狗年春晚没意思?看看60年前的春晚吧!
- 100多年前,杭州就有了\"地铁\"!这个地方实现轨交、公交双覆盖
- 看30年前的楷书教程,非常走心!
- 两百年前,英使奉命去见乾隆皇帝,他看到神秘的大清国叫人不信!
- 世界上最古老的假动作!林丹假动作几十年前就有人会了!
- 新年前的最后一篇文,献给这一年的500万个你们