干货|深度解析两种信用评估模型
来源 | 简书
作者 | 大圣2017
“大数据”概念的最早出现,是从2012年2月份纽约时报一篇文章开始的。到目前为止,在大数据领域当中的投资已经越来越热,该领域企业越来越多。大数据在美国金融当中最直接的场景,主要运用于信用评估体系。
信用评分是一个数字,帮助贷款人评估一个人的信用报告,估计其信用风险。信用评分会影响一个人的能力,以符合不同类型的信贷和利率的变化。一个具有较高信用评分的人,可能有资格获得更长的贷款期限和更低的利率,从而获得更多的实惠。美国的信用评估体系很早,对每个人都有制衡作用。中国现在也在做,但是还不太成熟,这个领域中有很多机会。
本文通过一个典型案例,来介绍两种信用评估模型,了解其中的差异。
案例分析
我们以历史上的两个典型人物司马懿和诸葛亮作为代表,将他们历史上的典故事例来模拟化举例:假设两人活在现代并且正在申请借贷,我们来分别评估其信用情况。
信用评估模型 1.0
假设我们搭建一个传统信用评估模型v1版,在此模型中,我们会采集如下一些数据指标。
基于上述两人的基础数据指标而形成的信用报告,就可能分别有如下描述——
司马懿:跟曹操混了那么多年,日子过得不错,拥有过许20年的信用历史,而且这个官级从养马开始一点点升上来,他可能盖房子借过钱、买马车借过钱,所以信用值也不错,最近没有新的贷款。
诸葛亮:日子过得没那么好,帮刘备打下蜀国了,但是毕竟蜀国财政没那么好。收入可能只有3000块钱,过去24个月还违约过一次,只有7年的信用历史,最近还老是借钱,借过3次,贷款类型也不丰富,借过钱买过马车。
将这二者之间进行比较,毫无疑问,大家都会选择把钱借给司马懿,而不借给诸葛亮。这就是个典型的传统风控模型,看重债务历史,而不看重现在。
信用评估模型 2.0
倘若以互联网思维来分析并建立起信用评估模型v2版,或许会获得截然不同的结果。在v1版的基础数据指标之外,我们还增加了许多额外的数据指标项,如下表:
所以在v2版中,司马懿和诸葛亮的信用报告,则可能是这样来描述——
司马懿:其上网IP地址来自于魏国国家图书馆、蔡文姬茶楼等,他不从工作的地方来、也不从家里来,可以证明他没有稳定的收入。而他刚刚申请了两个发薪日贷款,这证明他以前有钱,现在没钱。而他的学生贷款是从公司里扣除的,说明他钱不归他控制,而由魏国国家政府控制着意味着信用记录并不好。而从地址来看,他最近一会在许昌,一会在洛阳,一会在长安频繁搬家,从整体情况来分析,很可能最近他混得比较惨。
诸葛亮:其借钱的原因是他去年被马车撞了,蜀国的医疗保障不健全,他只好自己付了医疗费,这意味着40%的DIT来自于他借款还医疗费,而之所以历史信用记录不长,是因为他刚刚搬到四川,当丞相的时间不长,信用体系仍然没有建立完全,但最近五年他一直住在丞相府,地址相对稳定,而且在学生时代曾从司马徽,庞德公那里拿过奖学金。如果把所有的因素放在一起,信用评估的结果就会发生变化。
在这个大数据场景当中,如果有一个合适的建模的方式,能够产生一个二维决策,那么就可以看到,最终借款的人应该是借给诸葛亮,而不应该是借给司马懿。
所以,真正的信用评估应该是这样的:传统的占一部分,但是可替代的网络数据也占据一部分,包括用户在网上体现出来的网络行为、社交信息和来自用户自己的回答,要把所有这些信息全部给综合起来才可以。
在传统数据当中,我们只看到了深度没看到广度;
在大数据场景下,更多地注重广度,因此当下网络上的数据也很重要。
传统信用评估
美国的传统信用评估体系很简单,主要通过五大因素评估信用值。
传统信用评估模型的参考要素
传统信用评分模型的参考要素
首先是债务历史(权重35%)。包括a)各种信用账户的还款记录;b)公开记录及支票存款记录主要包括破产记录、丧失抵押品赎回权记录、法律诉讼事件、留置权记录及判决;c)逾期偿还的具体情况,如果曾经发生违约,则会对个人今后借款能力产生重大的影响。
第二是未偿债务(权重30%)。即当下总共欠了多少钱。对于贷款方来讲,少量的债务,并不意味着这个客户的信用风险高。但是,如果一个客户有限的还款能力被用尽,则说明这个客户存在很高的信用风险。即使你是比尔盖茨,如果你借款已经超过了你的偿还能力,也是个大问题。
第三点信贷时长(权重15%)。如果有甲乙两个人,甲在10年之前就有过一张信用卡,而乙直到今年才有第一张新的信用卡。对贷款人而已,虽然无法直接判断谁的偿还能力更强,但至少觉得甲有更多的信用数据,会更靠谱一点。
第四点新开立的信用账户(权重10%)。在现今的经济生活中,人们总是倾向于开立更多的信用账户,选择信用购物的消费方式。如每一次买房、买车都会产生新的信用卡账户。据调查,在很短时间内开立多个信用账户的客户具有更高的信用风险,尤其是那些信用历史不长的人。
第五点是正在使用的信用类型(权重10%)。主要分析客户的信用卡账户、零售账户、分期付款账户、金融公司账户和抵押贷款账户的混合使用情况。具体包括:持有的信用账户类型和每种类型的信用账户数。
这些东西全部加起来形成了美国现有的评分体系。
其中应用最广泛的是由Fair Isaac公司推出的FICO信用评分模型。全球三大商业个人征信巨无霸:益百利(Experian)、艾克发(Equifax)和环联(Trans Union)都是以FICO评分为基础来提供的,作为贷款人的重要参考指标。可以说,FICO评分技术为全球2/3的信用卡业务提供保护,仅在美国就帮助各类机构实现高达100亿美元的审批贷款决策。
传统信用评估的不足
传统信用评估至少存在三个方面的不足:
FICO评分及相应人群的分布
首先,传统的信用评估服务无法覆盖全体人群,特别是弱势群体。图1展示了美国FICO评分与其对应的人口分布情况,而根据FICO的标准,如果人们未能如期还款,或者缺乏借贷经历,他们就会自动被视为风险人士,他们的贷款也就会被惩罚性地给以更高的利率。还有一种可能,那就是他们的贷款申请会被拒,无论是否事出有因。比如,遇到了医疗紧急事故,或者最近刚刚移民美国。即使在金融体系发达的美国,也约有15%的人群,因为信贷记录缺失或不完整,而无法获得常规的金融服务,或者需要付出很大的代价才能获得常规的金融服务。
其次,传统信用评估模型信息维度比较单一。传统的FICO评分模型的基本思想是比较借款人信用历史资料与数据库中的全体借款人的信用习惯,检查借款人的发展趋势跟经常违约、随意透支,甚至申请破产等各种陷入财务困境的借款人的发展趋势是否相似。它主要从前文所述的五个方面考察用户的信贷资质。但随着信贷业务的进一步开展,FICO信用评分由于单一的标准、严苛的门槛和片面的评估结果而饱受诟病。
最后,传统信用评估模型时间上比较滞后。虽然FICO评分仍然体现风险排序,但其预测绝对风险的能力和在2008年金融危机中的表现饱受指责。如图3所示,FICO分数从2005年到2011年在美国人口中的分布基本上没有大的变化,这和2008年金融危机爆发之后出现大量坏账的现实严重不符。
FICO评分从2005到2011年在美国人口中的分布情况
大数据信用评估
由于传统的基于FICO评分的信用评估模型覆盖人群窄、信息维度单一、时间上滞后,所以,在互联网时代,需要探索信用评估的新思路——利用大数据技术来完善传统信用评估体系。
美国互联网企业ZestFinance公司则是其中的代表。其基本理念是认为 一切数据都是和信用有关,在能够获取的数据中尽可能地挖掘信用信息,从大数据采集和大数据分析两个层面为缺乏信贷记录的人挖掘出信用。
其基本理念包括:
一切数据皆为信用,“积少成多、汇流成海”。在此之前做统计、做因果系统的时候,总是希望能找到原因判断这些事情到底是不是靠谱。但是在大数据的情况之下,可以暂时不考虑背后的原因,只看关联不看因果。
数据的来源很重要。包括错误信息也是有用信息,比如说谎能体现出一个人素质。
大数据多阶段建模。首先考虑过成千上万种原始数据变量;然后理清变量关系,转换为有用的格式;将被转换变量合并到元变量中,形成用户画像;将元变量输入到不同模块中,每种模块代表一种“技能”;每一个模块贡献一定分数比例,合成最终的信用评分。
图4:大数据征信的数据源
这种基于大数据的信用评估体系和传统信用评估体系相比,主要有以下几方面的区别:
启示
ZestFinance 主要面向两类人群:
1、一类是( FICO 评分接近或低于 500)无法获得基本的信贷需求的人群,解决他们的无信用评分借贷问题,
2、另一类是信用分数不高而借贷成本高的人群,利用大数据征信降低他们的信贷成本。
虽然ZestFinance的体量不大,目前仅为10万美国人提供了服务,在美国的影响力有限,其新兴信用评估体系还不够成熟,真实的效果目前还很难总体评价。但是,为征信业的变革注入了活力,特别是对于我国的征信体系的建设会有强烈的示范作用。
需求方面——普惠金融需要挖掘更多人的信用。国内目前真正发挥作用的征信体系主要是央行的征信系统,所覆盖的人群还是非常有限,远远低于美国征信体系对人口的85%的覆盖。目前我国个人有征信记录的仅有约3.2亿人,约占13.5亿人口中的23.7%。国内数量庞大没有被传统征信体系覆盖的人群同样也需要信用服务,享受金融普惠,这就需要探索征信的新思路。
数据方面——海量的互联网信息,成为征信体系的新数据源。我国目前是世界上互联网人口最大的国家,截至2013年12月,中国网民规模达6.18亿人,互联网普及率为45.8%,其中手机网民规模达5亿人,继续稳定增长。2013年中国网络购物用户规模达3.02亿人,网络使用率达到48.9%。截至2013年12月,我国使用网上支付的用户规模达到2.6亿人。这些海量而且丰富的互联网数据资源可以被国内征信体系建设很好地利用,通过分析互联网上这些信用主体的基本信息、交易行为信息和金融或经济关系信息,同样可以挖掘出这些信用主体的信用模式。
技术方面——新兴的大数据技术,使得“一切数据皆信用”成为可能。以大数据为代表的IT新技术的应用,给征信体系建设带来了新的思路,原来海量庞杂、看似无用的数据,经过清洗、匹配、整合和挖掘,可以转换成信用数据,而且信用评估的效率和准确性也得到了一定程度的提升。新的信用风险体系的一个颠覆性的基本思想是一切数据皆信用,这是需要大数据技术来支撑的。
征信圈?
征信 | 金融 | 科技 | 大数据 | 互联网 | 监管
征信里最懂金融,金融里最会科技,科技里最理解征信
个人微信:credit_in
- 干货 | 初二物理期末知识点分析(第一期)
- 明天见!网贷之家高峰论坛干货满满、福利多多!
- 深度 | 解锁「锡马 5 年」
- 今晚19点 | 2017济南事业单位行测历年真题解析
- 深度 | 我国燃料电池汽车商业化影响因素分析
- 《帕丁顿熊2》视效解析
- 【运动装备日记】李宁叠影“智能跑鞋”深度测评
- 【知识点】五大方法搞定电功率计算(附例题及详细解析),高分必
- 每个孕妇都有了“特护” 贵州卫计深度融合样本调查
- 深度 | 英超降班热门 一队众望所归