在线身份认证|OCR技术用于在线身份认证的运营效果分析( 二 )


从技术底层来讲,我们暂时放弃了中国相对独有的“去中心化公民自证”特色,转而使用“中心化政府数据库”的验证方式,因此在这一领域,我们与西方国家的很多公司就形成了同频,可以相互借鉴而共同提升技术,但也共同承受这个技术带来的缺陷和管理风险,比如:OCR技术的识别准确率、人脸识别技术的准确率、个人隐私数据的保护、政府数据库的合法合理使用等。
客观来说,我国在技术方面丝毫不落后,但是在数据的管理和保护层面则差强人意,事实上造成了国内的身份数据满天飞的乱象。随着近期我国《数据安全法》、《个人信息保护法》、《网络数据安全管理条例》的发布和落实,这方面后续应该会有显著的改善。
接下来,本文不纠结于 OCR 身份认证服务中的技术和管理问题,而是转向这个服务的运营效率问题,即:业务流程中引入 OCR 身份认证服务的用户留存和转化效果。

在线身份认证|OCR技术用于在线身份认证的运营效果分析
文章插图
三、OCR身份认证服务的用户转化漏斗:不算不知道,算了吓一跳的惊人损耗我们来详细拆解下OCR身份认证服务中的关键步骤:
1)从用户处获得身份证图片,可能从相册里获取,也可能直接调用手机摄像头实时拍摄。由于个人将身份证照片存储在相册中的安全风险实在太大,且该方式极其容易造假,因此现在以手机银行为代表的业务方已禁止使用。本文中只分析第二种获取方式:即调用手机摄像头实时拍摄身份证。
2)从身份证图片中解析出身份要素信息;若无法解析,则回到步骤 1。
3)后台发送给某供应商提供的“政府数据库”云端验证接口,进行信息验证。若不通过,则回到步骤 1。
对应的转化漏斗图如下:

在线身份认证|OCR技术用于在线身份认证的运营效果分析
文章插图
步骤一的用户流失率是最严重的,约达 40%:
1)若用户的身份证不在身边,将无法完成本流程。这部分用户约占 20%。要彻底解决的话需要全新的技术解决方案,比如前些年公安部在试点创新的 eID、CTID 等,但目前来看距离全面的实用化都还很远,因此可以简单认为短期内无解。
2)若拍摄效果不好,也将无法完成本流程。这部分用户也达到20%。一方面是受光线、拍摄角度、拍摄稳定性、摄像头质量等外界客观影响,导致摄像头始终无法锁定聚焦到身份证,另一方面则是因为页面设计的易用性问题、软件bug或网络不稳定等原因,导致用户在过程中放弃。这方面应该可以有很大的优化提升空间。
步骤二的用户流失率弹性很大,约 10%~30%:
可以简单地认为,该步骤的用户流失率就几乎等同于 OCR 识别结果的错误率。因为按照风控原则,这一步骤是不能让用户手动修正的,否则就失去了身份认证的意义了,因此一旦信息识别错误最终就只能回到上一步重新来过。
流失率弹性的关键,主要取决于是否需要识别住址信息。
若仅需要识别姓名、身份证号码乃至身份证有效期,现在业内成熟的 OCR 算法已可做到 85%以上的正确率,最好的据说能做到 90%。然而如果要准确识别出身份证上的住址,OCR 的技术难度则几何级别增长,经常会识别出非法字符。幸运的是,目前除了金融、出行、用工等少数场景外,对识别住址的需求还并不普遍。

在线身份认证|OCR技术用于在线身份认证的运营效果分析
文章插图
(地址识别为非法字符)
步骤三的用户流失率,约 5%-10%:
通常来说,只要OCR在第二步中正确识别出身份证信息,就一定可以顺利通过“政府数据库”的校验。
但实际上,受限于自身的业务风控规则(如限制未成年人、特殊年龄的人、黑名单用户等,通常约 5%),以及第三方供应商的数据源和服务稳定性等原因(通常不到 5%),会导致部分用户无法通过。
其中,因业务风控规则而产生的用户损耗是无法避免的,但对第三方供应商的质量把控则是可以优中选优。
综上所述,完整的 OCR 身份认证服务做下来,用户流失可能会高达 60%(1-0.6*0.7*0.9),极限优化后也会高达30%(1-0.8*0.9*0.95),是不是会很惊人?
业务还没真正开始做呢,1/3的用户已经跑去火星了,这还怎么活?
虽然可以通过其他方式把用户拉回来再试一次,但终究是个让人害怕的运营黑洞。必须要解决才好。
从关键因素来看,需要解决的要点在于:优化拍摄身份证照片这个过程的不确定性,和OCR 识别信息(特别是大段地址信息)的准确度。如果这两个过程能够做到无损,则整个服务流程的用户流失率可以降低到75%(1-0.8*1*0.95),而且都是由于纯粹的客观因素而造成的,不会引发用户的不满,或者说对于有价值的用户,不会产生无谓的损耗。