为什么现金贷监管会强调KYC?

首页 > 观点 >正文

【摘要】现金贷等所依赖的“数据驱动的风控模型”,在KYC方面是否有效可信?面临哪些挑战?如何更快更有效地弥补大数据风控的缺陷?本文作者认为,在纯粹的机器学习之外,还需要辅助以人类的经验(可解释性),提升KYC的能力。

  莉莉财经  ·  2018-03-06 13:34
为什么现金贷监管会强调KYC? - 金评媒
来源: 财新网 特约作者 蓝晏翔   

金评媒(http://www.jpm.cn)编者按:现金贷等所依赖的“数据驱动的风控模型”,在KYC方面是否有效可信?面临哪些挑战?如何更快更有效地弥补大数据风控的缺陷?本文作者认为,在纯粹的机器学习之外,还需要辅助以人类的经验(可解释性),提升KYC的能力。

2017年12月1日,互联网金融风险专项整治工作领导小组办公室和P2P网贷风险专项整治工作领导小组办公室联合下发《关于规范整顿“现金贷”业务的通知》(下称《通知》),将现金贷业务纳入互联网金融专项整治范畴,统筹开展对“现金贷”业务的规范整顿工作。

《通知》界定了“现金贷”的概念,指出了现阶段现金贷存在的问题,提出了“现金贷”业务的整改方向。值得注意的是,《通知》的第一条第三款中指出,“各类机构应当遵守‘了解你的客户’原则,充分保护金融消费者权益,不得以任何方式诱使借款人过度举债,陷入债务陷阱”;同时明确说明,“谨慎使用数据驱动的风控模型”。

“了解你的客户”(Know Your Customer-KYC),来源于巴塞尔银行监管委员会在1998年12月通过的《关于防止犯罪分子利用银行系统洗钱的声明》。该声明明确提出了金融机构在提供服务时应当对用户信息和用户画像进行采集和识别。随后,KYC原则被各国的监管机构所接受并推行。随着时代的发展,KYC原则的内涵被不断地充实和扩展,目前作为业务开展的重要原则之一被各类监管机构广泛提倡。

在这一轮的现金贷监管中,着重强调各类机构应当遵守“了解你的客户”这一看似平淡无奇的原则,且明确提出“谨慎使用数据驱动的风控模型”,或许是在提示监管层的一种思考:对大数据和机器学习的盲目崇拜,已经给现金贷甚至整个金融行业带来一些潜在风险。

从商业应用到大数据崇拜?

进入二十一世纪、特别是2010年以来,随着国内电信基础设施的快速改善、移动互联网的普及,以及大数据、云计算产业的发展,数据科技对社会生产生活的各个方面都产生了深远影响。智能营销即是数据科技在业务开展中的典型应用:通过分析用户的行为和交易之间的关联,假设具有类似行为的用户具有类似的交易行为,从而对不同用户进行个性化的营销,提升用户转化率和产品销售。

互联网金融领域,用户的风险评估是大数据技术的另一个典型应用,其基本原理是基于用户的申请数据、机构内部数据、第三方合作数据以及互联网上的其他数据,通过复杂的机器学习模型对于用户的信用资质做出评估。该类模型强调评估结论与输入数据的相关性,而不是很强调甚至完全不评估结论与输入数据的因果性;从另一个角度来说,机器学习模型会使得评估结论与输入数据的因果性变得非常困难。

这也是为什么业内始终在讨论:大数据风控的安全性有多高?

有一种观点认为,只要收集到足够多的数据,加上好的算法,数据模型就可以得出更精准的刻画,做出比你自己更了解自己的判断。支撑这个观点的依据有两个核心假设:能够收集到“足够多”的数据;能够对用户过往的申请数据和信贷表现进行拟合,并对用户未来较长时间的信贷表现作出精准预测。

可是信贷行业有其特殊性,其主要表现是风险在时间上的滞后性和空间上的外溢性。时间上的滞后性,是指信贷资产的风险是逐渐累积并持续暴露的,风险充分暴露的时间短则数个月,长则几年。无论从理论上还是实践上,单纯的“数据驱动”的方法,都很难通过用户在申请时点上的数据去预测用户一定时间之后的风险表现,而应充分结合客群特征(“了解你的客户”)、产品特性(“了解你的业务”),再结合大数据技术深刻探究用户数据和信用资质间的因果关系,使得信贷资产在相对较长时间后的风险表现能够符合当时的预测。

空间上的外溢性,是指现在各个经济金融业务之间都是广泛联系的,金融风险会在相关行业或机构间传导甚至放大。如今大数据风控技术更多地基于用户的数据进行风险决策,对于广泛联系的复杂社会经济活动的数据采集和建模,还处于一个很初期的阶段,即在空间上很难收集到“足够多”的数据来进行准确的风险评估,这使得机构无法有效防止其他行业或机构的风险“外溢”到自身资产。

在这种情况下,大数据模型的基本假设有可能发生重大变化,失效几率很高。例如,近期随着监管的进一步规范,市场上各项以小额高息“现金贷”为代表的业务陆续被叫停,这一变化导致各家机构抽贷现象激增,并快速蔓延,集中表现为逾期率上升(图表1)和模型排序性失效(图表2)。有报道称,此类产品的首次逾期率从20%-30%急剧增高到60%,这即是信贷资产风险“外溢”的典型表现。

1520292956110358.jpg

1520293002683946.jpg

考虑另一个假设,“通过大数据,能够基于用户过往的申请数据和信贷表现,预测用户在未来较长时间的信贷表现”。然而,这种预测可以提供的是相关性,但是无法提供因果性。也就是说,尽管大数据能够非常好地检测相关性,特别是那些用小数据集可能无法测出的微妙相关性,但是它并不会告诉我们哪一种相关性是有意义的。

比如,在某消费分期业务中,数据模型假设告诉我们这样一个结论:借贷市场上某渠道的客户比其他渠道呈现出更低的风险,却无法告诉我们是如何得出这一结论的。这样一个不具有解释性的结论,使用起来会有较高风险。因为真实的原因可能并不是该渠道的客户比其他渠道的客户好,而是该渠道为了维持放贷机构对于其足够的风险敞口,而为该渠道上的用户做了包装美化,从而使得该渠道的风险看起来要比其他渠道低。但我们并不能从这样一个结论中真正了解这些客户。

在上述情况下,仅仅通过大数据,是无法通过用户过往的信贷表现去预测用户未来较长时间的信贷表现的。因为这里仅仅通过数据和模型解决了相关性,而没有通过KYC解决因果性。

传统金融机构够不够KYC?

目前银行等传统金融机构对大数据风控的应用,还处在“传统风控手段的补充”的阶段,如身份核验以及信息的交叉验证等以辅助银行进行风险决策。这也可以看出传统金融机构的审慎态度,之所以表现出与金融科技企业不同的态度,很大程度上取决于银行的风险管理体系,以及建立在这个体系之上的较低风险偏好。

另一种观点认为,中国的大数据概念建立的时间还不长,目前积累的数据集仍然太小,大数据并不全面,无法覆盖足够多的人群和足够多的维度,数据的质量及数量都还有很大提升空间。同时,大数据模型对于输入和输出因果性解释的困难,也使得传统机构对于模型的稳定性充满了担忧。银行的担忧当然有其道理。放到更微观的层面上来看,在目前的发展阶段,外部数据在可得性和可用性上的缺陷,也在一定程度上阻碍了银行大数据风控的升级应用。

在此情况下,传统金融机构更依赖于挖掘自有客户,通过自有客户与金融机构的业务往来数据(例如交易数据、账户数据)进行用户授信和管理;或者更多依赖于较为成熟但传统的金融经验应对个人信用,包括全国范围内线下网点体系对地域性经济社会文化环境的深入了解以及某一特定融资群体的理解,以及基于央行征信报告、银行流水、房产凭证、企业资产负债表的评估等对用户资质进行评估。

在移动互联网数据时代,传统金融机构相较互联网机构,对于用户在互联网上每天产生的大量数据仍然应用不足,这些数据和机构自有数据(线上+线下)的结合恰恰能够帮助描述用户的当下状态。以用户的手机号为例,机构通过用户的手机号和授权的通话详单,结合其他数据,可以更好地刻画出用户的生活状态(图表3),从而更有效地甄别坏用户、筛选好用户。

1520293047618710.jpg

失去了这部分信息,传统金融机构对于线下客户的KYC能否在线上时代与其多维数据形成合力,依然存在挑战。例如某银行在2017年12月公开场合提供了一组数字:个人信用消费贷款白名单客户达到47000万户,主动授信2.7万亿元,但净余额仅436亿元。中间巨大的鸿沟,体现出新消费时代传统金融机构KYC的一定偏差。

机器学习与人类经验共同提升KYC

大数据的确提供了KYC的另外一个维度。然而,从之前的讨论来看,由于目前无论在时间上还是空间上都无法收集到“足够多”的数据,这使得大数据在解决信贷风险的“滞后性”和“外溢性”上存在挑战;另外,直接使用不可解释的大数据分析结论也有巨大风险。

其次,相比于传统模型,大数据信用评级模型涉及的变量数量庞大,在数据样本量不足的时候容易导致模型发生“过拟合”(overfitting)。大量的样本和反复试错是解决过拟合问题、加速模型收敛的根本途径。然而,相比于其他行业,金融的容错性很低,并没有足够多的时间和空间容许数据去不断试错。数据的优化是讲究迭代的——被证明失效之后可以再来——可是这对当下的金融参与者而言,试错成本便是百分之百。

这就构成了大数据应用于金融领域不可避免的矛盾。

除了需要建立更加完备的大数据风控机制,更快更有效地弥补矛盾和缺陷的方式是,在纯粹的机器学习之外,辅助以人类的经验(可解释性),提升KYC的能力,以保证风控系统在内外部环境发生变化时不会突然失控。

过去一到两年,中国出现了Fintech(金融科技)概念并迎来行业的迅速发展,其中一大支撑便是“数据驱动的风控模型”。然而行业在高速发展中,由于标准尚未确立,出现了不少乱象。这也就不难解释此次关于现金贷的监管通知中为何着重强调“谨慎使用数据驱动的风控模型”。数据驱动不是没有价值,甚至应该说未来的价值会越来越大,但人类长期积累下来的“可解释性”经验,依然是数据驱动下不可或缺的矫正要素。

宏观来看,大数据时代的底层是人类最基本的一门学科——数学。数学本身就是一种对这个世界进行表达和刻画的重要方式,但是目前数学模型的能力,还不足以完整地表达这个世界。人类的经验,是对世界的复杂进行高度抽象的结果,这一点,相信永远会有其存在的价值。

(编辑:杨少康)

来源: 财新网 特约作者 蓝晏翔

上一篇文章                  下一篇文章

莉莉财经

评论:
    . 点击排行
    . 随机阅读
    . 相关内容