央行孙国峰：金融科技巨头可能变数据寡头，谁来监管金融大数据亟需明确

首页 > 观点 >正文

【摘要】针对金融大数据应用中存在的诸多问题，孙国峰认为，要充分发挥政府和市场的力量，从个人信息保护立法、信息共享机制建设、市场自律等多方入手，为金融大数据产业健康发展提供良好制度环境。

墨尘 · 2017-09-20 11:10

来源: 孙国峰 · 清华金融评论

金评媒（https://www.jpm.cn）编者按：针对上述金融大数据应用中存在的诸多问题，孙国峰认为，要充分发挥政府和市场的力量，从个人信息保护立法、信息共享机制建设、市场自律等多方入手，为金融大数据产业健康发展提供良好制度环境。

伴随互联网金融发展起来的大数据、征信等概念，今天已经被广为人知。但与此同时，如何保护互联网上的个人数据信息也成为亟待解决的问题。

中国金融四十人论坛（CF40）成员、央行金融研究所所长孙国峰近日撰文指出，大数据从互联网应用场景向金融领域的转移往往发生在一些金融科技企业的集团内部，这个过程缺乏监管和规范，可能会侵犯到用户的知情权、选择权和隐私权，当前隐私数据保护的边界不清晰。

当前，大数据在金融领域的应用主要包括大数据风控和大数据征信两个方面。在发展过程中，金融大数据应用面临的风险主要有四点。第一，一些金融科技巨头凭借其在互联网领域的固有优势，掌握了大量数据，客观上可能会产生数据寡头的现象，可能会带来数据垄断。第二，政府和企业都面临数据孤岛难题。第三，由于相关的法律法规体系尚不健全，数据交易存在许多不规范的地方，甚至出现数据非法交易和盗取信息的现象。大数据来源复杂多样加大了用户隐私泄露的风险。

针对上述金融大数据应用中存在的诸多问题，孙国峰认为，要充分发挥政府和市场的力量，从个人信息保护立法、信息共享机制建设、市场自律等多方入手，为金融大数据产业健康发展提供良好制度环境。

在制定个人信息保护的法律法规时，他认为，要系统考虑并解决以下问题：第一，可以在现有法律法规的基础上，充分考虑大数据的实际发展，尽可能拓宽现有法律法规适用于大数据产业的业务规范的边界；第二，要明确大数据的监管机构，特别是金融大数据的监管机构，界定其职能范围并赋予其足够的监管权力；第三，要保护好大数据主体的权利，如数据主体的知情权、选择权、访问权、个人数据可携权等；第四，要对数据控制者处理数据的行为边界进行严格的界定，数据控制者必须依法合规地进行数据处理，规范从互联网应用场景向金融领域的大数据转移；第五，要对数据控制者等其他主体非法使用数据的相关行为进行明确的处罚规定等。

1、大数据在金融行业的应用

大数据指“无法在一定时间范围内用常规工具进行捕捉、管理和处理的巨量数据集合”。传统的数据集合往往是基于特定目的收集的，随着新兴信息技术的发展，互联网移动终端越来越融入到日常生活和经济行为之中，尤其是智能硬件和设备的普及，与出行、消费、娱乐、支付等相关的数据呈爆发式增长趋势，互联网企业积累了大量数据。这些数据从多个维度刻画了经济主体的行为特征，从中可以挖掘出许多额外的信息和关联逻辑。传统的数据库软件工具和数据分析方法无法在短时间内抓取、管理和处理大数据，不仅仅因为其规模大，还在于其复杂性，传统数据一般都是结构化数据，而大数据往往包含大量非结构化数据，包括图片、视频、语音、地理位置等，并且数据都在实时更新中，云平台、云计算、机器学习等技术的突破使得对大数据的分析成为可能。金融行业由于天然具有数据量大的优势，成为大数据应用的重要领域，具体主要包括大数据风控和大数据征信两大方面：

大数据风控

金融是经营风险的行业，风险控制能力是金融机构的核心竞争力。金融机构通过信用评分模型来定量计算贷款违约的可能性，确定违约的损失分布，以规避风险损失，并根据预测的风险水平进行利率定价。传统的信用评分模型主要使用历史借贷数据和财务数据来预测和判断借款人的违约风险，采用传统的统计方法进行分析，这种方法最大的缺陷就是无法对那些缺乏历史借贷数据的借款人进行信用风险评估。在征信体系不完善的经济体中会存在信贷供给不足的现象。我国央行征信系统虽然覆盖了8亿多人，但只有3亿多人具有信贷历史，传统的风控技术对这部分信贷历史记录空白的群体是无效的。即便在征信业高度发达的美国，美国个人消费信用评估公司（FICO）评分也被批评信用评价标准过于单一，评估结果具有片面性，在时间上表现出严重的滞后性。

大数据风控是基于互联网大数据，将数据挖掘、机器学习等大数据建模方法运用到贷前信用评审、反欺诈等风控管理环节。与传统风控模型相比，大数据风控有三个基本特征：一是处理的数据种类多，更加多维度。大数据风控模型除了重视传统的信贷变量之外，还纳入了社交网络信息等信息，为信贷记录缺失的群体获取基本金融服务提供了可能性。比如，ZsetFinance的数据来源非常广泛，既包括传统的信贷记录等金融机构搜集的结构化数据，也包括法律记录、交易信息、电子商务、社交信息等非传统的数据和非结构化数据。二是关注行为数据，而不仅仅是历史财务数据。传统的信用评分模型变量均与反映被评价主体债务状况和资金延付状况等资金活动相关，但大数据信用评估更关注被评价主体的行为数据，在互联网大数据时代，电子商务、社交网络和用户的搜索行为等大数据都映射着经济主体的教育背景、工作经历、社交圈子，这些信息与信用水平可能存在某种联系。大数据技术是在充分考察借款人借款行为背后的线索和线索间的关联性基础上进行数据分析，降低贷款违约率。三是模型的建立是不断迭代和动态调整的结果。大数据风控模型的输入端是成千上万的原始数据，然后基于机器学习等技术进行大数据挖掘，寻找数据间的关联性，在关联性基础上将变量进行整合，转换成测量指标，每一种指标反映借款人某一方面的特点，比如诈骗概率、信用风险、偿还能力等。再将这些指标输入不同的模型中，最后将模型结果按一定的权重加总，最终输出的就是信用评分。在整个过程中，原始数据转换成指标需要进行不断的迭代，不同模型的权重值可以根据样本进行动态调整。

越来越多的互联网金融公司，特别是网络借贷、互联网消费金融等领域的公司开始利用大数据风控技术。2016年1月12日，美国的一家网贷平台SOFI声明不再将FICO评分纳入信贷审批决策，另外一家为消费企业提供贷款的美国公司Kabbage则将亚马逊、ebay等电子商务网站数据和Facebook、Twitter等社交网站数据纳入风险评估模型之中，新兴的互联网金融公司ZestFinance声称一切数据皆信用。

大数据征信

风控与征信都是管理风险的活动，不同的是，风控一般是某一公司依靠企业自身的数据和资源进行风险管理，而征信是第三方机构“依法收集、整理、保存、加工自然人、法人及其他组织的信用信息，并对外提供信用报告、信用评估、信用信息咨询等服务，帮助客户判断、控制信用风险，进行信用管理的活动”。

传统的基于信贷历史数据的风控技术背后是社会征信体系的建设。美国是世界上征信业较为发达的国家之一，一个重要原因是美国信用卡产业非常发达。美国的征信体系主要由三类机构组成，一是商业银行和贷款机构，这些资金的贷出方在业务开展过程中积累了大量的关于客户借款、还款和违约的历史数据，这些都属于信用的强相关变量，这些机构都会将这些信用历史记录传给第二类机构，征信公司。美国有三家主要的征信公司，Experian、Equifax、TransUnion，主要负责搜集和储存征信数据，包括从地方法院收集公共记录信息和贷款机构收集逾期债务信息，并将数据进行清洗和处理后输出标准化的数据产品，提供给银行和其他金融机构，征信公司也会开发出一些信用评分产品。第三类机构就是专注于信用评分的公司，最著名的是FICO评分，主要作用是根据征信公司的信用报告，找到变量与违约概率之间的关系，即构建信用评价模型。银行和其他金融机构可以根据FICO评分进行放贷决策。

中国的征信机构由中国人民银行征信中心和其他民营征信机构组成。在互联网时代，大数据在征信行业的应用带来了大数据征信，就是指通过采集个人或企业在互联网交易、从事互联网业务以及使用互联网服务过程中留存下来的信息数据，并结合线下渠道采集的相关信息，利用云计算等技术手段进行信用评估和评价的活动。

国内从事大数据征信的机构主要由四类：一是电商类平台，将平台上积累的用户行为数据进行采集、整理和加工，并经过深度挖掘和评估，为合作的金融机构信贷审批提供风险定价服务；二是P2P网络借贷类，通过自建客户信用系统，用于自身平台撮合的投融资业务；三是以网络金融征信系统、小额信贷行业信用信息共享服务平台为代表的同业信息数据库，通过采集P2P平台借贷两端客户的个人基本信息、贷款申请及还款等信息，向加入该数据库的P2P机构提供查询服务；四是互联网大数据公司，通过收集、整理、保存来源于第三方的互联网数据，运用分析模型和信用评分技术，形成符合客户需要的征信报告、评级报告等产品，提供给第三方客户。

大数据征信在我国有很大的发展潜力，一方面，中国的征信体系覆盖面仍然有限。据波士顿咨询公司测算，截至2015年底，中国个人征信的覆盖率只有35%，与美国个人征信体系92%的覆盖率相差甚远。另一方面，中国的互联网尤其是移动互联网发展迅速，移动终端累积了海量的用户行为数据，这些网络交易和社交平台积累的数据为弥补信用记录空白主体的信用评估数据非常重要。

从风控、征信等角度看，大数据在金融行业的应用前景广阔，但在发展的过程中也需要注意到存在的风险。

2、金融大数据应用面临的风险

金融科技巨头可能产生数据垄断

一些金融科技巨头凭借其在互联网领域的固有优势，掌握了大量数据，客观上可能会产生数据寡头的现象，可能会带来数据垄断。一些机构掌握了核心的信用数据资源，有的机构掌握电商交易数据和金融数据，有的机构掌握集团的传统金融机构和互联网金融平台的金融数据，有的机构则依托大股东掌握大量线下交易数据，还通过合作的方式掌握了合作企业的数据。由于缺乏分享的激励机制，导致与征信的共享理念存在冲突。

存在数据孤岛现象，数据融合困难

政府和企业都面临数据孤岛难题。大数据时代，数据已经成为核心资源，企业出于保护商业机密或者节约数据整理成本的考虑而不愿意共享自身数据，一些政府部门也缺乏数据公开的动力。数据孤岛现象的存在，将导致大数据信用评估模型采用的数据维度和算法的不同，大数据征信模型的公信力和可比性容易遭到质疑。

数据安全和个人隐私保护难度升级

目前，大数据的获取大致有四种方法：自有平台积累、通过交易或合作获取、通过技术手段获取、用户自己提交的数据等。但是由于相关的法律法规体系尚不健全，数据交易存在许多不规范的地方，甚至出现数据非法交易和盗取信息的现象。大数据来源复杂多样加大了用户隐私泄露的风险，其一，我国金融大数据行业的发展乃至Fintech行业的发展，在很大程度上得益于互联网应用场景的发展，而大数据从互联网应用场景向金融领域的转移往往发生在一些金融科技企业的集团内部，这个过程缺乏监管和规范，可能会侵犯到用户的知情权、选择权和隐私权。其二，应用数据存在多重交易和多方接入的可能性，隐私数据保护的边界不清晰；其三，技术手段的加入，加大了信息获取的隐蔽性，一旦出现隐私泄露纠纷，用户将面临取证难、诉讼难的问题；其四，大数据采集数据的标准不一，用户的知情权、隐私权可能受到侵犯。可见，在大数据环境下，个人数据应用的隐私保护是一个复杂的消费者权益保护问题，涉及到道德、法律、技术等诸多领域。

3、加强对金融大数据应用的监管

针对金融大数据应用中存在的诸多问题，要充分发挥政府和市场的力量，从个人信息保护立法、信息共享机制建设、市场自律等多方入手，为金融大数据产业健康发展提供良好制度环境。

建立并完善个人信息保护的法律制度体系

通过建立个人信息保护的法律制度体系，使大数据产业在数据采集、加工整合以及使用等多个环节能够依法合规的发展。在制定个人信息保护的法律法规时，要系统考虑并解决以下问题：第一，可以在现有法律法规的基础上，充分考虑大数据的实际发展，尽可能拓宽现有法律法规适用于大数据产业的业务规范的边界；第二，要明确大数据的监管机构，特别是金融大数据的监管机构，界定其职能范围并赋予其足够的监管权力；第三，要保护好大数据主体的权利，如数据主体的知情权、选择权、访问权、个人数据可携权等；第四，要对数据控制者处理数据的行为边界进行严格的界定，数据控制者必须依法合规地进行数据处理，规范从互联网应用场景向金融领域的大数据转移；第五，要对数据控制者等其他主体非法使用数据的相关行为进行明确的处罚规定等。

加快信息共享机制的建设

推动政府信息公开和行业之间的信息共享，打破数据壁垒，发挥大数据推动各个行业升级和转型的作用，促进降低信息等多方面的成本，提高经济效率和社会福利。第一，进一步完善个人信息保护的法律法规，以此避免信息共享带来的数据安全和个人隐私泄露等问题。第二，打破数据垄断，对大数据进行分级管理，将政府掌握的大数据界定为公共品，依法合规向社会开放分享；将机构掌握的涉及到公共利益的大数据界定为准公共品，持有这类大数据的机构必须在保护好个人隐私等条件下分享其数据；主要涉及到商业利益的大数据界定为非公共品，对这类大数据也要推动其在合法使用的范围内进行交易。第三，还需要推动大数据标准化，使政府信息和不同行业之间的数据可以交互式使用，打破信息共享过程中面临的技术壁垒。

发挥行业自律组织作用

行业自律组织可以在规范行业内部大数据的使用等方面发挥作用。首先，行业自律组织可以积极制定大数据信息采集、使用标准，探索大数据信息数据库的安全管理标准和异议处理机制，引导规范大数据产业发展，保护信息主体的权益。其次，行业自律组织有利于推动大数据标准化。标准真实的大数据是人工智能大数据分析的基础，行业自律组织可以积极牵头或者配合监管机构制定大数据标准，并整合不同行业的大数据。

（编辑：郑惠敏）

来源: 孙国峰 · 清华金融评论

墨尘

金评媒责任编辑

评论：

. 点击排行

. 随机阅读

. 相关内容