沈艳:数字金融发展中的数据治理挑战

2021-08-12 11:12

微信图片_20210812112852.png

随着互联网、大数据、云计算、区块链、人工智能等技术在金融业的广泛应用,我国数字金融市场蓬勃发展。根据银保监会和中国人民银行发布的《2019年中国普惠金融发展报告》,2019年全国使用电子支付的成年人比例达82.39%。在新冠肺炎疫情冲击中,我国互联网银行对小微企业发放的贷款及时帮助小微企业摆脱困境,发挥了灾害情况下的经济稳定器作用。我国数字金融的一些业务模式也已经走在世界前列。根据国际货币基金组织(International Monetary Fund,简称IMF)的测算,我国数字金融公司估值已经超过全球总估值的70%,其中2016年中国个人移动支付总额达7900亿美元,是美国的11倍;中国最大的移动支付提供商的处理能力大约是美国同行的3倍。总体来看,我国对数字金融助力普惠金融、促进经济高质量增长方面,寄予厚望。

但要促进数字金融市场进一步健康发展,就不能忽视金融基础设施中的短板。近年来,数字金融市场发生的风险事件,表明与大数据相关的金融基础设施不足,是新金融业态存在新风险隐患的主要原因之一。例如,我国个体对个体网络借贷在过去的十多年经历了萌芽、繁荣、兴盛和衰落的过程。仔细梳理这一过程可发现,虽然满足个人旺盛的金融需求、帮助中小企业解决“贷款贵、贷款难”问题的初衷良好,但在我国数字金融基础设施还比较落后,尤其是缺乏广泛可靠的个人征信系统的情况下,构架于其上的业务模式商业不可持续,而最终的失败难以避免。

金融基础设施中,与数据要素密切相关的是信息基础设施(涉及信息记录、数据分析和计算能力三方面)和监管基础设施中的数据隐私监管。而与金融大数据治理相关的问题主要有四个:一是如何构建金融大数据要素市场;二是如何做好数据隐私和信息安全管理;三是如何甄别和处置数据垄断;四是如何做好模型算法等方面的管理。对于前三个问题,相关研究和讨论已经展开。政府和业界分别对打破数据垄断也有探讨,但是对数字金融市场中算法治理讨论较少。

对模型算法讨论的缺失,导致在数字金融发展过程中存在一些认识上的误区。例如,一些观点认为,采用金融大数据一定比采用传统数据更好;基于金融大数据的分析更科学更公正;基于机器学习模型设计的产品因为没有人工干预因而比传统决策体系更优越;进而将“零人工干预”作为业务的一个主要优势加以宣传。但上述观点是否成立,既取决于对大数据的作用是否有充分恰当的评估,也取决于对金融决策中人的作用的理解。由于目前机器学习算法重相关关系,而不重基于挖掘金融内在发展规律的因果关系分析,决策中高估大数据分析的模型算法优势而忽略人的作用,就会带来新的金融风险隐患。

本文旨在从对模型算法治理的角度来讨论数字金融发展中需要应对的大数据治理挑战。分析金融领域“大数据自大”的潜在危害,讨论忽略大数据算法模型等数据治理可能产生偏误的原因,并提出相关政策建议。

“大数据自大”的潜在危害

2014年大卫·拉泽(David Lazer)等学者提出的“大数据自大”(Big Data Hubris),针对的是高估大数据分析的作用、但忽略其中潜在问题的现象。大卫·拉泽等学者是在《科学》杂志发文讨论谷歌公司流感趋势预测出现重大偏差的原因时提出上述观点。2008年11月,谷歌公司启动了谷歌流感趋势(Google Flu Trends,简称GFT)项目,目标是预测美国疾控中心报告的流感发病率。2009年,GFT团队在《自然》发文称,只须分析数十亿搜索中45个与流感相关的关键词,GFT就能比美国疾控中心提前两周预报2007—2008季流感的发病率。但该研究发现,2009年GFT没有能预测到非季节性流感A-H1N1;并且从2011年8月开始的108周里,GFT有100周高估了美国疾控中心报告的流感发病率,高估程度达1.5倍~2倍多。

他们认为,这些估计偏差反映了“大数据自大”这样一个理念,就是大科技企业拥有的“海量数据”就是“全量数据”,采用这样的数据做分析比科学抽样基础上形成的传统数据更优越、更可靠、更让我们接近客观真理。但他们对GFT项目的评估表明,这样的看法并不正确。

在数字金融领域,如果没有恰当的模型算法治理,基于金融大数据分析的产品和业务模式可能产生决策“知其然不知其所以然”、出现“算法歧视”等问题,甚至可能产生算法腐败的问题。

忽略算法模型治理可能产生偏误的原因

基于金融大数据的预测模型的具体执行步骤可以被分为三个过程:学习过程、测试过程和应用过程。以预测贷款人是否会逾期这一机器学习任务为例,首先需要获得历史的贷款数据,其中既要包括有逾期的人员也要包括没有逾期的人员。然后将这一数据分为两部分:训练集和测试集。第三步,用训练数据训练模型,得到相应参数;再用测试数据来检验预测能力的高低,进而调整参数得到最好的模型。最后,预测能力最强的模型会被用于实际场景中。

从上述步骤可知,实际应用中基于金融大数据模型的优势需要满足以下三个条件:第一,实际应用数据和历史数据没有重大结构变化;第二,训练数据有充分的代表性;第三,模型有可解释性,并且应用者能及时评估模型的适用性。如果这三个条件不能满足,那么基于金融大数据的模型就可能带来额外风险。

历史数据和未来数据不相似。金融大数据至少有两个不同于传统数据的特征:一是结构变化更难检验,二是金融大数据的生成机制更复杂多变。这就容易导致用于训练和测试的历史数据和预测使用的未来数据不相似。

金融大数据存在不易检验的结构变化。由于我国数字经济和数字金融领域运用大数据的时间还比较短,跨越较长经济周期、体量大、颗粒度细的大数据系统尚在建设中。而大数据分析所依据的机器学习或者深度学习模型,都假定了训练数据的生成机制和真实数据的生成机制是相似的,即不存在重大结构性变化。和传统数据不同的是,大数据难以在不同研究机构之间分享、不少算法模型如同“黑匣子”,难以用经典的检验数据结构变换的模型去识别数据是否产生了重大结构变化。在这样的情况下,当经济和金融领域出现重大结构性变化,但是算法依据的模型无法快速发现这种变化还继续沿用过去运行良好的模型,就会出现预测不准的现象。

金融大数据的生成机制受生成平台的运营活动影响。和传统数据的生成机制不同,大数据不再是由政府特定部门或者特定机构主持收集,而是经济社会主体运营中产生的副产品,因此大数据生成受平台自身运营状况影响。例如,金融大数据分析中,不少模型加入个体的社交媒体信息作为风控的额外维度,对这类数据的分析常常建立在一个假定之上,即社交媒体上用户的多少、活跃度等,客观反映了人们对社交媒体的使用状况。但实际收集到的用户数据是用户自身因素和平台运营管理共同作用的结果。例如,最初某旅游信息平台记录保存客户信息的动机仅仅是本公司发展业务需要,并没有对客户采取分层定价;但在精准营销下采用了“大数据杀熟”,提高了对优质客群的定价。客户在发觉后选择离开该平台,导致客群整体质量下降。当该科技公司和金融机构合作时,这一客群质量的下降并非由于经济金融状况恶化导致,而是由于合作公司自身的利益诉求带来,如果不能识别这一变化原因,金融机构会在相应的借贷决定中产生偏差。

另一个影响金融大数据生成机制的是算法调整。例如,某支付平台的主要目标是帮助用户实现方便快捷的支付。为了实现这一目标,数据科学家与工程师不断更新算法,让用户可以有越来越好的用户体验。这一策略在商业上非常必要,但在数据生成机制方面却导致不同时期的数据不可比。如果数据分析团队和算法演化团队没有充分沟通,数据分析团队不知道算法调整对数据生成机制的影响,就会误将数据变动解读为市场真实变动而带来误判。

金融大数据的代表性需要验证。目前,金融科技公司和金融机构之间的助贷和联合贷款,在发挥金融科技公司的技术优势、金融机构的资金优势,提高资金配置效率方面,发挥了重要作用。但不容忽视的是,金融科技公司和金融机构都有其特定的客群,因此适用于某一平台的客群分析或者某一地区适用于该地区金融科技公司和金融机构的合作模式是否可以外推到其他地区,也就是金融大数据是否具有代表性的问题,都需要进一步验证。这一问题的重要性可以用2020年人工智能领域热议的事件来佐证。当时使用者输入奥巴马低分辨率照片后,PULSE算法输出了高分辨率白人图片,而对这一偏差最主要的解释,就是训练集中的照片大多数是白人照片。如果金融科技公司的特定客群数据和训练集中的白人图片类似,而金融机构的目标客户群和奥巴马的图片类似,那么就会出现代表性不足的问题。例如,新冠肺炎疫情暴发之初对餐饮行业影响较大,如果采用某餐饮行业平台产生的大数据分析得到的小微企业冲击严重程度,进而指导全市其他行业小微企业的贷款发放,就可能高估不良率的发生。

不少金融大数据分析模型可解释性低。基于金融大数据分析的模型在极大提高了运算效率的同时也有代价,模型解释性低就是一个主要问题。其中,常用的模型包括在逻辑斯蒂模型、决策树模型(如随机森林、梯度提升模型),支持向量机模型、卷积神经网络模型等。这些模型的共同特征是致力于寻找最优的预测,因此探寻不同经济金融特征与预测目标之间的因果关系,并不是机器学习模型分析的重点。这就产生了两个不容忽视的问题:一是“知其然不知其所以然”,除了逻辑斯蒂模型对于数据生成机制作出较为清晰的假定、参数含义较为清晰之外,其余模型从输入到输出表现为“黑匣子”;二是忽略了模型结果实际存在的主观性。

以金融机构是否需要给个人发放贷款这一决策为例。以大数据中维度可能是成千上万客户数据作为输入录入模型后,模型最终会给出具有某些特征的人可以发放贷款,而另一些特征的人不应发放的预测。在传统金融模式下,贷款发放于贷款责任人之间有密切关系,这就要求信贷员对于自己发放贷款的理由有清晰的认识。但基于机器学习的模型只给出了“发或者不发”的决策建议,并不会给出“为什么发或者不发”的原因,这就会让“知道你的客户”失去抓手。

另一个常见误区是,既然贷款发放决策由机器学习模型决定,那么这一决策一定比人做更客观。但由于较为复杂的机器学习模型需要由人事先设定参数,而模型越复杂需要设定的参数越多。例如,用一个卷积神经网络模型做有监督的分类决策可能需要事先设定上百万参数。参数过多的情况下,设定会存在较大主观性,导致更为复杂机器学习模型的结果未必更好的现象。

在介绍自身大数据分析优势时,不少平台强调“零人工干预”带来的效率改进。上述分析表明,在数据体量大不容易识别结构性变迁、数据代表性不清晰、数据生成机制变化有经济金融之外的因素、模型可解释性低的情况下,应当慎言“零人工干预”。这是因为,在金融大数据分析还存在上述诸多挑战的情况下,如果大量贷款决策都是“零人工干预”,也就是将决策责任从人转移到机器,那么当模型预测能力下降时,就难以分别产生的原因究竟是数据问题、是算法问题、是外部环境问题,还是内部治理问题,出现既不了解自己的客户、又不了解自己的现象。这样的数据治理架构的金融安全隐患显然不容小觑。

加强金融大数据治理的建议

提高大数据使用的透明度,加强对大数据质量的评估。由于大数据体量大、分析难度高等问题,不仅大数据的收集过程可能是“黑箱”,大数据分析也可能存在过程不透明的现象。例如在GFT案例中,研究人员指出,谷歌公司从未明确用于搜索的45个关键词是哪些;虽然谷歌工程师在2013年调整了数据算法,但是谷歌并没有公开相应数据,也没有解释这类数据是如何搜集的。与透明度相关的是,大数据分析结果的可复制性问题。由于谷歌以外的研究人员难以获得GFT使用的数据,因此就难以复制、评估采用该数据分析结果的可靠性。这种数据生成和分析的“黑箱”特征,容易成为企业或者机构操纵数据生成过程和研究报告结果的温床。通过推动金融大数据分析的透明化,建立其健康的数据分析文化,是夯实金融信息基础设施的重要步骤。

在保护隐私和数据安全的基础上,通过加大传统数据和大数据的开放共享力度来解决单个企业数据颗粒度较高但代表性不足的“信息孤岛”问题。在具体执行上,可以按照数据的所有权属性差异分层施策。对作为公共产品的数据,政府部门需要在不涉密的情况下,尽可能向社会和公众开放政府数据。对大数据征信产品这类准公共产品,可采用俱乐部付费式的产品模式,并推动政府推动设立的公司和相关金融科技公司合作联合开发相关征信数据。对基于大量个人数据、数据所有权界定困难的大数据,可以通过安全多方计算、同态加密、联邦学习等技术研发,允许拥有数据的各方在不像其他机构公开数据敏感信息的情况下,实现数据共享与利用。最后,可进一步探索开放银行模式和数据信托模式等在不同场景中的适用性。

推动数据和模型算法审计工作。要求企业发布经审计的财务报表是国内外为保障金融市场健康运转、保护相关方利益的通行做法。这一做法的逻辑是,由于公司内部运作状况对外部投资者来说也像“黑匣子”,经理人就可能会滥用对投资者的这一信息优势;通过要求企业提供经过第三方独立审计过的运营情况报告就可以在一定程度上遏制这一问题。由于大数据分析的算法模型等也有类似的“黑匣子”特征,欧美等发达国家和地区的监管机构已经开始探索数据和模型算法审计相关工作。例如,欧盟的通用数据保护条例就要求,企业能够解释他们的算法决策过程。要应对数字金融治理问题带来的相应金融风险,我国应提早布局,探索金融大数据相关的算法审计的可行性、推进对算法模型审计人员的培养。

加强算法模型治理,是夯实数字金融基础设施中的重要一环。由于金融大数据的算法和模型不仅涉及计算机科学、机器学习方法,在使用相应模型时,不应高估“零人工干预”的重要性。事实上,良好的算法和模型治理机制需要将人的创造性、主观能动性和机器与大数据的优势相结合。通过推动精通计算机科学、机器学习方法、金融专业,乃至心理学、行为经济学、伦理学等多个领域专业人士的共同努力,实现及时识别与解决算法模型相关问题的目标,促进数字金融市场的稳健发展。

文/北京大学国家发展研究院教授、北京大学数字金融研究中心副主任沈艳

免责声明:

文章系本网编辑转载,会尽可能注明出处,但不排除无法注明来源的情况,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系。

[声明]本站文章版权归原作者所有,内容为作者个人观点,不代表本网站的观点和对其真实性负责,本站拥有对此声明的最终解释权。