银行、证券、保险、信托等不同金融领域的企业,由于业务发展的需要,对与外部开展数据共享、流通、交易有着巨大而强烈的需求。数据只有通过共享、流通才能体现出自身巨大的价值,进而赋能金融行业,然而数据泄露事件不断发生,引起各界广泛关注。数据所有权的确定、数据所有权和数据使用权的分离,成了数据流通首先需要解决的严峻问题。
联邦学习为数据共享、流通、交易提供了一种可行的支撑技术和解决方案,包括联合学习、隐私计算技术在内的多种技术和概念,引起了金融行业和金融科技行业的广泛关注,被寄予厚望。
数字化转型是中国经济发展的重要动力和途径,金融行业是这轮数字化转型的重点领域。结合金融行业的应用,在数据联合查询、联合统计和联合建模等多种数据应用场景中,在风险管理控制、客户运营、产品推荐和营销等典型业务应用场景中,联邦学习技术都有强烈的应用需求和巨大的应用潜力。
2020年9月14日,中国人民银行副行长、国家外汇管理局局长潘功胜表示,我国金融行业实行的是分业经营、分业监管模式。金融控股公司是国际上的主要经济体广泛采用的一种模式,由金融子公司实行分业经营 [39] 。潘功胜指出,这种制度框架具有简单明晰、可识别的股权和组织架构,对金融行业的风险隔离有优势。随着经济的发展,特别是金融行业的发展,我国的金融改革不断深入。近年来,金融行业出现了一些新的情况:一方面,一些大型金融机构开展跨行业投资,形成金融集团;另一方面,部分非金融企业,通过股权投资等多种形式控股了多家不同业务领域的金融机构,事实上具有了金融控股公司的特征。这一变化已经引起了政府部门和监管机构的高度重视。加强对金融控股公司的治理和风险管控,符合现代金融监管的要求。
随着金融行业模式的不断创新,在国内已经出现的跨多个传统金融领域的大型金融控股集团中,常常包括银行、证券、保险、信托等多种金融企业。中信集团、中国光大集团等在金融行业之外,还涵盖了健康、旅游、环保等多个非传统金融行业。随着数据挖掘、人工智能等技术日趋成熟且应用广泛,各类数据的数量呈现几何级数增长,大数据已成为企业重要的基础性资源。对于一个集团的长期发展来说,数据不仅是基础性资源,还是可以深挖价值、给集团带来直接经济利益的资产。在大数据时代,数据的生产要素化将成为衡量企业价值的重要标准,企业在未来竞争格局中的地位在很大程度上由其决定。
数据具有的属性众多,常见的分类包括物理属性、存在属性和信息属性等。物理属性是指数据需占用物理的存储介质,可传输、可度量。存在属性是指数据以人类可感知的形式存在。信息属性是指数据本身所代表的含义。数据的价值在于能够通过分析和挖掘的过程来消除信息的不对称,从而获取信息,推动业务发展,实现盈利,而这些预期需求的实现都需要数据存在且能够带来正确、有效的信息,要保证数据的质量。数据治理是保证数据质量的必需手段,同时也是多机构集团型企业提升管理能力的重要任务。
然而,由于集团型企业广泛存在着业态多样、人员分散、管理流程和模式差异大的特点,集团型企业内部的数据治理工作面临巨大的困难和挑战。金融控股集团内各个子公司的主营业务相差巨大,行业细分的数据标准和规范各有特点、不尽相同,从而增加了不同企业间数据互联互通和共享创造价值的复杂度,数据多源异构现象和“信息孤岛”现象普遍存在。此外,成员企业的信息化、数字化水平和发展阶段各不相同。对于个别传统业务来说,企业的信息化水平较为薄弱,数据的采集和整理甚至还停留在手工录入传递阶段,导致了数据质量在各个源头就不能得到有效保障。因此,集团的数据治理需要按照相应的标准、规范、流程和方法等,确保数据统一管理和高效流动,让数据用起来,在使用的过程中挖掘出数据资产价值。拥有数据,并不意味着就拥有了数据资产。只有通过创新性的方法联合各方有效、准确的数据,在数据中挖掘到有效的信息,数据才能算资产。
通过参照国际数据管理协会(DAMA)、数据治理研究所(DGI)等权威机构构建的包括数据管理能力成熟度评估模型(DCMM)在内的权威方法论,结合金融控股集团自身多业态、多法人、信息化水平参差不齐等特点,可以构建具有金融控股集团特色的数据治理架构,如图1-2-1所示。
图1-2-1 金融控股集团的数据治理架构(以中国光大集团为例)
在跨机构数据治理实践中,中国光大集团以组织架构、参与角色的权利与责任为基础组织保障,在数据合规和数据安全的前提下开展数据资产管理工作,通过制定数据标准提升数据质量,创造数据价值,逐步实现“看见—看清—看懂—决策”的经营管理目标,进而实现建设一个开放、共享、合规、智能的“数字光大”生态圈的战略愿景 [39] 。
为了打破“数据孤岛”的现实局面,同时最大限度地整合、复用各机构内外部的数据资源,推进数据价值创新、创造,建立跨机构的数据港平台是最佳的解决方式。特别是在多业务、多机构的金融控股集团内部,以中国光大集团的实践为例,统一的集团数据港平台在数据价值挖掘和为集团战略转型赋能的过程中应运而生。
数据港平台计划汇集集团内外分散的各类数据,建设数据资产全生命周期、数据标准与质量闭环、数据合规与安全管理等管理机制,最大限度地复用资源,加速前端业务创新。数据港平台是集团科技助力业务创新的基础,其核心能力包括基础能力、融合能力、可视化能力和智能化能力。
数据港平台用大数据技术构建基础平台,针对数据工作的流程特点,分别对接全面服务:通过数据采集平台与成员企业统一部署采集模式,进行数据存储与元数据管理;通过外部数据平台统一外部数据管理机制,对成员企业提供外部数据接口与服务;通过数据资产平台进行数据质量检核,整合指标数据的管理与加工,提供数据资产地图服务;通过数据模型实验室搭建自然语言处理、机器学习等基础环境,进行数据模型训练和数据挖掘工作。
在数据挖掘的过程中,跨机构的客户和产品的数据具有更大的可挖掘价值,但数据的敏感性也更强。随着大众对用户隐私保护的要求越来越高,各地的监管机构针对个人隐私数据的拥有权和安全性出台了强监管的法规。企业必须满足客户对数据隐私保护的要求,加强对数据安全和用户隐私的保护。基于数据合规和行业监管的要求,客户、产品数据的上收存在着法律规范上的困难,数据源之间的壁垒很难被打破。
大数据是人工智能的基础,研究表明模型的准确率与训练数据量成正比,在金融领域中对数据的强监管限制了数据的融合与使用。为了解决此类问题,联邦学习正好可以发挥自己的作用,在保护数据隐私的前提下实现数据分析和数据价值挖掘。联邦学习本身是一种在保护隐私的前提下,进行机器学习的方式。数据的拥有方完全可以在数据不出本地的情况下,联合训练,建立模型,各方根据自己本地的数据在模型训练中计算模型参数的更新量,然后将更新结果进行聚合,如此一直迭代到收敛停机。联邦学习既保证了每个终端的用户数据不出本地,各个终端又可以同时共享一个通用的模型。在实现模型训练的同时,联邦学习框架提供的一系列算法,可以实现在各方明细数据不出本地的情况下的样本对齐和相关统计量计算。例如,中国光大集团基于集团数据港的联邦学习平台,以客户为中心,以联邦学习为核心技术支撑实现了客户拉通、客户交叉营销和风控,从而实现了智能、高效的业务协同 [39] 。