地缘政治中的数据技术立国,万物互联中的数据保护,产业融合中的数据穿透式监管,开源和分布式架构中的数据安全追求。
李礼辉
中国银行原行长
北京
近 10 年,数字化技术的创新和应用正在改变技术进步和经济发展的格局,数据成为生产要素,以数据为核心的数字技术成为经济发展的新动能。在金融领域,数字化逐渐成为新业态,数据与客户的个人隐私和商业秘密紧密相关,与客户的金钱财富和国家的金融安全紧密相关,金融业的数据安全治理至关重要。
信息技术最新的迭代升级,呈现出以数据为核心的基本特征。几何级速率递增的数据和扇面扩展的数据应用,构建了一个新的技术环境。
一是超级数据圈。人们通常把包含创建、采集、复制和挖掘的数据集合称为数据圈,数据量是数据圈的外延性指标。据国际数据公司IDC预测,2025 年全球数据量将高达175ZB(1ZB=10 万亿亿字节);在全球的数据圈中,中国增长速度最快,年平均增速比全球高 3 个百分点;数据量最大,到 2025 年将高达 48.6ZB,占全球的 27.8%。
图 1 :预计 2025 年中国数据量的全球占比
二是人工智能深度学习。深度学习模拟人脑机制解释数据,学习特征,创建智慧模型。大容量高密度的数据是深度学习的样本。例如,百度的深度学习平台PaddlePaddle“百度飞桨”集推理框架、基础模型库、开发工具为一体,支持稠密参数和稀疏参数不同场景的超大规模深度学习并行训练,支持千亿规模参数、数百个节点的高效并行训练,通过AI赋能支持产业升级,其市场份额目前已与Google、Facebook鼎立全球前列。
三是底层软件开源。开源是一种分布式协作模式。开源协作的规则包括自由再发布、源代码公开、允许派生作品、维护作者源代码完整性、禁止任何歧视、许可证不能约束其他软件、许可证独立于技术等。近几年,人工智能、云计算等新兴技术领域的开源项目受到高度关注,2019 年的GitHub代码仓库中,Microsoft的源码编辑器VSCode、机器学习文档AzureDocs是贡献者最多的开源项目,其次是Google的机器学习平台TensorFlow、容器编辑平台Kubernetes和Facebook的移动应用开发框架ReactNative。2019 年以来,百度飞桨是进步最快的深度学习开源框架。在 2021 年 5 月发布的v2.1 版本中,新增了自定义外部算子、高精度语义分割、图像语义分割、多目标追踪算法等功能;PaddleHelix从静态图升级到动态图,可以用于分子生成;PaddleQuantum新增量子数据编码模块等功能,支持更高级的量子计算。
四是分布式数据部署。海量数据环境促进了数据部署架构的迭代创新。大中心+应用端+数据云的分布式存储架构,成为新的数据部署架构,数据不再全部集中在大型数据中心的数据库中。为了节省数据传输的数量,提高数据挖掘的效率,必须改变数据集中存储的布局,数据同时部署在靠近应用端、执行边缘计算的小型数据库中;为了节省数据存储的成本,提高数据存储的集约化水平,必须建立共享的数据存储设施,数据同时部署在数据云的数据库中。
金融业务具有 4 大特点。一是高并发,例如,支付结算、外汇交易等业务的并发交易峰值每秒高达万笔之上;二是多平台,金融服务通常涉及资产方、负债方、委托方、管理方、审计方、中介方等不同角色,必须达成多方实时共享共管;三是高敏感,金融数据涉及客户的个人隐私和商业秘密,特定产业、特定企业的金融数据有的涉及国家机密,具有政治敏感性;四是严监管,金融的业务性质是用别人的钱做自己的生意,金融的行业特征是无时不在无处不在的风险,金融的社会属性是经济枢纽、百姓钱包。金融监管历来严格,保护客户权益、防范系统性金融风险是大多数国家金融监管制度的底线。
金融科技创新广泛应用数字化技术,数字化的金融架构对金融数据安全构成新的挑战。
其一,数据治理硬边界交叉。金融机构与工商企业、公益机构和国家机关共建服务场景以触达客户、获取数据资源,金融机构与电商、电信运营商等占有数据资源优势的企业合作,科技平台直接或间接涉猎金融业务,大量金融数据部署在数据云平台,这些都在扩大数据治理硬边界交叉的范围和面积,增加了数据安全保护的难度。
其二,数据安全软技术滞后。传统的信息技术架构是大中心化、局域封闭式的,安全性和稳定性较佳,但扩展性能和更新性能较弱。近些年,金融机构开始将集中式架构转变为集中式+分布式+数据云的架构。在分布式、端对端的技术架构上,数据和数字资产安全必须更多依赖密码算法、智能合约等“软技术”。我们发现,一方面,我国的金融企业还在使用外来的密码算法;另一方面,分布式架构比集中式架构更容易发生数据安全失守的问题,密码算法和智能合约逻辑上的漏洞和缺陷,经常成为黑客攻击的突破口。例如,2021 年 8 月 10日,跨链去中心化金融平台Poly Network遭受黑客洗劫,黑客只花了 34 分钟,就从以太坊、币安智能链、Polygon等 3 个网络成功转移 26906 个USDC、26629 个ETH等加密数字资产到黑客地址上,市值约 6.1 亿美元。据技术专家分析,此次攻击的主要原因是智能合约的权限管理逻辑存在缺陷,黑客利用该技术漏洞调用合约中的相应函数,将用户地址更改为黑客地址,继而盗取数字资产。
其三,数字链接零距离。在数字链接的经济社会中,人与人之间、人与物之间、物与物之间的空间、时间距离趋近于零,这将提供更加广泛的便捷性,也将带来更加直接的危险性。物联网任何一个应用系统、任何一个节点潜在的缺陷或疏漏,既可能直接导致事故,也可能成为黑客恶意攻击的缺口;由于物联网的高速率和广覆盖,既可能出现单一的金融事故,也可能出现系统性的金融风险。
金融业的数据安全治理涉及方方面面,重要的是,在维护国家金融安全的大目标下,应用安全的数据技术,建设安全的数据基础设施,建设有效的数据安全制度,来保障数据采集安全、数据存储安全、数据处理安全、数据应用安全,同时保护数据隐私,保护以数据记载与表达的金钱财富。
地缘政治中的技术立国
我国是数据资源大国和数字化市场大国,但却是软件弱国。从已经普及的电脑、手机,到正在深度研发的人工智能、区块链,其操作系统、源代码和算法程序等底层核心技术的知识产权,大多是由美国等西方国家控制的。德国贝塔斯曼基金会 2020 年的一项研究发现,在 58 项尖端技术里,美国在其中的 50 项拥有最多的专利。在核心硬件领域,我国大型银行的数据中心多年来一直依赖IBM的大型主机,同时大量使用非自主品牌的数据库和存储设备。
在技术创新引发的重构进程中,我们还要面对全球产业链整合带来的结构性转型压力,面对地缘政治带来的破坏性外部冲击。核心技术依赖是现实而又迫切的风险。
2020 年 10 月,美国发布《关键与新兴技术国家战略》,20 项清单包括高端计算、数据存储和分布式技术等,明确“美国必须发展这些科技,保护这些科技,不能提供这些技术给竞争对手。”
数字技术平等是数字经济、数字金融平等竞争的基石。即使是大国,经济上的闭环运行一般只会降低经济资源配置的效率,增加经济运行的总体成本,并影响国民消费的品质。但如果在关键技术领域受制于人,一旦遭遇大面积封锁,就可能造成经济失速。因此,在核心数字技术领域,我国只有补齐短板,才有可能与西方国家真正建立平等互利的关系。
在核心数字技术上,我们借不来,买不到,等不得,唯一的路径是自力更生,奋发图强,寻求突破。
需要提出的是,实现核心技术的自主自立是一个过程,不可能一蹴而就,在较长的一个时期内,我们不可能实现全方位的国产化替代。例如,大型金融机构数据中心的大型主机及其配套的系统软件,在全球市场上目前都没有替代品,而依托小型机的分布式系统,在核心功能上目前也无法取代大型主机。因此,在核心技术创新中,我们仍需借力,但应高度重视并主动防范潜在的风险。
实践已经证明,在技术创新进程中,民营队与国家队完全可以并驾齐驱。要更多鼓励民营队,重要的是为民营企业创造更加公平、更加宽松的营商环境。要真正激励国家队,重要的是促进国有企业建立符合市场经济和科技规律的激励机制、决策机制和问责机制。
万物互联中的数据保护
正在到来的数字世界不再只是大中心的计算机系统和低速率的互联网络,而是中心化与分布式多元复合的架构,是超规模超高速的数字链接。
万物互联意味着数据的集合,但集合并不能自动解决个人隐私保护和数据安全问题。数据集合当然可以成为数据占有者的资源优势和竞争优势,但可能妨碍公共数据发挥应有的社会价值,也有可能因商业利益驱动和管理疏漏,侵犯个人隐私,甚至危及国家数据安全。
万物互联有利于创建更加便捷的服务,但对网络安全、数据安全构成严峻的挑战。
数据资源是个人的财富、集体的财富。数字经济时代更需要切实保护数据隐私。我个人认为,我国立法和执法的焦点在于:如何协调数字经济社会的宏观稳定与微观动力,如何划分数据资源固有的商业价值与数据挖掘应用产生的商业价值,如何平衡数据所有者的基本权利与数据占有者的商业利益。
中国的国情与西方国家不同,我们不宜照搬西方法律,但应该强调数据所有者对隐私数据的基本权利。例如,规定企业收集及处理数据必须得到数据所有者明确的同意,规定企业不得超越约定范围收集、处理和使用数据,同时给予数据所有者要求数据占有者删除涉及本人隐私数据的权利。
我国立法和执法的焦点在于:如何协调数字经济社会的宏观稳定与微观动力,如何划分数据资源固有的商业价值与数据挖掘应用产生的商业价值,如何平衡数据所有者的基本权利与数据占有者的商业利益。
数据资源是国家的财富,数据安全是数据开发利用和数据产业发展的保障。我们需要更新安全定义、安全技术、安全制度,构建一个全新的数字安全体系,切实保护数据资源的安全。例如,金融科技平台必须构建用户相互信任、信息真实对称的技术环境,要求保证数据可靠传输,保护个人隐私;要求采用信息真实性交互验证技术,建立身份认证系统,对人或物进行特征识别、时空定位和身份认证,进行用户授权验证和信息数据验真,确认端对端的控制权和指挥权。
国家支持数据开发利用,支持数据安全技术推广和商业创新。可以通过技术创新实现数据资源共享和安全应用。例如,中国互联网金融协会牵头研发金融业数据要素融合应用系统。这个系统基于数据安全协议,集成运用多方计算、联邦学习、数据脱敏、差分隐私、可信计算等技术,可以利用多个参与方的数据,将散落在不同局域的数据联合起来转换成有价值的知识,同时可以保护数据隐私,实现数据可用不可见,在实现数据共享的同时保护数据隐私,在提升数据资源价值的同时保护数据安全。
应该建立数据安全审查制度,建立明确的数据分类分级保护制度,包括数据分类分级具体标准和数据处理机构分级管理规范。对数据云服务应加强技术可靠性和数据安全性审核,评定安全等级,根据安全等级制定数据收集、处理的准入范围。应有必要严格管制重要数据出国。某些国际资本市场对上市公司的信息透明度设定了苛刻的要求,应该深入分析上市地区关于监管审查、审计的具体规定与流程,一些企业特别是关键信息基础设施的运营商拥有一定规模的隐私数据和敏感数据,如果确实存在国家核心数据泄露的风险,就应禁止这类企业到这些资本市场上市。
产业融合中的穿透式监管
数字化技术创新正在改变金融服务模式,逐渐形成交互、交叉、交集的金融新业态。例如,应用区块链等数字化技术创建的供应链金融平台,可以将金融机构、核心企业、供应链上下游企业、物流企业以及海关、税务、商检、外汇管理等行政机构纳入多方协作架构,形成互联互通互信的生态圈,为企业提供配套的融资、保险、结算等金融服务和外汇管理审核、国际贸易账款监管、对外支付税务备案等公共服务。又如,未来的数字资产市场既包括数字化的金融资产,也包括资产化的专利数据、著作数据,将形成一个资产所有者、投资者、产权登记、产权认证、金融中介、监管机构、税务机构、仲裁机构等多方交集的复杂架构。
金融创新呼唤监管创新。人民银行于 2019年启动金融科技创新监管试点,将区块链、大数据、人工智能等数字技术集成应用于建立数字化金融监管系统。这个金融科技监管系统可以对错综复杂的数据组进行快速解耦和组合,可以共享多方监管数据,可以执行一致化的合规标准,可以通过数据挖掘释放数据价值,可以自动生成监管报告和解决方案。
数字化金融监管系统应该由金融监管部门共建共享,应该覆盖所有的金融机构,应该穿透不同的金融市场和金融业务,实现金融监管全流程、全方位的智能化,超越流程复杂、耗费资源的现场监管,降低监管成本和被监管成本。
分布式架构中的安全屏障
去中心化金融平台普遍采用分布式架构。应用对等网络、智能合约、分布式账本等技术,不同的去中心化金融平台可以建立自动做市、自动清算机制,形成去中介的链上金融体系,可以脱离银行等金融中介。例如,基于以太坊网络的去中心化金融协议这几年发展迅速,已经形成几乎可以自洽的新金融体系,包括稳定币DAI、去中心化交易所Uniswap、具有借贷功能的Compound、具有资产管理功能的Balancer、具有金融交易撮合功能的Synthetix等。
在这类去中心化金融平台中,开放的网络没有准入限制,局部透明的资金流便于交易方跟踪,非中央控制的交易可以拒绝监管者的管控和审查。
另一方面,正在研发和试点的央行数字货币和私人数字货币也普遍采用分布式技术架构,其主要技术特点是:一是大多采用集中式与分布式混合的技术架构,采用分布式、平台化设计,以增强系统韧性和可扩展性;二是应用可信计算、软硬件一体化专用加密等技术,采用多层次安全体系,增强可靠性;三是加载智能合约,实现可编程性,支持有条件支付,可根据交易双方商定的条件、规则执行自动支付交易。
数字货币在全球数字经济竞争中将居于核心地位。去中心化金融既是未来全球金融监管的热点,也可能是未来国际金融竞争的热点。对于数字货币及去中心化金融是否能够穿透一国的金融基础设施屏障,从而穿透法定货币主权及地域金融监管的边界,看法不完全一致。弱小国家在很大程度上难以形成坚固的技术屏障和主权边界来应对外来强势数字货币和去中心化金融的冲击。我国作为一个经济大国,实行更高水平的经济开放、金融开放包括资本市场开放,是基本国策;维护经济金融稳定大局,主动防范系统性金融风险,是金融底线。
因此,应有必要深入分析分布式对等架构、去中心化架构等数字化技术已经具备及潜在的“颠覆性”性能,重点研究基于全新数字技术的数字货币及去中心化金融工具穿越金融基础设施屏障的可能路径,研究技术对策和政策预案,构建数字金融安全屏障。
应有必要深入分析分布式对等架构、去中心化架构等数字化技术已经具备及潜在的“颠覆性”性能,重点研究基于全新数字技术的数字货币及去中心化金融工具穿越金融基础设施屏障的可能路径,研究技术对策和政策预案,构建数字金融安全屏障。
开源格局中的安全责任
我国的基础软件研发从一张白纸起步,落后于西方发达国家,这几年我们紧追慢赶,取得了一些成就,在个别领域也出现了“黑马”,但总体差距仍然巨大。较多企业受限于资本实力和人力资源,广泛使用开源技术进行数据计算、数据存储、数据管理的软件开发。例如,在分布式存储领域,开源软件Ceph被大量使用,2019 年,在我国的存储市场中,基于开源软件的存储所占比重高达 62%。
国际知名公司重视维护自身的商业信誉和市场地位,发布的开源软件比较注意可扩展性与可靠性的均衡,且通过经常性的维护和升级来修补漏洞、扩展功能。应用这类开源软件的好处是相对可信,坏处是系统绑定和技术依赖。然而,相当多的开源软件缺乏明确的安全责任主体,缺乏权威性的安全性能认证,有些可能存在严重的安全漏洞,应用这类开源软件的安全风险不容忽视。
一些专家认为,开源已经成为数字技术创新的主流,开源可以跨越公司边界、国家边界,正在构建数字世界的基础设施,赋能产业的转型与升级。不可否认的是,开源正在渗透越来越多的软件产品,可信的开源能够成为数字技术创新的可行路径。我们不可能也不应该拒绝开源。我国的百度、腾讯、华为等龙头企业积极布局开源技术,依托人才优势、资本优势和市场优势,在全球开源领域力争后来居上。
在开源格局中,一是要建立软件安全技术标准,建立软件的审核和认证制度,防止存在安全隐患、甚至存在恶意木马的开源软件进入我国;二是加大投入,加大政策扶持,鼓励我国自己的科研机构、科创企业和数字技术人才开发具有自主产权的软件,实现核心软件基础性能、扩展性能、安全性能的优化和均衡,促进我国软件产业的进步与成长。
(责任编辑:都闻心)