购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第1章
数据要素安全概述

2019年10月,《中共中央关于坚持和完善中国特色社会主义制度 推进国家治理体系和治理能力现代化若干重大问题的决定》(下文简称《若干重大问题的决定》)首次将数据列为与劳动、资本、土地、知识、技术、管理并列的生产要素。此后,“数据要素”一词频繁地出现在新闻报道中,许多读者对此感到好奇:数据要素与数据是什么关系?数据要素安全包含哪些内容,它与当前的数据安全是不是一回事儿?等等。

在本章,我们将带领读者回顾数据要素的发展历程,分析数据要素安全的特点,并比较数据要素安全和传统数据安全的差异。

1.1 数据要素的发展历程

1.1.1 数据1.0时代

为了深入理解数据要素,让我们将时钟往前拨一拨,回顾一下“前数据要素时代”。实际上,在数据要素成为焦点之前,我们所讨论的数据主要面向技术领域,侧重于信息处理和业务应用。

在信息处理层面,数据可以视为一种信息技术资源,如软件定义存储、数据库管理、大数据运维技术等,主要考虑的是如何有效、弹性地构建、管理数据存储基础设施,以支撑后续的数据处理和分析;而在业务应用层面,数据被当作应用的原始输入和所需资源,经加工、处理形成面向特定场景的知识库或算法,如数据分析处理技术,常见的应用场景有反欺诈、人脸识别等。

我们查阅了国内外学者对数据的不同定义,发现定义众多。例如,维基百科给出的定义如下:数据(Data)是一组离散或连续的值,用于表达信息(Information),或描述数量、质量、事实、统计等基本含义,还可能是用于形式化解释的简单序列符号(Symbol)。

数据可以是一段文字,也可以是一张图片,还可以是一个视频。从最终呈现的视角来看,数据就是一组离散值或连续值的集合,因而数据本身没有意义,数据必须经过解释(Interpret)后才有用处,经过解释的数据就变成了信息。

更进一步,如图1-1所示的DIKW金字塔,其中的D、I、K、W分别代表数据(Data)、信息(Information)、知识(Knowledge)和智慧(Wisdom)。DIKW金字塔是信息管理和知识管理领域的一个经典框架,用于描述从数据到智慧的转化过程。DIKW金字塔自底向上,每层的容量变小,但重要度、洞察度和预测力不断变强。

图1-1 DIKW金字塔

从人类认知的角度来看,数据是金字塔最底层的信息处理的原始输入,是我们观察这个世界的客观事实的记录值,而经过人类加工的信息、知识和智慧已经超越了数据本身。

从信息技术的角度分析,我们所讨论的数据是DIKW金字塔在基础设施层面的投影。比如,我们称存储在计算机中的文件为静态数据(Data At Rest),而将网络中实时传输的直播视频称为动态数据(Data In Transit)。在这些场景中,数据是信息、知识和智慧的载体。

在本书中,当我们讨论数据安全时,必然涉及各种“数据”字样的概念,这其实或多或少地关联到了信息或知识维度而非简单的原始数据。尽管我们通常统称它们为“数据”,但在不同的场景或语境下,该词所表达的含义是不同的,相应地,我们采取的处理方式和处理维度也不尽相同。就如我们在谈论数据安全方案时,有的机制关注网络安全,有的机制关注应用安全,还有一些关注的是业务安全,原因就在于这些技术所针对的“数据”本身处在不同的维度。比如,API数据安全技术需要关注作为应用层业务的数据载体的传输模式;再如,数据分类分级、敏感数据识别等技术需要关注某行业的领域知识和法律规定。

在数据1.0时代,企业的业务部门应该关心如何存放、处理和清洗数据,或如何利用预处理完的数据建模来解决特定的业务问题。数据治理部门应该关心在满足合规性和易用性的前提下,如何在数据生命周期内进行数据管理、数据监管和数据质量提升等。更进一步地,数据安全部门或负责数据安全的团队应该站在DIKW金字塔的基础设施层面,关注隐私合规和数据载体安全。此时,整个环节的利益相关方(决策者、执行者、使用者和受益者等)主要集中于企业内部的业务部门、数据治理部门、信息化支撑部门、信息安全部门、审计部门、风险合规部门等 。数据作为企业的资源是不会随意对外公开的 ,自然也就不会有其他外部的参与方或利益相关方。

1.1.2 数据要素时代到来

2019年10月31日,中国共产党第十九届中央委员会第四次全体会议通过《若干重大问题的决定》,首次在中央层面确定数据可以作为生产要素参与分配。

2020年4月,中共中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,将数据列入生产要素,并提出了“加快培育数据要素市场”。

至此,数据在国内成为自土地、劳动力、资本、技术之后的第五大生产要素。数据在信息知识载体的基础上,正式具备了生产要素的属性。

在数据要素时代,数据资源的经济价值在生产环节被数据加工者深度挖掘,形成数据产品(如数据集、报表、数据模型、数据应用等);数据产品在分配、流通、消费等环节被视为一种新型资产,可用于财富重分配,最终释放数据价值。这个数据要素化的过程如图1-2所示。

图1-2 数据要素化的层次图

因而,数据要素时代的关键在于数据的要素化,也就是将数据视为人们在生产经营过程中所需的资源或输入。

当一项技术对业务发展产生良性作用时,其成功便成为必然;若该技术还能与经济发展紧密结合,那么它所带来的时代红利将无限扩大。在一个每天新增海量数据、每个人都生产和消费各类数据的时代,数据要素化带来了生产效率的提升和社会财富的增加。

近年来,生成式人工智能(AIGC)大热,其背后的大模型搭载了海量参数,读取了海量数据,从而表现出惊人的智能水平。在此过程中,算力、算法和算据(计算数据的简称)缺一不可。以云计算为关键技术的算力基础设施已然成熟,因预算限制,越来越多的企业开始使用公有云的GPU(Graphics Processing Unit,图形处理单元)租赁服务进行模型微调和推理;以大模型为代表的各种人工智能算法日新月异,解决了各领域越来越多的问题;而处于最后一环的数据,特别是高质量、面向特定行业的标记数据,目前是制约各行各业智能化服务质量的关键因素。因而,将数据要素化,通过经济手段提升数据流通和汇聚的规模与质量,能极大地提升我国生成式人工智能基座模型和各类知识库的性能。

诚然,目前在学术和立法层面,关于数据要素的确权、流通、治理仍存在诸多讨论,监管机构、交易所和企业在实践数据要素化方面尚未形成成熟的标准做法,公众对数据要素化的理解还处在初级阶段,且这个领域依然存在各种不确定因素,远没有进入快车道。

纵然还存在各种不确定因素,但不可否认的是“数据要素”这一新时代已不可阻挡地到来了。数据要素化的价值,考虑到司法、技术和行业实践的不成熟,短期内被高估了,但考虑到数据要素与各行各业结合后在智能化、自动化水平上的极大提升,长期看又绝对被低估了。

1.1.3 数据与数据要素的关系

数据要素时代强调如何在社会生产、生活中使用数据,并与其他要素结合,进而发挥出更大的价值,创造出更大的经济效益和社会效益。

如前所述,数据是生成信息的输入和所需资源,数据要素是社会生产的输入和所需资源。虽然都是“输入和所需资源”,但这两个术语显然不同。数据是面向信息技术领域的,而数据要素是面向经济社会领域的。

可以说,数据是数据要素的基础,包括人工智能、大数据等技术在内的数据基础设施是数据要素化的底层技术支撑。数据要素则是数据在社会活动中的价值外在体现,数据加工者根据生产目标和业务场景需求,利用各类算法与数据结合,得到蕴含知识和智慧的数据资产。如果某类数据资产可以交易,那么它们就是数据产品。

从研究领域来看,数据是信息技术领域的一个概念,而数据要素超越了该领域,已经延展到了经济学、会计学、法学领域。读者可以访问中国知网(下文简称知网),在主题中搜索“数据要素”,将研究论文按照学科分类,如表1-1所示(数据截至2024年5月14日)。除了计算机学科,数据要素还涉及政治、行政、证券、经济、金融和法律等,绝大部分的研究是2020年以后的,且每年的研究论文数量成倍增长,可见该领域的研究涉及面广、研究者众、学科交叉复杂。

表1-1 知网上“数据要素”研究论文的学科分类

为何数据要素这么复杂呢?原因在于“数据要素”与多个领域相关。

首先,数据要素是一种生产要素,该术语属于经济学范畴。生产要素是指社会生产经营过程中所需的各类资源。在最早的经济学理论中,重农学派将生产过程解释为人口中参与阶级间的互动。在农业社会,最重要的生产要素是土地。后来发展到资本主义社会,古典经济学派在土地的基础上增加了资本和劳动力两大生产要素。经济学家亚当·斯密在其代表作《国富论》中提出,“无论在什么社会,商品的价格归根结底都可以分解为劳动、资本和土地”,形成了“生产要素三元论”。

进入现代社会,随着市场经济占主导地位,企业家或组织也被一些学者纳入了生产要素的范畴。19世纪末,西方经济学家马歇尔在其著作《经济学原理》中将组织列为第四大生产要素,提出了“生产要素四元论”。

当前,各类创新技术快速发展,技术也被视为一种生产要素(当然,技术本质上也属于劳动的一部分)。

进入21世纪后,数据作为第五大生产要素被凸显。数据已经脱离了其他生产要素,具备独特的价值,可见信息、知识和智慧这些数据衍生品正在发挥越来越大的作用,成为人类社会经济活动的重要基础。

其次,数据要素的确权、跨境问题涉及复杂的法律法规。例如,《关于构建数据基础制度更好发挥数据要素作用的意见》(又称“数据二十条”)提到了建立数据资源持有权、数据加工使用权、数据产品经营权等分置的产权运营机制。如何界定给定数据集的相关产权?这既是明确法律细则和司法实践的问题,也是技术领域需要突破的难点。考虑到数据的易复制和易修改,需要在源头建立确权登记机制和流程,并具备从数据流通路径上对数据片段进行溯源和跟踪的能力。

2024年3月,国家互联网信息办公室颁布了《促进和规范数据跨境流动规定》,明确了数据在跨境流动过程中所涉及的数据安全评估、个人信息认证管理等要求。这些要求如何得到执行,还涉及组织架构、流程管理、技术支撑等方方面面。

再者,数据入表需要考虑企业的无形资产和存货计算,这涉及会计学;而数据要素的进一步推广又需要自顶向下制定政策,这涉及政治和行政学。

最后,数据要素化的核心是将数据变现,也就是要充分考虑实际应用场景和业务需求。2024年1月4日,国家数据局等17个部门联合发布《“数据要素×”三年行动计划(2024—2026年)》,提出了数据要素要赋能智能制造、智慧农业等重点行业,从而将数据要素与各行各业联系起来。可以预见,随着时间的推移,数据要素相关的研究和实践将如同IT技术一样,拓展到更多行业和应用领域,成为一种普遍的价值增长途径。

1.1.4 数据要素的发展

随着人工智能,特别是AI大模型的迅猛发展,数据的价值已经得到广泛认可。无论是出于国家间人工智能战略竞争,还是出于利用数据提升生产效率和促进经济发展,很多国家都开始制定数据赋能经济和社会发展的战略。

1.中国数据要素的发展

近年来,数据要素的发展可谓迅猛,下面我们从互联网关注度、学术研究、国家顶层设计和组织架构等方面进行分析。

从互联网关注度来看,数据要素热度方兴未艾。笔者在百度指数、巨量算数(今日头条的数据平台)和Google Trends上搜索了“数据要素”,得到图1-3~图1-5,可见数据要素的关注度在2023年之前并不高,但此后开始激增。这或许能印证数据要素的整体发展趋势:起步晚,关注度高,发展快,但落地尚早。

A white screen with a number of barsDescription automatically generated with medium confidence

图1-3 “数据要素”的百度指数

A graph with numbers and a lineDescription automatically generated with medium confidence

图1-4 “数据要素”的头条关键词搜索指数

A graph with numbers and a lineDescription automatically generated with medium confidence

图1-5 Google Trends上“数据要素”的热度

从学术研究来看,数据要素的研究增长迅速。笔者同样也搜索了知网上的数据要素研究论文,如表1-2所示。自2019年以来,此类论文的数量呈现基本上每年翻一番的趋势,结合表1-1,可见数据要素的学术研究不仅在数量上增长迅速,而且研究领域也在不断延展。

表1-2 知网上“数据要素”研究论文的年度数量

数据要素发展的内在动力源于其将数据价值转化为经济价值的巨大潜力。近年来,数据要素发展的主要推动力是国家层面对数据要素顶层设计和组织架构的不断完善。实际上,自2019年数据要素这一概念诞生以来,与数据要素相关的国家机关和组织架构一直在持续优化。

2023年3月7日,国务院发布了《关于国务院机构改革方案的说明》,正式宣布国家数据局的成立。国家数据局由国家发展和改革委员会管理,负责协调推进数据基础制度建设,协调国家重要信息资源的开发利用与共享。

国家数据局主要聚焦于数据的开发,与数据要素安全相关的还有公安机关、国家安全机关和国家网信部门等。在《中华人民共和国数据安全法》中,对这些机构的职责已有说明。

公安机关、国家安全机关等依照本法和有关法律、行政法规的规定,在各自职责范围内承担数据安全监管职责。

国家网信部门依照本法和有关法律、行政法规的规定,负责统筹协调网络数据安全和相关监管工作。

国家数据局成立后,国家网信部门中与数据发展相关的职责由国家数据局统一行使,而其在网络安全、数据安全、个人信息保护、关键信息基础设施安全方面的“统筹协调”法定职能不受影响。

与此同时,各地数据管理机构也在进行相应调整。此前,各省级大数据局由各地自行组建,其职责、性质和配置等各不一样。国家数据局成立后,各地开始组建省级数据局。2024年年初,不到两个月就已成立19个省级数据局。这些地方数据局的成立,标志着国家数据局的职能在地方层面得到落实,我国对数据要素的重视程度达到了前所未有的高度。

“组织定”则“职责明”,“职责明”则“规划出”。在数据被列入生产要素之后,与数据要素相关的政策、法律法规也不断发布。

2022年6月,“数据二十条”在中央全面深化改革委员会第二十六次会议上审议通过,该文件旨在从数据产权、流通交易、收益分配、安全治理等方面构建数据基础制度。

2024年年初,国家数据局等17个部门印发《“数据要素×”三年行动计划(2024—2026年)》,提出探索多样化、可持续的数据要素价值释放路径。

可以预见,随着国家数据局数据要素相关工作的开展,国家层面的数据要素政策将会不断推出;同时,各地数据局的职责相继明确,这些地区的数据要素规划、政策将会越来越密集地推出,进一步加速相关产业的发展。

2.美国的数据战略

2019年6月,美国行政管理和预算局(OMB)发布了美国联邦数据战略(Federal Data Strategy,FDS),旨在通过有效的数据管理和共享,提升政府的效率和决策能力,推动公共服务的改进 [5] 。FDS强调的是责任与透明,虽然责任与安全相似,但也有区别。与传统的安全观念相比,责任更侧重于正向引导而非限制和约束。FDS的具体目标包括但不限于:

1)为公众、企业和研究人员提供一致、可靠且保护隐私的联邦政府数据;

2)增加数据在联邦决策和操作中的共享与使用;

3)通过丰富的描述和元数据提升数据的可发现性;

4)为地方政府提供安全数据访问的管理工具和协议;

5)通过风险评估和利益相关方参与,提前规划数据的二次用途。

为了实现FDS的目标,美国联邦政府规划了如图1-6所示的十年愿景,大致分为4个阶段:基础阶段(2020—2022年),聚焦于数据治理、规划和基础设施建设;企业级阶段(2023—2025年),推动标准化、预算管理和跨部门协调;优化阶段(2026—2028年),推广自助分析工具;数据驱动阶段(2029年及以后),实现基于证据的决策和自动化数据改进。

图1-6 FDS十年愿景规划

除此之外,为了落实FDS的具体行动,美国还会发布每年的行动计划:2020年行动计划,这是美国发布的首个年度行动计划,重点聚焦于数据治理、数据基础设施建设和跨部门协作等基础工作;2021年行动计划,继续推动基础设施建设,同时加强隐私保护、数据共享和跨机构合作;2022—2024年行动计划,美国目前还未正式发布或详细披露具体内容,可能会继续聚焦于数据的可用性、跨部门的数据共享以及推动数据驱动决策。

随着人工智能的广泛应用,尤其是大模型的发展极大提升了智能化水平,给各行各业提供了丰富的想象空间。2023年,美国白宫公布了《国家人工智能研发战略计划》,提出了一系列围绕人工智能使用和发展的新举措。这一战略使数据监管成为焦点,尤其是在隐私保护、数据安全和跨境数据流动等方面。随着人工智能技术的快速发展,数据已经成为驱动AI系统运转的核心要素,美国政府及相关机构逐步加强了对数据收集、存储、使用和分享的监管。出于对国家安全和经济竞争力的考量,美国在AI战略中引入了更严格的数据管控措施,以应对AI技术滥用、数据泄露及敏感信息被非法获取的风险。

基于此,美国国家标准与技术研究院于2023年发布了AI风险管理框架(AI Risk Management Framework,AI RMF),旨在帮助各类组织在开发、部署和使用AI系统时管理与之相关的风险。AI RMF强调了数据在AI系统中的核心作用,特别是针对数据的隐私和安全,提出了以下几项关键建议和要求。

● 差分隐私:AI RMF建议在处理和使用敏感数据时,采用差分隐私等技术,确保即使在分析过程中也无法识别个人身份。通过在数据集中加入“噪声”,可以保护用户隐私。

● 数据最小化:AI RMF鼓励企业和组织只收集、使用和存储实现AI系统目标所必需的最少数据,从而减少不必要数据收集导致的风险。

● 加密标准:AI RMF要求在数据的存储和传输过程中使用加密技术,以确保数据在AI系统的整个生命周期中免受未经授权的访问和篡改。

● 基于角色的访问控制:AI RMF建议实施严格的访问控制策略,确保只有授权人员才能访问和处理数据,减少内部人员泄露敏感数据的风险。

● 数据分级管理:AI RMF建议根据数据的敏感程度对其进行分级管理,并为每种类型的数据设定不同的安全和隐私保护标准。

● 数据偏见检测:AI RMF建议在使用训练数据时,对数据集中的偏见进行检测和纠正,以防止AI系统因为数据偏见而做出不公平的决策。

总的来说,美国的数据战略侧重于联邦政府相关数据的公开,以促进创新和技术发展;中国的数据要素则涵盖了更多应用场景,除了数据公开,还包括数据交易、数据共享交换等,更强调通过多元化的数据管理模式推动数字经济的发展。

1.2 数据安全概述

1.2.1 数据1.0时代的数据安全

在数据1.0时代,数据作为信息的载体,存放在机构的数据库、文件系统、存储服务器等位置。此时的数据安全,主要对应的是信息安全的三个属性:机密性(Confidentiality)、完整性(Integrity)和可用性(Availability)。数据机密性受损的风险主要是数据泄露,数据完整性受损的风险有数据损坏,数据可用性受损的风险有数据污染或拒绝服务等。

数据泄露(data breach)是机构面临的最大的数据安全风险,特别是机构保存的自身敏感数据和个人数据被攻击者非授权访问后,可能会被其窃取。数据泄露的攻击向量有多种,比如Web安全中的SQL注入造成拖库、代码仓库中的配置文件包含AK/SK(访问密钥/秘密密钥)造成存储桶泄露、企业内部员工非法窥视系统数据等。暗网市场上售卖的大量敏感数据,以及非法推销和诈骗活动中犯罪分子所用的个人信息,都是数据泄露直接后果的明证。

数据损坏(data corruption)是指攻击者未经授权,篡改数据源、文件、网页等数据,使得业务输出结果的完整性被破坏。近年来最常见的数据损坏威胁当属勒索软件。勒索软件会寻找系统中重要的用户文件,如文档、数据、图片等,并对其加密,以此勒索用户支付赎金来获得解密密钥。在许多情况下,用户即便支付赎金也无法解密文件,此时数据的完整性遭到彻底破坏。随着人工智能的兴起,数据篡改已经扩展到对模型参数、结构的篡改,例如使用Deepfake替换源视频中的人脸,伪造具有政治或恐怖主义影响的视频;或进行定向的电信诈骗,令人防不胜防。

数据污染(data poisoning)在人工智能算法中比较常见。如果攻击者给模型提供垃圾数据或恶意数据,算法就可能输出错误的模型,使得整个模型不可用。另外,攻击者也有可能发动拒绝服务(Denial of Service,DoS)攻击,在短时间内发起大量的请求,破坏数据服务的正常运行。

这几种风险常常相伴而生,例如一些勒索软件团伙在加密文件的同时,也可能窃取这些文件。如果在一定期限内不支付赎金,则不仅用户无法解密文件,文件还会被发布到暗网。即便用户已经提前完成文件的备份,对于敏感数据,用户仍可能被迫支付赎金。

需要说明的是,在数据1.0时代,窃取数据和破坏数据往往是网络攻击的最后一环,所以在整个攻击过程中,攻击者会大量使用网络攻击、社会工程等手段,因而防守者也需要在预防、检测、响应等环节做好充分的准备。当我们谈论数据安全时,很多情况下其实是在处理网络安全问题,如入侵检测、用户行为分析、Web安全等,这都是为了避免攻击者最终访问到敏感数据。正因如此,传统的数据安全往往由企业的网络安全团队负责。当然,随着数据要素时代的到来,数据安全的内涵在向企业业务安全延展,在做好传统数据安全的同时,安全团队的职责也在不断演进,数据要素安全相关的团队和组织架构也在进行调整。

1.2.2 数据要素安全

为了推动新质生产力的发展,产业与技术升级已刻不容缓。数据要素作为一种新型生产要素,在流通、使用和共享过程中能够显著提升其使用价值和交换价值,为各行各业创造大量新业务,提升全社会的整体生产力。数据要素入表也将极大提升企业数字化转型的速度,推动社会数字经济的发展。我们已迈入数据要素时代,数据要素时代的数据安全不仅包括传统的数据安全,还包括数据要素安全。

数据要素安全蕴含了“数据流通安全”,因为数据要素化的必要条件是数据经过流通产生价值,所以其全称应为“数据要素流通安全”。“数据要素流通安全”与“数据安全”相比,变化在于多了“流通”和“要素”两个关键词。

先谈“流通”。数据流通安全应当关注数据作为信息的载体,在采集、传输、存储、共享、使用和销毁阶段的安全,确保数据的机密性、可用性和完整性,防止第三方未授权的访问、修改或破坏。虽然数据流通安全也关注信息安全的三个属性,但与传统数据安全有所区别。在一个典型的数据流通场景中,数据从数据持有者流到了第三方,此时数据的完整性和可用性是第三方所关注的,以确保这些数据可以被正确且可靠地生产或消费。而在另一些场景中,数据持有者更关注数据的机密性,即数据不能被第三方看见,也就是数据“可用不可见”,这能确保原始的敏感数据不出本地,消除数据持有者的顾虑。

再谈“要素”。数据作为生产要素,是新时代新质生产力的输入资源。确保数据要素安全,就需要在数据生产、消费的过程中,确保价值提升过程合理、合法、合规,各方权益保障公平、公开、公正,技术手段可信、可证、可控。在经济领域讨论数据要素安全,就是希望通过制度、技术体系的建立激发各方积极参与数据生产活动,以最大化经济价值和社会价值。在此过程中,通过公开透明的法律、制度保障参与方的各项权益,利用各种新技术降低信任成本,构建权益可证明、行为可审计、事件可溯源的数据要素全流程的安全底座。

综上,数据要素安全或数据要素流通安全的内涵就是在数据流通过程中,既要保证数据作为载体的信息安全,又要保障数据作为生产要素时各参与方的相关权益。

为了保持阐述上的一致,在后续章节中,我们将“数据1.0时代”和“数据要素时代”机构内部的数据自身安全机制称为“数据安全”或“传统数据安全”,而将“数据要素时代”在数据流通环节需要关注的前述数据安全流通机制称为“数据要素安全”。

在数据要素时代,数据作为生产要素,其价值的提升往往需要数据资源持有者对外开放数据,让数据被第三方使用,其中第三方包括数据加工使用者和数据产品经营者。从机构角色来看,第三方一般跟己方机构有合作关系,或是同单位的不同部门,或是同行业的其他单位,又或是其他行业的业务合作方。由于第三方是业务驱动引入的,这些单位可能是诚实的,也可能是不诚实的,甚至不排除是恶意的,特别是这些单位里可能存在有不当目的的内部员工,或是已攻陷并潜伏在数据流通链中的恶意攻击者。所以,数据要素安全的本质就是在数据要素流通过程中,使所有数据相关行为遵循持有者对数据资源操作的意愿,防止第三方未授权的操作,保证事前安全机制可信任和可证明、事中过程可控和数据可用、事后安全事件可审计和可溯源。

然而无论哪个行业,一旦涉及多方间的数据或计算任务的流通,安全机制就不容易建立。

在数据流转过程中,参与方的权益必须得到保障。经济学中的“公地悲剧”概念指出,如果数据资源是公共的,参与方的权益未得到保障,那么很可能数据资源最终产生的价值会锐减,就如过度放牧后沙化的公共场地。因此,数据资产持有权、数据加工使用权和数据产品经营权都应该受到尊重和保护。

但在实践中,保障相关权益在技术层面颇有挑战。一方面,数据易于复制,数据资源持有者对数据流转出去的不可控状态有天然的担忧;另一方面,以往的数据安全和网络安全旨在预防和检测敏感数据泄露,而非赋能数据流转,目前尚缺乏成熟高效的技术、流程和架构来支撑数据安全流转。

当前技术层面的不足造成了多方间的信息不对等,各参与方陷入经典的囚徒困境:己方担心对方作恶,因而不敢做出最有利于自己的选择——开放数据,通过数据流通创造业务价值,而是做出了次优选择——所有人不共享,以避免数据泄露或滥用所造成的安全事件。这就变成了“公地悲剧”的反面——“反公地悲剧”,即产权私有化导致资源得不到充分利用,数据价值同样无法充分实现。

以医疗体系为例,医院、卫生健康委员会和疾病预防控制中心之间会共享病例等各种数据,以进行疫情管控或学术研究;而第三方(如保险机构、科研机构)也需要相关的医疗数据做疾病预测或成本精算。因而医疗体系中数据流通的需求是真实且巨大的,但流转的数据本身高度敏感,不仅涉及个人隐私,还可能危及国家安全,数据在流转的全生命周期都应得到保护。实际上,有些机构在开放数据后没有做好相应的安全防护,造成大量公民信息在暗网售卖的严重后果。例如,2023年6月,北京市昌平区某生物技术有限公司被发现存在数据泄露的情况,其委托的另一软件公司研发的“基因外显子数据分析系统”在测试阶段未落实相关的安全措施,导致包含公民信息、技术等数据的泄露,数据总量达19.1GB。在日常业务的数据共享中,更为常见的风险是数据流转到第三方后,第三方内部的非善意员工未经授权地访问或操作数据,造成数据外泄、数据投毒或数据篡改等严重后果。

事实上,这也是当前数据流通过程中所面临的最大挑战。如果不能消除所有参与方对第三方超出合理限度使用数据的相关风险的顾虑,就无法建立真正有效的数据流通业务,也就没有办法推动数据要素化,创造更大的价值。

在数据要素时代,探索新的技术路线,帮助众多机构、企业以最低成本迁移和部署新业务,并采取必要的措施保障数据在流通、使用、共享和销毁的整个过程中安全可控,是非常有必要的。

1.2.3 数据安全与数据要素安全

如前所述,数据安全和数据要素安全之间存在较多差异。总体而言,数据安全的目标是在有限域中“抵御恶意攻击者”,数据要素安全的目标则是在去中心化的环境中“建立多方信任”。下面让我们从多个角度来做一些具体分析。

首先,从安全目标角度看,正如其他生产要素,数据要素的使用价值和交换价值的实现依赖于数据在所有者与使用者之间的流转。数据要素安全旨在保证该过程中数据不会被第三方滥用、误用,因而聚焦于数据的使用安全,本质上是业务层面的安全。然而,当前大部分组织机构的安全团队还用网络安全领域的技术和体系做数据安全,如异常检测、访问控制等,这是现阶段的数据安全,目的是保护重要数据不外泄,不被攻击组织窃取,本质上是基础设施层面的安全。

其次,从威胁模型角度看,在数据安全的威胁模型中,敌手是恶意攻击者,如APT(Advanced Persistent Threat,高级持续性威胁)组织、攻击团伙等;在数据要素安全的威胁模型中,敌手则是不诚实的第三方,如窥视数据的合作伙伴。两者风险不一致,数据安全相关技术不能成为推动数据要素安全流转的关键技术和机制,但目前的数据安全机制可以是数据要素安全的底座和基础,讨论敌手模型是诚实的还是半诚实的前提是已经解决了恶意攻击者的风险。

最后,从设计思维、安全体系和实现角度看,在传统数据安全体系中,设计思维模式倾向于逆向思维,找到突破点,进而补齐;在数据要素安全体系中,则偏正向思维,即要在多个合作方之间实现数据要素流转和安全计算,就应正向构建一个可证明的安全环境,而不是先假设对方是恶意攻击者并穷举各种攻击手段。因此,基于密码学的机密计算、可信计算、隐私计算等技术就成了赋能数据要素安全的关键技术。

数据要素安全与传统数据安全的差异点总结见表1-3。

表1-3 数据要素安全与传统数据安全的差异点总结

需要说明的是,虽然目标不同,但数据要素安全和传统数据安全在大部分场景中是相辅相成、互为倚靠的。

1.2.4 数据要素安全与个人隐私

客观上讲,西方国家先进的科学技术在近现代对中国产生了深远影响。在过去数十年,信息技术和立法领域也呈现“西风东渐”,国内一直在跟随、借鉴西方国家,安全领域也不例外。因此我们在思考数据要素安全与个人隐私未来发展方向时,会不自觉地仍期望“西风东渐”,但笔者感觉近几年已经开始发生明显的变化,识别这些变化会让我们对该领域的理解更为深刻。其中,国内外在数据安全后续发展中最大的差别在于,国外企业因合规性要求,朝着个人信息保护方向前进;国内企业则顺应国家数据要素化的政策,积极探索如何挖掘数据资源的价值。

显著的差异具体表现在多个方面,我们列举如下。

(1)合规性差异

西方国家的数据安全相关法律法规以保护个人消费者信息为主,例如GDPR、CCPA(California Consumer Privacy Act,加利福尼亚消费者隐私法案)等法律法规,旨在约束数据控制者(data controller,通常是掌握个人数据的企业)以保障消费者的权益,如数据知情权、遗忘权等。因此,前几年国外数据安全创业公司(如Big ID、securiti.ai等)的主要业务是发现、关联和管理企业内的个人信息。

国内也出台了《中华人民共和国个人信息保护法》,2024年颁布的《促进和规范数据跨境流动规定》对个人数据跨境流动做出了规定。但总体而言,个人数据安全只是数据安全的一部分。GB/T 43697—2024《数据安全技术 数据分类分级规则》将数据分为一般数据、重要数据和核心数据。重要数据是指“特定领域、特定群体、特定区域或达到一定精度和规模的,一旦被泄露或篡改、损毁,可能直接危害国家安全、经济运行、社会稳定、公共健康和安全的数据”;而核心数据是指“对领域、群体、区域具有较高覆盖度或达到较高精度、较大规模、一定深度的,一旦被非法使用或共享,可能直接影响政治安全的重要数据”。核心数据和重要数据在当前阶段是国内数据安全更为关注的保护项,在数据要素应用中需要重点考虑,运营政府公共数据时更应当考虑此类数据的安全性。

(2)政策差异

国内将数据作为新质生产力,在满足合规性要求的同时,更加强调探索和发挥数据要素的价值。例如,“数据二十条”强调“建立公共数据、企业数据、个人数据的分类分级确权授权制度,根据数据来源和数据生成特征,分别界定数据生产、流通、使用过程中各参与方享有的合法权利”。传统数据安全做数据分类分级的目的是摸清家底,重点保护敏感数据;“数据二十条”的数据分类分级对象虽然也涉及个人数据,但并非合规驱动,而是推动数据要素化的第一步——确权授权。

(3)产业差异

在国外,除了传统的数据安全风险评估和管理,隐私合规的需求驱动数据安全产业向保护个人隐私的方向前进,出现了隐私影响评估(Privacy Impact Assessment,PIA)、合成数据、主权数据策略、隐私管理工具等数据安全产品和服务。而国内隐私相关的数据安全产品相对较少,更多的是脱敏、水印、文档管控、数据防泄露等产品,目的是解决数据流通过程中的各类安全问题。

(4)技术应用差异

尽管国内外在数据安全的政策引导和产业生态上的差异日益增大,但技术层面的差距正在逐渐缩小。在人工智能、数据安全和隐私保护的技术研究和应用方面,学术界和产业界百花齐放、日新月异。

Gartner对数据安全 [2] 和隐私保护 [3] 两个领域的技术做了成熟度曲线分析,有意思的是,这两条曲线上有相当多的技术是重合的,如机密计算、零知识证明、合成数据、差分隐私、同态加密等隐私增强技术。也就是说,同一个技术,既可以用于解决个人隐私不被滥用的问题,也可以用于解决敏感数据不出域的问题。

实际上,隐私增强技术如差分隐私、同态加密等,在国内外的应用场景也存在显著差异。考虑到国外隐私合规是私营机构的强需求,隐私增强技术多用于涉及多方机构利用个人信息的协同计算;而在国内,隐私增强技术多用于确保敏感数据不出域的多方协同计算场景。原因很简单,个人信息也好,敏感数据也罢,都是需要重点保护的数据资源。技术本身只是工具,只要能解决问题即可。

不过,读者需要注意“隐私计算”与“隐私增强技术”和“隐私增强计算”的区别。国内李凤华等老师在《隐私计算理论与技术》 [4] 一书中提出了隐私计算的概念,其定义是“面向隐私信息全生命周期保护的计算理论与方法,是隐私信息的所有权、管理权和使用权分离时隐私度量、隐私泄露代价、隐私保护与隐私分析复杂性的可计算模型与公理化系统”。而产业界提得比较多的是隐私增强计算(Privacy-Enhancing Computation,PEC)或隐私增强技术(Privacy-Enhancing Technology,PET),目的是在保护个人隐私的前提下,合理使用个人数据,其间会用到联邦学习、安全多方计算和机密计算等技术。因此,“隐私计算”与“隐私增强计算”和“隐私增强技术”既有微妙的区别,也有交叉重合。不过随着数据要素安全的关注度日益增加,人们在日常交流中也会交替使用这三个术语。读者可以先理解相关概念,熟悉所涉及的支撑技术,再根据具体的需求去解决日常遇到的问题,而不必纠结术语的字面差别。因为本书重在实践,所以可能存在这三个术语并用的场景,但它们都是指各类隐私增强技术。

当然,除了上述有重合的技术,数据安全和隐私保护技术的差异也比较明显。数据安全明显侧重于数据流通过程中的数据安全保护,如数据安全平台(Data Security Platform,DSP)、数据防泄露(Data Loss Prevention,DLP)、数据风险评估(Data Risk Assessment,DRA)、数据安全服务(Data Security as a Service,DSaaS)、数据安全态势管理(Data Security Posture Management,DSPM)等;隐私保护则侧重于满足个人隐私合规的风险管理和技术,如隐私管理(Privacy Management)、隐私设计(Privacy by Design)、主体权利要求(Subject Right Requirement,SRR)等。

综上,国内正朝着数据要素安全的方向快速前进,国外则沿着隐私合规的方向持续推动数据安全产业发展,其间国内外都会使用相似的支撑技术来解决原始敏感数据不出域、数据可用不可见的问题。支撑技术相同,但应用场景不同,可以预见这两个赛道会演化出不同的安全架构和技术栈。

1.3 本章小结

数据要素时代的到来,预示着数据价值提升会极大程度地推动整个社会生产力的发展。为了保障数据要素的安全,我们需要确定整体目标,理清安全防护思路。数据要素安全与传统数据安全有较大的差异,其讨论范畴和研究领域将会有很大的变化。

从数据安全走向数据要素安全,一方面要将传统数据安全和网络安全做好,将其作为数据要素流转的数据安全基础设施;另一方面要关注业务本身,通过选择合适的新技术、架构和流程,确保数据作为一种生产要素,在整个生命周期中得到合理的加工和使用,让整个过程可信、可用、可控、可溯。 05a0uC2RogTmcRxydSF8qxlJksjbofHXMyd0pCYcJpV4J1wrJQiKwThLrywmewid

点击中间区域
呼出菜单
上一章
目录
下一章
×