政务信息共享数据安全实践最新章节_罗海宁著

6.1　政务共享敏感数据识别和分类

建设聚焦于政务敏感数据资产化识别和分类的政务共享敏感数据管理体系，可以清晰有效地掌握系统中敏感数据的分布、流转和使用情况，有利于对敏感数据进行监控。此外，通过着力于敏感数据资产的细粒度数据权限管理策略，能够将管理力度进一步深入敏感数据流转的风险控制层面，从而有效地将数据泄露、滥用等风险隐患提前扼杀。

政务共享敏感数据识别和分类，是针对政务信息共享全局业务系统的安全策略一致性建设和安全管控的基础依据，保障数据提供方和数据使用方具备同等的安全机制和保护力度，同时建立精细粒度的授权审核机制，降低授权不当风险，并在共享交换的数据流转路径上通过敏感数据资产的数据地图、血缘进行有效的监控。

6.1.1　敏感数据资产识别

6.1.1.1　技术简介

敏感数据资产识别是数据资产管理的基础和前提，基于数据资产的“敏感”定义，通过对数据服务分布以及数据库及大数据平台中数据资产进行盘点发现，并针对数据分布进行分析和展示。

敏感数据资产盘点发现手段有以下几种方案：

1）运营人员手工检测录入；

2）通过命名体识别等算法建模实现技术工具自动化识别并录入；

3）通过流量分析，并利用流量包还原、深度报文检测（DPI，Deep Packet Inspection）等技术，分析数据流动中的敏感数据资产。

数据资产盘点具体能力包括：

1）提供数据资产盘点范围定义、数据特征依据制定等入口，对不同类型数据库进行定时扫描，结合特征依据发现结构化数据资产和数据更新；

2）业务系统静态数据资产多维度梳理展示，包含数据大小、归属、分布等属性内容和数据访问、交换、开放、分析等权限内容；

3）对流量报文进行还原，并基于内容进行分析识别敏感数据。

6.1.1.2　工作原理

敏感数据资产识别首先要对敏感数据进行准确定义。敏感数据一般是指泄露、修改、破坏或丢失后会对个人或企业等产生一定的利益损害的数据，比如个人电话、住址、身份证信息、银行卡信息等。敏感数据如果出现泄露，可能会危害个人的经济利益或人身安全。

基于敏感数据的定义，借助字典等相关技术实现方法，快速扫描及发现相应数据资产中隐含的敏感数据信息。业界对于敏感数据的识别已经有很多相关技术论文可以参考，如《电脑与信息技术》期刊曾刊登文章《浅谈敏感数据的识别方法》［21］，介绍了一套完整的敏感数据识别体系。

目前结构化敏感数据识别技术已经比较成熟，但是对于非结构化敏感数据的识别还存在较强的技术难点。如对于图像、语音、视频等非结构化数据中所包括的敏感数据，如何能快速准确地识别出来，首先取决于对这些非结构化数据的解读（即非结构化数据的转译），然后基于解读后的数据再进一步进行敏感数据的分析。当前业界对于图片、语音、视频等非结构化数据解读已经有一些较为成熟的技术，但从解读的数据识别出敏感数据方面还需要业界持续研究。

6.1.2　敏感数据资产分类分级

6.1.2.1　技术简介

敏感数据资产分类分级是针对不同类别和级别的数据进行策略设置，根据策略对敏感数据识别，然后进行针对性跟踪和管理。分类分级策略即数据资产的“敏感”定义及识别的核心依据，同时提供多种敏感数据识别的场景模式，常见的模式有：

1）预定义模式：按照国家法律法规预置敏感数据类型以及敏感级别，常见敏感类型如居民身份证号、银行卡号、住址、电话、电子邮箱、护照等；

2）自定义模式：数据资产所有者或者使用者结合数据关联的业务场景以及在自身业务范围内的重要性进行敏感类型策略定义，按照定义的策略进行数据识别和跟踪管理；

3）相似数据发现模式：通过机器学习算法，对经过一定运营管理的数据样本进行学习训练，结合关键字匹配、命名体识别等算法执行实现自动化智能识别跟踪。

敏感数据资产分类分级情况，会随着场景、业务、运营等因素的调整导致敏感数据的类别和级别发生变化。为了有效解决该问题，敏感数据管理可以通过对数据类别及级别的标签进行变更监控，及时发现敏感数据类别和级别的变更并将变更情况实时同步给系统中相关联动模块，以实现对敏感数据安全控制策略的同步调整。

6.1.2.2　工作原理

实现敏感数据资产分类分级的前提是确定分类分级的标准，即什么数据应该归入什么类别和什么级别。当前国家及某些地方都在积极制定相关的标准，如2020年发布的国家标准GB/T 38667—2020《信息技术　大数据　数据分类指南》对大数据分类过程及分类过程中的数据分类目的、分类维度和分类方法给出了明确的指导方法；2020年3月工信部发布的《工业数据分类分级指南（试行）》［22］对工业数据的分类和分级给出了明确的要求；2007年发布的国家标准GB/T 21063.4—2007《政务信息资源目录体系　第4部分：政务信息资源分类》对政务信息资源目录的分类给出了清晰的分类依据和方法；贵州省2016年发布的地方标准DB 52/T 1123—2016《政府数据　数据分类分级指南》对贵州省全省范围内政府数据资源的分类分级原则和方法进行了统一、规范；上海市2020年发布的DB31DSJZ005—2020《公共数据安全分级指南》及浙江省2021年发布的DB33/T 2351—2021《数字化改革　公共数据分类分级指南》等地方标准对公共数据的分类分级给出了明确指导要求；信安标委也正在积极制定政务信息共享场景的数据分级方面的国家标准。

在分类分级标准的基础上进行数据的分类分级就比较容易了，当然目前基本上还是对结构化的数据进行分类分级，对于半结构化和非结构化数据的分类分级则没有广泛应用的成熟方案，还需要持续地深入研究。

6.1.3　敏感数据可视化管理

6.1.3.1　敏感数据地图

敏感数据地图是通过可视化展示对所有敏感数据进行管理的视图系统，将敏感数据资产的分布、类别级别、数据属性及关联信息等立体化呈现。可展示管理内容包括但不限于如下范围：

1）数据分布、类别数目、库数目、数据流向情况，并包含数据的内部库信息、外部源等属性信息；

2）数据字典、字段级数据信息来源、入库方式等；

3）数据库信息、数据表信息、数据字段、类目等信息。

6.1.3.2　敏感数据血缘

数据血缘与人类血缘类似，是指数据在流转的生命周期中因业务处理需要所产生的不同数据之间的关系，比如原始数据A被加工后生成了数据B，数据B再与另外一组原始数据C联合加工后形成了数据D。这样数据A、B、C、D之间就形成了一种数据血缘图谱，如图10所示。

图10　数据血缘图谱

敏感数据血缘是在数据产生、加工、访问等数据流转场景下对数据上下游链路信息进行关联展示，结合不同维度的用户可视化交互使得数据流转中的链路信息、库级、表级等各个实体之间信息都更加立体化，是风险、事件溯源分析、影响分析的重要抓手。血缘系统展示信息及风险控制重要性如下：

1）血缘实体：库级、表级、数据字段级；

2）血缘信息：血缘实体的上下游链路信息、处理过程信息，并可通过上下游层级进行过滤查询；

3）风险控制重要性：辅助快速执行数据风险事件的事中应急响应和事后快速溯源定位。

6.1.3.3　敏感数据监控

多维度属性的数据资产搜索查询和使用监控审计，提供数据全属性关键字、时间区间、属性值区间等条件及多条件组合方式检索过滤，此外可结合敏感数据资产地图和血缘的资产分布、上下游链路层级、数据流向等区域性、方向性的检索过滤。

敏感数据监控需要基于敏感数据规则快速准确定位出当前敏感数据的分布情况，以便能对敏感数据采取进一步的安全措施。敏感数据监控的技术难点在于对非结构化数据中的敏感数据监控，这需要结合非结构化数据识别等相关技术来实现。

6.1 政务共享敏感数据识别和分类

6.1.1 敏感数据资产识别

6.1.1.1 技术简介

6.1.1.2 工作原理

6.1.2 敏感数据资产分类分级

6.1.2.1 技术简介

6.1.2.2 工作原理

6.1.3 敏感数据可视化管理

6.1.3.1 敏感数据地图

6.1.3.2 敏感数据血缘

6.1.3.3 敏感数据监控