数据共享的行为其实早已有之且随处可见。在日常生活和工作中,每个人都不定时地和他人共享不同维度的个人信息,个人、组织、社会在多层维度上,以多种形式共享信息。在组织内部,不同部门间交换数据以便协同合作。在国家治理中,群众提供人口信息,国家收集整理后向社会共享统计数据,未尝不是一种数据共享形式。
而数据共享之所以成为近来的热门议题,是因为随着时代进步,数据——这个曾经以及现在仍被共享的客体——在国家战略中的地位发生了变化,在市场竞争中的重要程度发生了变化,对于个人信息安全的影响程度发生了变化。这些围绕数据发生的种种变化叠加后产生的作用力,使得数据得到社会广泛的关注。数据共享作为当前国家数据发展战略中的重要任务和关键环节,自然也是引人注目。
数据共享目前在政策和实践层面均取得了一定成效。战略地位方面,国家出台了多项文件,比如《促进大数据发展行动纲要》 《大数据产业发展规划(2016—2020年)》 《中共中央、国务院关于建构更加完善的要素市场化配置体制机制的意见》 等,均提出推进数据共享。在中央政策的引导下,全国各地积极推进数据开放共享,多个省份成立大数据管理机构、建设数据开放共享平台,政务数据、公共数据、政企数据共享在一定程度上活跃了起来,数据共享取得了一定成效。市场方面,大数据催生了一批提供数据服务的企业。考虑到竞争,企业间较少进行数据共享,但也有大型企业提供平台促进数据共享。
但客观来说,数据共享尚处于探索阶段,还面临不少发展问题。其中既有来自市场方面的阻碍(如企业因为竞争的原因不愿共享),也有来自法律层面的疑惑(如谁是数据的控制者、哪些数据可以共享、数据以何种方式共享)。尤其是伴随着《个人信息保护法》的出台,规范了个人信息、敏感个人信息的共享过程,个人隐私的信息数据如何共享,如何平衡个人隐私和数字经济、数据安全等利益也成了争议焦点。
综上,一方面,大数据治理需要充分发挥和挖掘数据上所蕴含的巨大价值,在保障国家利益以及公民权益的基础上,促进产业及经济的繁荣发展。数据的生命力在于流动和共享,只有流动的数据才能为各方主体提供所需信息与价值。另一方面,如何处理数据共享和个人信息保护间的关系对于数据共享生态来说至关重要。针对上述数据共享方面的挑战,在国内,主要议题包括数据确权与交易、匿名化处理、数据分级分类、数据可携带权等内容。
1.数据确权和交易
关于数据确权的讨论起源于数据交易,数据确权是扫除数据交易障碍、促进数据交易市场繁荣的一个可能的解决方案。对数据确权与交易话题的热议,源于数字经济的发展,数据的价值得到认可,无论是政策层面、法律层面还是实践层面,都多次强调、逐步落实、广泛探索数字交易机制。在政策层面,2015年8月31日,国务院发布了《促进大数据发展行动纲要》 ,提出“要引导培育大数据交易市场,开展面向应用的数据交易市场试点,探索开展大数据衍生产品交易,鼓励产业链各环节的市场主体进行数据交换和交易,促进数据资源流通,建立健全数据资源交易机制和定价机制,规范交易行为等一系列健全市场发展机制的思路与举措”。在法律层面,《民法典》从宏观角度确立了数据可以作为一种受法律保护的客体,为数据交易提供了前提和基础。《数据安全法》首次在法律层面提出数据交易制度,规定“国家建立健全数据交易管理制度,规范数据交易行为,培育数据交易市场”。在实践层面,数据交易方面的实践更是早于立法,积累了丰富的实践经验。2014年12月31日,全国第一家大数据交易所——贵阳大数据交易所成立,采用国有控股、混合所有制的组织形式,并于2015年4月14日正式挂牌运营。2015年7月22日,武汉东湖大数据交易中心股份有限公司成立。2016年9月26日,由浙江日报报业集团发起,浙江日报控股上市公司浙数文化投资设立的浙江大数据交易中心正式上线。2021年3月,由北京金融控股集团有限公司主导成立了北京国际大数据交易所。2021年11月25日,由上海市人民政府推动组建的上海数据交易所成立。根据《广东省数字政府改革建设2022年工作要点》 ,2022年广东省也将试点开展数据交易,建设粤港澳大湾区大数据中心。
虽然法律、政策和实践三个层面积极推动数据交易,取得了不错的成绩,但就整个数据交易制度而言依然有很多难点和问题,难点之一即数据确权问题。由于数据是一个新兴事物,数字经济的发展仍处于快速成长阶段,我们对于数据的认识目前仍然处于初级探索阶段。回顾数据的发展历程,数据呈现出了一些独特的属性,这些特有的属性如此不同以至于人们在如何对待数据本身以及相关主体权利义务责任的问题上众说纷纭,莫衷一是。
数据作为生产要素已经成为一种共识。生产要素必然涉及流通、分配等问题,因此,在理论上,数据确权是数据作为生产要素进行流通的基本前提。在法律层面数据确权的争议和困难来自多个方面,既有各主体之间的利益对抗,也有数据本身的复杂属性影响。
首先,数据确权需要在多方利益中权衡。主要有待解决的是以下三个基本问题:一是数据权利属性,即给予数据何种权利保护;二是数据权利主体,即谁享有数据上附着的利益;三是数据权利内容,需要明确数据主体享有哪些具体的权能。数据的权利属性、主体、内容的建设和配置,都需要从国家、社会以及个体多主体进行权益平衡:在国家层面,数据确权应有助于提升维护国家网络安全和空间主权、提升大数据安全管控能力和强化国家关键数据资源保护能力;在社会层面,数据确权应能有效引导、规范、提升大数据活动,推动大数据产业和数字经济发展,并保障社会公共福利和社会公平正义;在个体层面,数据确权应能保障数据活动相关的个体合法权益及个人数据隐私安全。故数据确权须在三者权益间进行平衡,既需要保障国家网络空间主权,也需要保护社会企业的数据产业经济发展,还需要保护个人的权益以及隐私安全。另外,在数据权利配置过程中,目前技术和法律制度很难解决的一个问题就是“数据商业化利用与个人隐私保护之间的直接冲突”,因此在多方权益存在部分矛盾的情形下,如何既全面保障各主体权益,又不贸然侵损一方利益,同时实现数据要素整体价值最大化,是目前数据确权必须考虑的问题。
其次,数据具有特殊的自然属性和复杂的社会属性。特殊的自然属性主要体现于数据与传统法律客体层面的物不同,其本质是符号,具备无形性特征,不以自然物质形式呈现,其价值体现在所携带信息的价值或者处理加工后的价值而非其本身。同时,数据具有可复制性且复制成本极低,导致数据存在无限复制的可能,但数据所携带的信息和价值却未减损,且数据复制后不易被原数据控制者控制,也就造成数据无法稀缺和可控,这导致其区别于传统财产权客体,难以适用传统的财产权制度予以保护。对于复杂的社会属性而言,主要有两点:一是法律属性不明确,我国民法、行政法、知识产权法、经济法等部门法均未明确数据法律属性,数据规范层面的财产属性和权利属性不明确,数据既不能纳入民法“物”的范畴,也难以采用债权、知识产权等保护路径予以保护;二是数据的社会属性还体现在数据的生产方式和生产关系上,数据采集的主体是公共部门还是私有部门决定了数据是否具备公有性或公共性,所采集的数据是否包含个人信息数据决定了其是否涉及人格权保护的范畴,数据为原始数据还是加工后形成的数据产品,决定其在归属界定时是否需要考虑加工者在数据加工过程中所投入的必要劳动时间(价值)和生产资料的贡献。这些复杂的社会关系加剧了数据权利的复杂性。
2.匿名化处理
数据和个人信息存在交叉,故数据共享和个人信息、隐私保护之间存在一定张力,匿名化处理是化解数据共享和个人信息、隐私保护之间冲突的方案之一。
《个人信息保护法》第七十三条规定“匿名化”是指个人信息经过处理无法识别特定自然人且不能复原的过程。匿名化处理属于一种数据脱敏技术。数据脱敏技术,是一种目前实现匿名化处理较为有效的方式。数据脱敏技术的主要目标是按照脱敏规则通过变形、转换等方式降低数据的敏感程度,从而达到在数据的采集、传输、使用等环节中最小化暴露敏感数据的效果。匿名化技术目前已发展出许多成熟的技术解决方案,如泛化、压缩、分解、置换以及干扰等,通过匿名化技术处理后的信息必须不可能被复原为个人信息,无法识别或关联到特定个人。
目前我国关于匿名化处理的细化规定甚少,还有很多探索空间。其一,匿名化处理的顶层设计缺失问题。根据我国目前数据和个人信息处理的相关规定,《个人信息保护法》将匿名化处理后的信息剔除了规制范畴,《数据安全法》着重于对数据处理中的安全风险问题的调控。故立法在匿名化处理以及匿名化处理后信息的应用等方面存在一些空白内容,缺乏有针对性的指引,缺乏一个统筹规定来平衡信息效用和信息匿名之间的矛盾。其二,匿名化处理的程度问题。《个人信息保护法》目前只是宏观规定了匿名化处理,就其中的“无法识别”标准和指向主体的范围没有具体的规定,个人信息究竟处理到何种程度才算是匿名化信息的标准十分模糊。加之数据处理是一个动态的过程,匿名化处理究竟是针对数据处理的某个流程还是全流程也尚待澄清。特别是,针对数据信息流上下游多方主体的数据处理能力不同是否需要作出不同的匿名化处理程度要求有待进一步明确,种种核心环节的模糊对于事前行政监管和事后司法救济也造成了一些阻碍。其三,匿名化可操作性问题。匿名化处理和去标识化处理类似,既是法律问题也是技术问题,不仅需要法律进行宏观调控,而且需要技术指南等具体指引。在去标识化方面,我国已经制定的《信息安全技术 个人信息去标识化指南》 对于去标识化处理作了相对详细的技术规定,但是就匿名化处理而言,我国尚未制定相关的技术指南、评估标准等,匿名化处理的落地还有很长一段路要走。其四,匿名化后重新识别问题。匿名化是建立在匿名化技术可靠的假设之上的,而匿名化技术和重新识别技术则是相互对抗、相辅相成的关系。重新识别技术的发展导致匿名化不是绝对的,也不是永恒的,随着技术的发展,一些当前已匿名化的数据可能在未来被重新识别。并且也需要考虑到,数据共享可能导致匿名化的数据结合后更容易被重新识别。
具体到产业实践上,《个人信息保护法》中对匿名化的规定对于当下的精准营销广告行业造成的冲击或许是最大的。基于外界要求强化个人信息保护的压力,当下互联网精准营销模式较以往有所变化,不再是基于对单个用户网络行为痕迹的数据分析并推送相关的广告,而是通过群体识别的方式进行即只对某一消费者群体识别某些标签,而非完整的识别和定位到单个消费者的全部个人信息。群体识别在技术上属于一种替代措施[即对以Cookie(储存在用户本地终端上的数据)和Device ID(设备号)为依赖的精准营销的替代],是以隐私为中心的新兴解决方案之一。此类方法通过将个人放置在人群中来“掩盖”个体,这种措施本身也是为了实现“匿名化”,如果成功的话,在效果上应当可以认为是“匿名化”数据。这种行业模式既能够保障产业的发展,塑造互联网平台的生存模式,又能够避免违法处理用户个人信息给用户带来风险。但是,由于当前法律法规对“匿名化”的规定较为模糊,“群体识别”技术是否属于匿名化范围仍存在较大不确定性,加之当前产业界普遍采用此种技术进行广告推送和自动化决策,因此其未来走向也将影响产业的发展。
3.数据分类分级
数据分类一般是指将具有相同属性或特征的数据按照一定的原则和方法进行归类,数据分级是指根据数据的敏感程度、重要程度,以及一旦遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利益或者个人、组织合法权益造成的危害程度,按照一定的方法给不同数据标注不同的安全级别。根据不同的分类方法和分类标准,数据可以被分为不同的类型和级别,尽管进行精准的数据分类分级在实践中存在困难,但由于不同类型的数据会对国家和社会安全产生不同的影响,因此进行适当的数据分类分级是必要的。
数据分级分类是数据共享的基石,也是数据安全的根基。我国在数据分类分级方面目前仍处于探索阶段。2021年10月19日,我国商务部等部门发布《“十四五”服务贸易发展规划》 ,提出在有条件的地区探索跨境数据流动分级分类监管,开展数据跨境传输安全管理试点。
目前关于数据分类分级的核心问题之一在于数据分类分级中某些重要概念的界定和区分,例如在“敏感数据”“重要数据”“核心数据”等概念和范围的界定方面尚没有达成一致。以“重要数据”界定为例,目前两部重要法律都未对“重要数据”概念作出明确界定:2017年《网络安全法》提及了“重要数据”,但未作界定;2021年《数据安全法》明确要建立数据分级分类制度,“各地区、各部门应当按照数据分类分级保护制度,确定本地区、本部门以及相关行业、领域的重要数据具体目录,对列入目录的数据进行重点保护”,但同样对于概念未作出界定。行政法规和部门规章尝试作出了一些概念和范围界定,如2021年全国信息安全标准化技术委员会起草了《信息安全技术 重要数据识别指南》 ,给出了识别重要数据的基本原则、考虑因素以及重要数据描述格式。国家互联网信息办公室发布《网络数据安全管理条例(征求意见稿)》 ,在第四章对“重要数据”作了专章规定,并在附则对“重要数据”的定义进行了明确。《汽车数据安全管理若干规定(试行)》 规定了重要数据的定义以及处理、存储、出境规则。此外诸多部门规范性文件中提及对重要数据特别保护。但是行政法规和部门规章的界定存在部分差异,“重要数据”的边界目前呈现一定弹性。由于不同的定义可能导致某类数据范围的缩小或扩大,因此需要更多的努力和研究,以便就数据分类分级的方法达成共识。
在分级分类方法上达成共识后,需要讨论的另一个问题是数据分类分级立法体系即立法进路的选择问题,究竟是“自上而下”还是“自下而上”立法,不同的立法进路有其优势,也各有不足。
我国目前数据分级分类体系的建构走的是“自上而下”进路。《数据安全法》虽然没有明确界定标准,但提供了原则指引,指出以国家安全和社会利益为判定视角,提出两个重要的界定因素即“重要程度”和“危害程度”。在实操上允许基于行业、部门特性、数据和个人信息的区别等因素进行差异化的数据分级分类。
目前制定的下位法也能够反映出上述界定视角和原则,比如《网络安全标准实践指南——网络数据分类分级指引》 就是按照《数据安全法》的要求构建的数据分级框架,“根据数据一旦遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利益或者个人、组织合法权益造成的危害程度,将数据从低到高分成一般数据、重要数据、核心数据共三个级别”。就数据分类而言,区别对待不同行业、个人信息和非个人信息等,使用面分类法,提出多个分类维度以供选择。
而存在的体系矛盾则在于,“无论是《国家安全法》还是《网络安全法》等以‘安全’为导向的立法活动,整体上都沿袭着‘自上而下’的强制性制度变迁路径,而与之相对的是,数据治理却往往因循着私法治理的路径” 。数据分级分类和数据治理两者存在明显的互动关系,数据的分级分类会直接影响到数据后续的治理如流动、使用和保护要求,而数据的传播等特性又会影响数据的分类分级归置,基于两者的相互关系,某些内容上可能会出现数据分级分类“自上而下”和数据治理“自下而上”的碰撞。
4.数据可携带权
数据可携带权来源于欧盟GDPR第二十条对个人信息可携带权的规定,其希望借此增强欧盟境内居民对其个人信息数据的控制力,平衡数据流动和个人信息保护。数据可携带权的正当性理由在于,数据同时涉及市场竞争和隐私,而数据驱动型商业模式的企业“没有激励促进个人隐私(或者这种激励极小),并且没有竞争压力促使其改变观点(或者这种压力极小)。它们即使就隐私事项辜负公众的信任也无须担心遭到报复。消费者完全缺乏可行的替代选择。某些市场上的数据驱动企业拥有足够的经济实力,能够在很大程度上无视客户偏好而行事”,所以如果“消费者能够在更大程度上控制个人数据,隐私竞争将会繁荣起来”。 数据可携带权就是这样一种帮助消费者控制个人数据的工具。作为一种新兴制度,数据可携带权制度的价值取向在于,加强人们对其个人数据的控制并打破数据壁垒和垄断。它是指个人信息数据主体有权从网络数据平台处获得“经过处理的、常用的且机器可读的”个人专属数据,并有权要求平台将其个人专属数据传输给其他数据控制者,从而实现个人信息在不同平台和设备间的无障碍转移。例如,网络社交媒体平台的用户可以要求平台将专属部分的用户数据完整传输给自己或移交给其他平台。
根据GDPR规定,个人信息数据可携带权的权利主体为数据主体,且仅限于通过数据信息(例如姓名、性别、地址等)可以直接或间接识别的自然人,不包括法人和其他组织。数据可携带权的客体为个人信息数据,即数据主体自己提供的、与其自身有关联性的已识别或可识别的个人信息。根据GDPR第二十条第一款之规定,这里所说的个人信息数据不包括具有匿名性的或者与数据主体无关的个人数据。欧盟还对数据范围作了解释,并认为在不侵犯第三方隐私、自由的前提下,为了保证数据可携带权制度的实际可操作性,对于相关数据的范围不应做过分严苛的要求。
在我国,《个人信息保护法》第四十五条规定了“个人请求将个人信息转移至其指定的个人信息处理者,符合国家网信部门规定条件的,个人信息处理者应当提供转移的途径”,明确赋予了个人数据可携带权,但设置了“符合国家网信部门规定条件的”的前提条件。《网络数据安全管理条例(征求意见稿)》 第二十四条对数据可携带权进行了梳理,“符合下列条件的个人信息转移请求,数据处理者应当为个人指定的其他数据处理者访问、获取其个人信息提供转移服务:(一)请求转移的个人信息是基于同意或者订立、履行合同所必需而收集的个人信息;(二)请求转移的个人信息是本人信息或者请求人合法获得且不违背他人意愿的他人信息;(三)能够验证请求人的合法身份。数据处理者发现接收个人信息的其他数据处理者有非法处理个人信息风险的,应当对个人信息转移请求做合理的风险提示。请求转移个人信息次数明显超出合理范围的,数据处理者可以收取合理费用”。
可以说,在立法上我们已经构建起了数据可携带权的初步模型,但在实践中仍然存在较多问题需要解决:首先,数据可携带权制度框架下,个人信息流转将更加频繁,其中数据安全是一个需要严肃考虑的问题;其次,由于行业间对于数据流转需求的差异较大,实践中是否需要根据行业、业务的不同而作不同的对待,也是一个可以讨论的问题;最后,数据可携带权往往涉及数据的权属争议以及由于数据和个人信息的密联,包含个人信息的数据如何从企业数据集合中剥离、剥离范围的问题。此外,还涉及权利行使不足的救济措施、惩罚措施、监管部门对于数据可携带的监管标准等制度问题。
深化数据要素市场化配置改革的目的在于促进要素自主有序流动,提高要素配置效率。由此,针对数据共享议题的研究,应在遵循改革进路的前提下即本着促进数据要素有序流动的目的,考虑数据的特别属性,平衡各主体之间的利益,研究完善产权性质。同时需要认识到,数据共享涉及多方主体,政府、企业、个人在不同的维度生产数据,拥有不同的数据处理能力,拥有不同的数据共享理念和需求,所以数据共享议题,不仅是经济议题、法律议题,更是一个技术议题、社会议题和文化议题。如何更好地促进数据共享,需要认识到法律的稳定性与滞后性、数字经济发展路径、技术的创新速率、社会文化环境等因素,需要考虑到数据共享、数据安全、个人信息保护等微观制度之间的关系,也需要考虑到上述因素的不断变化对微观制度的影响。这是一个庞大的数据治理体系,紧要的是达成一致的治理目标,讨论更为灵活的数据协同治理方式。
要达成一致的治理目标,我们首先需要对数据共享所涉及的各种维度达成一致认识。数据共享涉及多重价值维度,数据共享涉及经济竞争价值维度,例如抢先获得数据的人拥有时间上的数据分析优势和竞争优势,这种优势使得企业更容易阻碍他人获得和分享数据而非共享数据。数据共享同时具有个人信息、隐私保护的价值维度,越来越多的商业模式建立在对个人数据分析的基础上,数据共享所引发的数据融合将会更容易、更全面、更深刻地解析具体个人画像。数据共享还涉及个人、社会和国家安全价值维度,无论共享出去的数据是被别有用心者获得,抑或是被漠视数据安全者获得,对于社会来说都是潜在的安全隐患。达成一致的治理目标需要讨论这些多重维度间的关系,需要讨论如何分配各个维度的权重,需要讨论这些维度的治理主体之间的协同关系。
在推动数据共享治理制度建构方面,国家应进一步发挥机制主导作用,“针对市场决定要素配置范围有限、要素流动存在体制机制障碍等问题,根据不同要素属性、市场化程度差异和经济社会发展需要,分类完善要素市场化配置体制机制”,积极主动协调各方主体,鼓励更多类型的主体参与到数据共建共享机制中来。尽快推进顶层设计,达成一致治理目标,构造法律、行政规章、行业标准、自律准则的协同治理体系。平衡信息共享和数据安全,推动数据的有序开放共享,完善数据对接机制和协调机制,整合数字交易平台的资源,提高平台运作效率。
在具体治理措施中,一方面,需要认识到平衡数据共享和个人信息保护的重要性和必要性,探索适合的治理工具。随着互联网和电子商务的高速发展,个人信息共享的规模已显著增加,业务领域涉及授权登录、广告推送、网络购物、贷款审核、求职招聘、房屋租售等。目前关于个人信息、数据共享的治理活动主要针对发生在信息控制者与其他控制者之间的个人信息提供与分享活动,如《信息安全技术 个人信息安全规范》(国家标准GB/T 35273—2020) 第3.13条即在此意义上定义个人信息共享——“个人信息控制者向其他控制者提供个人信息,且双方分别对个人信息拥有独立控制权的过程”,并不包含信息控制者与信息权利人(个人信息主体)之间的个人信息收集行为。个人所具有的能量相对微弱,个体能采取的保护和救济措施相对有限,个人信息共享在现阶段监管尚不完善的情况下,存在数据确权、个人信息脱敏、匿名化处理、数据可携带等多方面的争议,这些问题有待于立法和司法的进一步探索和明确。
另一方面,数据共享需要明确数据安全的底线与红线,需要建立在安全的基础之上,既要保护个人信息安全,也要保障国家数据安全。国家必须优化监管框架,完善监管要求,提升监管部门的监管能力,沟通政府与市场,建立全方位的数据安全防护体系,积极运用技术提升防护水平,降低数据共享风险。其中,数据脱敏、去标识化处理和匿名化处理都是保证信息安全的措施,但是它们并不是唯一的手段,随着技术的迭代可能会产生更合理的处理方式。但是出于目前对个人信息保护的强烈需求,对数据共享强监管的广泛呼吁以及我们在数据脱敏、匿名化和去标识化上投入的研究成本,继续推进对于数据脱敏、匿名化和去标识化的建设是目前较好的路径。此外还需要考虑随着跨国企业的发展和跨国犯罪数量的增多,个人信息共享不仅是一国国内的问题,更是一个国际议题。我国应更加积极地与相关的国家国际组织沟通交流,推动全球数据安全体系的构建,提升我国在相关领域的话语权和影响力。