本节内容探讨大数据对个人权利和自由的影响,首先简要概括大数据的积极影响,其次将关注点转向其对特定的个人权利和自由的负面影响,这些个人权利和自由在第一章已经有所介绍。通常情况下,在同一大数据流程中积极影响和负面影响相伴出现,某个大数据流程的目标和影响均无法从一般意义上被描述为在本质上就是积极的还是消极的。但是,由于本书的重点是大数据对个人权利和自由的负面影响,所以将其积极影响和负面影响分开讨论,将更多的注意力投向负面影响。
大数据被许多人视为极具前景并富有发展潜力。事实上,由于大数据的可能性似乎无穷无尽,它常常被誉为治愈许多弊病的万能药方。 [36] 政府、商业机构和个人每天都在作出决定,而大数据可以使决定变得更加明智。基于从大数据中获得的知识或信息进行决策,通常可以让人们更深入地了解政策或业务选择,同时降低与决策相关的风险。大数据解决问题的能力受到赞扬,特别是当它被用来解决紧迫的社会问题时,比如前文生物银行的实例中提到的疾病和不断上升的医疗成本,或者作为一个经济推动者参与到数字单一市场的讨论中。 因此,大数据可以节省资源、提高流程效率、防止欺诈、增进收益、作出更好的决策。
数据和大数据技术还可以为那些难以回答或看似不可能回答的问题提供答案。大数据提供的答案以前是人类力有不逮的,也是我们“无从发问”的。 对不同来源的数据进行的收集和分析揭示了可以解释的模式,从而产生新的信息。存储和处理成本的不断降低,扩展了大数据的上述效益,增加了大数据的潜力和普及度。这样的例子不胜枚举,越来越多的应用程序正在开发中。 然而,尽管大数据可以通过多种方式来改善社会,但正如下节内容所述,它也会对个人生活产生负面影响。
尽管大数据有很多优点,但人们普遍担心它可能带来的负面影响。 此外,大规模收集和处理个人数据,以及越来越依赖算法决策,可能对个人权利和自由产生深远影响。可能的负面后果如下文所示,并根据受影响的个人权利和自由进行分类。在这一讨论中,负面影响应该被看作是一种连锁反应:对下列权利和自由的微小的直接干预可以在长期内增加或干扰其他权利和自由,并对个人的机会和生活产生持久影响。 [37] 一个微不足道的决定,如个人自愿提供数据或公司对人进行分类,都会影响某人的未来并改变其人生进程。除了直接影响或干扰之外,还有一些影响虽然不大,但累积起来会产生更严重的结果,甚至某些决定及影响会更为长远或产生严重后果。
大数据将个人自治置于危险之中,因为它妨碍了个人在没有通过扭曲或外力操纵的情况下自主选择并自由生活的能力。 [38] 大数据可以通过多种方式限制个人自治,这里主要通过本章第三节第三部分提到的线上个性化例证来展开解释。
首先,用于收集个人数据的手段、数据的处理方式以及缺乏透明度,均对个人的自治和信息自决施加了压力。 例如,当在数据获取阶段寻求收集数据的同意时,通常不清楚个人同意的是什么,如在数据分析阶段如何处理个人数据、分析的目的是什么,以及对其个人数据的采集和分析或者他人通过应用阶段可能对个人生活造成的影响。考虑到大数据固有的复杂性,以及经常出现的关于未来目标和处理的不确定性,以适当的方式通知个人较为困难。 这里的限制在于个人自治的自我决定方面:当一个决定是基于不完整或无法理解的信息时,很难接受它是自主作出的。
其次,无处不在的数据处理会产生一种监视的感觉,从而抑制个人行为。 [39] 这通常与下文讨论的言论自由的寒蝉效应有关,但它与个人自治同样具有相关性,因为它对个人身份的影响。人不是单一维度的:我们的身份和个性的不同方面,取决于我们在哪里以及和谁在一起。我们表现自己的方式取决于我们是和家人、朋友还是同事在一起。 [40] 我们对外界越透明,越觉得自己被跟踪和监视,就越会抑制自我表现的多样性,以及我们探索、发展和改变的欲望。 在缺乏自我呈现的可能性的情况下,我们为了遵从单一身份的虚假理想而装腔作势,以避免冲突和社会排斥,沦为多元社会中被接受但归于消沉的一员。
在应用阶段,更直接的技术被用来积极地影响个人的行为和选择。信息是如何(以及哪些信息)呈现给个人,他们被给予了哪些选择,哪些信息被隐瞒,以及这些信息与他人所接收到的信息有何不同极大地影响甚至决定了我们的选择和信任。 [41] 一般来说,人们会从他们面前的选项中进行选择,而不会询问这些选项是如何实现的,它们是否代表所有选项,以及哪些选项被故意排除在外。因此,基于大数据线上个性化会对个人自治带来压力,例如,当商业机构利用选择幻觉的效果为自己牟利时。个性化也可能变成有意的强迫、说服或操纵。一个臭名昭著、发人深思的例子是社交网络“情绪传染”实验,在这个实验中,研究人员通过决定什么内容出现在他们的脸书时间轴上来影响人们的情绪。 通过个性化说服的例子,目前通常用于商业牟利的是行为定向和通过A/B测试进行的网站优化。 [42]
有关个性化和个人自治的一个相关担忧是,个人最终会陷入“过滤泡沫”。 [43] 这种担忧关注的是个体本身,而不是有意的外部压力。令人担忧的是,个性化会导致过滤泡沫,亦即信息茧房或回音室, [44] 在这个由有限信息组成的世界中,个人被孤立,而这些信息总是证实他们的信念和观点,而不会暴露在不同的信息和观点中。 [45] 在这种情况下,人们以为自己作出了独立的选择,自主形成了观点,但实际上,他们受到提供给他们的有限的、定制化的信息的影响,限缩了他们对世界的认知。
内容和体验个性化的方式,以及观点和行为如何被引导,在它们的背景下可能微不足道。但大数据不需要产生巨大的、迫在眉睫的影响,就能对个人自治构成威胁。个性化正迅速变得无处不在,影响着我们在线上和线下的决策及生活。危险之处在于,对个人自治微小但不断累积的减损,与大数据以具有重大影响的方式塑造我们生活的潜力一样多。长远来看,由于其周围的不透明性,累积效应可能更加危险。建立在上述基础上的有关个人自治受限的小例子既不会激起愤怒,也不会让人们清楚地认识到它们,因为孤立地看,它们的影响小到常常被忽视。过滤泡沫,或选择受限的小实例,或其他外部压力,就能产生连锁效应,改变人们是谁,他们如何发展,以及从长远来看他们会得到什么样的选择和机会。
更糟糕的是,通过大数据收集的知识是有争议的。大数据产生的基于相关性的知识可能被误认为是因果关系,而实际上它们只是巧合。 当这些相关性被用作决策的基础时,会导致虚假的积极影响和负面影响,最终出现谬误。另外来自大数据的知识往往被认为是客观的,而事实并非如此。分析的设计和数据(来源)的选择都会影响结果,并且很少只有一种可能的结果解释。 不管使用了多少数据,不管模型有多复杂精巧,大数据总是有限地反映现实。此外,还有人担心“信息垄断”和数字鸿沟会加剧不透明和操纵的风险。 [46] 世界上数量最大的数字数据是由一些大型企业收集和存储的,如谷歌、脸书和亚马逊。 抛开有关权利和所有权的问题,这些公司对数据和数据所属的个人拥有相当大的权力,因为它们掌控着用于特定类别服务和存储数据的基础设施的最常用平台。
总之,大数据拥有劝服人们行为的力量。除了他们的利益往往与个人的利益不一致这一事实外,还会欺骗个人,破坏他们的自由和明智的选择。
上述情况可以外推到这样一种担忧,即我们的身份越来越多地由外部力量构成,而这些外部力量中,大多数只关心我们的个人数据和行为的资本化并获取收益。 [47] 累积的和无处不在的影响和自由选择的减少威胁到人们的个人自治,并最终威胁到他们的身份——自主成就自我的可能性。 [48]
大数据始于数据的收集,包括有关个体的个人数据。因此,大数据有可能对隐私和数据保护的基本权利产生负面影响。 首当其冲的是,在收集个人数据时,数据保护的权利受到威胁。大数据的某些特征,比如强调积累尽可能多的个人数据,以便为含糊不清或未来的目标展开持续分析,这与个人数据保护的原则背道而驰。大数据固有的这些特征与旨在保护个人的数据保护原则相冲突,比如目的限制原则,该原则指出个人数据只能被用于预先确定的特定目的。 此外,数据的收集可以揭示一个人生活的私密细节,在应用阶段所作的决定也会影响隐私权。总之,大数据有可能像其他任何数据收集开发或技术一样侵犯人们的隐私权和数据保护权。然而,大数据的一些特点使得它与隐私和数据保护息息相关。
大数据的第一个突出的、有问题的特征是收集和处理的数据体量。从大数据从业者的角度来看,收集更多的数据通常被认为是更好的选择,但收集的数据越多,对个人私生活的潜在侵扰就越严重。 更多的数据通常会产生对个人更深入的了解。随着数据量的增加,通过数据安全和匿名化来保护人们的隐私和个人数据也变得更加困难。 此外,这与数据保护法的最小范围原则相抵触,该原则要求个人数据必须“是充足的、相关的并限于数据处理目的最小必要范围”。 有人质疑,当前实现最小范围原则的方式,在大数据的环境下是否能够成立。
大数据的不同还体现在多个不同来源的数据被整合到一个数据集合。数据集合本身并不是一种新的风险,但这种方式越来越普遍且结果难以预测。在整合数据的基础上,可以作出新的推断:数据的组合可以“创建”关于个人的新数据。这种结合对大数据产生新的隐私问题方面的第三个特征也很重要:它的预测能力。 这是大数据应用阶段的关键。前文中描述的预测模型和自主学习算法可以在个人并未主动提供的情况下生成个人数据;这些数据可能准确预测某人未来生活的细节。这就产生了数据保护和隐私问题,因为个人与他人之间可能存在认知鸿沟,他人可能比本人更了解自己。 个人有时并不愿意公开某些数据,例如涉及某些不治之症(患病几率增加)时。人们可能有不想知道的意愿,而其他拥有这种知识的人可能也会干扰这种意愿。在应用阶段,许多风险和负面影响不是来自个人数据处理本身,而是来自大数据(结果)对个人的应用。
人们普遍认为,大数据可能会产生歧视性影响,但歧视如何发生以及为什么会在大数据中发生是一个复杂的问题。它可能源于大数据处理的不同阶段,可能是有意为之,也可能是无心之失,可能是直接的,也可能是间接的,亦有可能是将现有的偏见和不平等转化到数字领域,甚或是在社会上造成新的歧视性分化。本部分考察大数据的不同歧视效应。
大数据能够对人们进行归并和详细分类,以及实现对个体的个性化对待。因此,它可能导致(有意或无意的)歧视: [49] 根据《欧洲人权公约》和《欧盟基本权利宪章》所列的特性,例如性别、种族、肤色或宗教,在类似情况下对相同的人区别对待。 当一项大数据应用明显使用这些变量在对待人的过程中作出区分,而这一点并没有得到相关负责人的纠正时,这就构成了直接的故意歧视。然而,在大数据中,歧视通常不是那么明显,甚至可能不是数据控制者的本意。
除了被禁止的基于个人特质的歧视,大数据还会导致一种更隐蔽的歧视。某些数据可以作为敏感数据的化身,从而发生歧视。例如,邮政编码和种族之间可能有很高的相关性,在这种情况下,基于邮政编码的选择掩盖了基于种族的歧视。 [50] 这个例子是比较明显的, 但是由于大数据中处理的变量较多,所以在应用阶段的歧视会更加隐蔽和间接。事实上,仅仅是脸书上的“点赞”就会暴露出敏感的个人特征。 在实践中,与敏感特征没有明显联系的随机变量组合可能产生歧视性结果。这种歧视性影响通常是无意的。此外,这种“隐性”歧视比直接歧视更难发现。事实可能也会证明,很难追究个人或组织的责任。由于决策是基于复杂的、可能是自主学习算法而作出的,因此相关主体很容易声称没有作出任何歧视性决策,或者歧视性对待是无心之失。
另外,有意的歧视做法可能会被大数据掩盖,例如通过对用于分析的样本数据进行偏置,或者通过故意使用种族或宗教等属性的替代变量。后一种情况的一个例子是使用诸如音乐品位、喜好和社交媒体上的朋友圈等变量来代替种族或宗教。 这种情况类似于上述无意的间接歧视。唯一的区别在于目的:这种歧视是经过计算的,而不是偶然或附带的。不幸的是,它也很难被发现。由于它基于(可能是自主学习的)算法和统计数据,而这些算法和统计数据被错误地认为是理性和中立的, [51] 因此很容易将分类和其他负面后果归咎于机器。
不出所料,前文中描述的信用评分实例在歧视背景下备受关注。个人信用歧视、高利率弱势群体等不利条件加剧了社会不平等,这是大数据带来的一个被广泛讨论的负面效应。 [52] 除了必须支付高利率或根本得不到信贷的短期影响之外,歧视还有长期的后果。在信用评分的情况下,它可以减少个人在社会上的机会,例如,因为支付学费的困难,某人选择辍学。
大数据信用评分歧视风险较高的原因有很多。用于分析的数据可以反映社会中存在的偏见(包括掩盖歧视的替代变量),或对某些群体的过度包容或包容不足。 [53] 更多的数据并不总是会产生更现实的结果,相反,输入数据的质量和代表性可能会因为固定数据的数量而受到影响。 而且,即使在选择数据时不存在偏差,在分析阶段也会出现许多问题,例如,定义不清的目标变量或产生歧视性结果的假相关性。 此外,在实践中,大数据信用评分公司根据人们在哪里购物、住在哪里、朋友是谁等数据进行分析。这相当于根据他人的行为来判断一个人,这种行为会使他们被“连坐”,这相当于一种新的(数字)红线。 从本质上讲,人们不仅是被过去的行为或种族(这已经导致了歧视)形成画像,更被他们与谁交往或他们似乎与谁相似而形成画像,这构成了一种额外的和不同的歧视。 在这种情况下,更为重要的是,必须重申大数据预测是关于概率的:未来发生某事的可能性,比如某人拖欠贷款的可能性。这就意味着将会出现假阳性的情况,某人会因为其他人在过去的行为而丧失获得信贷的资格。在大数据中,群体过去的行为决定了个体获得的可能性和机会。而且,由于歧视往往是间接的,而且是一个复杂的个性化过程的结果,正如我们将在第四章中看到的,这一过程在很大程度上对个人而言是隐蔽的,因此,个人很难证明自己正在遭受歧视。
从严格的法律意义上讲,有些做法可能不属于歧视。 例如,何时以及是否应该禁止价格歧视是值得商榷的。 [54] 然而,考虑到依赖个性化和信息不对称的做法的不公平性,以及它可能加剧社会中的不平等,这些有害影响应该被视为歧视(即使明确禁止此类做法的先例并不存在)。未来大数据导致的差别待遇,如价格歧视,可能成为构成对非歧视权利的侵犯。大数据也存在一些并非歧视,但与之相关的、不受欢迎的影响,如社会排斥和社会分层。 来自特定群体的人,如老年人和经济弱势群体,产生的数字数据较少,或者他们的数据不太可能被用于大数据项目。 随着商业机构和政府对大数据的广泛应用,比如决定在哪里开设新的门店、生产何种新产品、向谁分配社会福利,或者预测住房需求,这些群体的利益可能会被忽视。 总之,包容和排斥都可能导致大数据加剧现有的不平等,或者创造新的不平等。
大数据对言论自由构成了威胁,因为它会干扰人们接受和传递信息的消极权利,以及持有观点的权利。 这些干扰主要是由寒蝉效应和自我审查的风险造成的,这可能是大规模处理个人数据的副作用,也可能是大数据操纵人们的思想和行为,并个性化其现实生活的可能性所致。
正如已经以标题形式提及的“个人自治”,大数据影响我们的思维。自由思想和思想自由可以被视为一般言论自由的先决条件,亦是持有意见权的一个方面。 由于获取人们思想或侵扰其思想的方式有限,思想自由多年来一直默默无闻。 [55] 然而,有了大数据,情况可能会有所改变。通过使用数字技术,我们的思想变得可视化与可追溯。 [56] 例如,我们的搜索历史可以洞察我们所研究的主题,以及我们是如何从一个主题转向另一个主题的,并且,根据这些信息,它还可以提供关于我们相信什么以及我们在不同时刻的观点等信息。通过大数据分析,其他人可以发现其中的(新)意义。随着线上生活越来越普遍,我们在各种不同的平台上被跟踪,那些拥有这些数据的人越来越接近我们的思想。而且还不仅仅停留在思想上。正如理查兹(Richards)所言,“控制一个人所能读到的东西就是控制他们思想的道德内容”。 [57] 从这个意义上说,我们接收到的信息的个性化已经影响了我们如何思考和形成观点。大数据应用甚至能够影响我们的思想、梦想和想法,其方式与之前提到的情绪感染实验对人们情绪的影响类似。
当涉及个人积极地搜索信息时,它正被普遍接受,并得到经验证据的支持,即监视和缺乏隐私会导致人们改变他们的行为,因此可能会对言论自由产生寒蝉效应。 [58] 面对政府或企业的监控,无论是对正在发生的事情的了解,还是仅仅觉得自己可能被监视,总的来说,人们会根据信息改变他们收集和消费的内容。 换句话说,当线上行为被追踪时,个人可能会被禁止自由地寻找信息。 [59] 某些信息是不会被寻求的,例如,因为信息的争议性,或个人害怕被曲解,以及可能对个人的日常生活产生有害影响。这种效应发生在大数据的获取阶段,因为数据收集起始于此,而监控的威胁往往是个体感受到的。然而,人们担心无法理解数据和信息分析及其后果,即分析和应用阶段,可能加剧寒蝉效应。对隐私、大数据和永不遗忘的互联网意识,可能会导致自我审查,限制言论自由。毕竟,如果我们意识到在不同的时间点,不同的环境下如何使用数据,以及这些跟踪可能对未来决策产生的后果,我们可能会选择不去寻找或不愿提供某些数据、信息和意见。 在这里,大数据影响着人们接收和传递信息的自由。信息的接收会受到影响,因为信息的收集会产生大数据处理的个人数据,比如某人访问某个网站的数字轨迹。传递信息的权利主要受到数据重用的影响,这是大数据的典型特征。重用会产生不确定性,比如所传递的信息将会发生什么,在什么环境中传递以及使用这些信息的目的是什么。
大数据应用阶段的说服、个性化和操纵也会损害言论自由持有观点、自由接收信息和思想的权利。人们被纳入或排除在特定信息之外,是因为某些特征将他们归入某些群体,在此基础上提供的信息是个性化的。如前所述,与大数据对个人自治的危害密切相关,个人发现(新)信息和发展思想和信念的机会可能受限。考虑到个性化的普遍存在、缺乏对个人想法和观点如何形成的知识,以及对言论自由的影响,这种危害即使看起来很小甚至是假设的,也不应该被低估。在(不透明的)个性化的压力下,人们的想法和观点可能会受到长期的影响和改变,使得未来持有观点和自由接收信息越来越不自由。 [60] 大数据对言论自由和思想自由可能产生的危害主要表现在两方面:一是对言论进行自我审查;二是信息的自由接收和思想观念的形成受到阻碍。