数据科学伦理：概念、技术和警世故事最新章节_大卫·马滕斯著

2.2 条例

2.2.1 《通用数据保护条例》

《通用数据保护条例》是2018年5月25日生效的一项欧洲法律，这个条例涵盖了欧洲公民的隐私和数据保护等方面的内容。此外，处理欧洲公民数据的非欧洲公司也必须遵守这一规定。该法规的目标是使欧洲法律在处理个人数据方面与时俱进，并使欧洲国家的法律协调一致。一些人认为《通用数据保护条例》是世界上非常强大的数据保护规则之一，其中包括高达2000万欧元或公司营业额4%的罚款。即使你不受《通用数据保护条例》监管，它也能为数据科学伦理提供诸多新颖有趣的概念和指导原则。

数据保护的概念

我们要研究的第一个概念是：什么是个人数据以及什么时候数据被匿名化？《通用数据保护条例》对个人数据的定义如下：“与已识别或可识别的自然人（‘数据主体’）有关的任何信息；可识别的自然人是指通过姓名、身份证号、定位数据、网络标识符号以及特定的身体、心理、基因、精神状态、经济、文化、社会身份等识别符，能够被直接或间接识别到身份的自然人。”与个人数据相反的可能是匿名数据。有意思的是，《通用数据保护条例》并没有提到“匿名”这个词。所以如果个人数据是可以恢复的数据，那么匿名数据就是无法恢复的数据。《通用数据保护条例》提供的假名化定义如下：“假名化意味着在没有使用附加信息的情况下，以个人数据不能再归因于特定数据主体的方式处理个人数据，前提是这些附加信息被分开保存，并受技术和组织措施的约束，以确保个人数据不能归因于已识别或可识别的自然人。”比如假名数据就是对姓名和社会安全标识符等个人标识符进行加密。将其转换回可识别的自然人数据是非常容易的（当能够访问加密密钥时），因此它不是匿名的。匿名数据不属于《通用数据保护条例》立法的范围，而且比较棘手的是：竟然没有一种方法可以恢复原始数据。正如本书第3章第3.2节的再识别案例所分析的那样，这不是一件容易的事情。

但是匿名真的跟个人身份标识符有关吗？个人身份标识符是由什么构成的？任何允许在多个数据集或跨多个数据集中识别同一个人的变量，都应该被视为个人标识符，从而使数据假名化而不是匿名化。cookie 是分配给你的浏览器的随机字符串，它允许广告商和广告技术公司在不同的网站和位置识别你。美国的社会安全号码也是一个随机号码，但目前被视为个人信息，因为它允许跨部门链接数据。

巴罗卡斯和尼森鲍姆指出，匿名的价值不在于隐瞒姓名，而在于“让人无法联系到你：因为无论能否获取你的身份信息，他们都有可能敲你的门，把你从床上拖起来，给你打电话，威胁要制裁你，让你承担责任”。现在有太多的数据可以用来推断关于你的一切信息。比如，你在脸书上的喜好可以用来预测你的一系列性格特征，例如，你的智商、政治倾向、性偏好，甚至信誉度等。我们现在可以以匿名的方式对个人采取行动：数据科学家不需要知道你的名字或社会安全号码就能预测出你喜欢看什么电影，你可能投票支持的政党，你可能感兴趣的事情，或者你的性偏好是什么。因此，即使我们使用匿名或假名数据，隐私仍然是一个需要认真思考的问题。比如我预测一个女人很可能怀孕了，即使她没有使用姓名、地址或任何典型的个人标识符，仅仅有一个内部身份标识符（例如与会员卡相关联的标识符），我是否可以向她展示广告呢？这就是美国一家大型零售连锁店面临的问题，当时他们向其预测会怀孕的顾客（包括一名十几岁的女孩）发送了婴儿用品的促销信息。我们将在本书第3章第3.4节中继续研究讨论这个案例。

这就涉及模型主体的隐私问题。隐私几乎只用于考虑数据主体。假设数据是以一种合乎道德的（公平、透明和负责任的）方式获得的，我们还应该考虑如何将该模型应用于其他潜在人群的数据上。在前面的例子中，你不需要存储超市顾客的数据（比在收银台扫描产品所需的时间更长），就可以为她提供有特定的优惠券。如果我们预测政治偏好，基于那些揭示了政治偏好的人（数据主体）的数据模式，我们就会推断出一组人（模型主体）的政治偏好，不过他们可能不希望其政治倾向被公布于众。巴罗卡斯和尼森鲍姆强调：“匿名并不是逃避伦理辩论的一种方式，研究人员不仅应该对他们的数据主体承担责任，而且也应该对其他受研究影响的人承担责任，因为正是他们选择将研究中的数据主体匿名。”伦理数据科学不是一个需要每个人严格遵循的责任清单；它考虑的是这些基本原则，例如在涉及数据主体和模型主体的隐私方面保持公平，思考哪些技术可能有用，同时也可能记住相关的警世故事。

合法依据

现在个人数据已经解决了，那么《通用数据保护条例》允许我们何时处理这些数据呢？该条例第六条提供了六个法律依据：

1.数据主体明确同意；

2.履行与数据主体签订的合同；

3.遵守法律义务；

4.保护数据主体的切身利益；

5.为公众利益而执行的任务；

6.合法利益（需要在数据主体的权利和控制者的利益之间取得平衡）。

这个列表有几个有趣的概念。首先： 明确同意 。根据《通用数据保护条例》，这种明确同意需要是自由、具体、知情和明确的行为。正如巴罗卡斯和尼森鲍姆所指出的，这一原则意味着同意的人明白他们的同意行为是如何发生的。但是，阐明使用了哪些数据、如何使用以及用于什么目的则是一项艰巨的任务。你如何以一种可理解的方式向数据主体告知相关内容，使其愿意阅读并同意？网站往往通过提供网络隐私政策解决这个问题，而实际上有充分的证据表明几乎没有人会阅读此隐私政策。你估计不会记得上一次阅读最喜欢的新闻网站或社交媒体平台是什么时候，更不用说记得访问的每个网站的cookie或隐私政策的时间了。有时，我们努力将这些政策用非常简单易懂的语言表达出来以供人选择，但这必然导致信息的丢失。尼森鲍姆将这一概念称为“透明度悖论”。告知和获得同意很重要，尽管这远非易事。关于用户需要知道和同意什么内容的伦理思考是这个过程的重要组成部分。

即使未经同意，《通用数据保护条例》也有其他理由让我们可以处理个人数据，例如，根据对个人数据的访问，将已经发生的刑事犯罪行为通知执法部门。关于合法利益的最后一条规定的开放性暗含了一些重要问题。这意味着你可以通过处理个人数据来执行与你的业务活动相关的任务。不过，你仍须告知相关人员这一处理过程。下面举几个例子：一家旅游公司可以应用推荐系统，通过推荐用户可能感兴趣的其他旅游地点来提高在线用户的体验。这种个性化操作不需要明确的同意便可以在合法利益的基础上进行。此外，还包括将个人资料用于直接的营销目的，例如由你的慈善机构向现有的支持者发送直接邮件，通知他们即将举行的活动，或防止欺诈，或确保你的信息技术系统的安全。

但是，要求明确的知情同意和合法权益的界限在哪里呢？在欧洲数据保护工作组的一份意见论文中，作者使用了几个比萨店的场景来讨论这个问题。第一个场景是比萨配送服务会根据之前的配送记录通过邮政服务发送优惠券。这里提出了一种不需要知情同意的选择。第二种场景是公司在进行线上和线下定向广告投放时，会将比萨订购数据与包括当地超市的数据在内的其他数据放在一起综合考虑。当数据主体改变购物地点时，超市的账单可能会因为数据的变化而增加。虽然数据和背景在本质上是无害的，但也会受规模和财务的影响，所以知情同意行为也是必要的。在第三种场景中，比萨店将把数据卖给保险公司以调整健康保险保费。保险公司可能会辩称，因为评估健康风险和基于风险的定价具有合法权益，所以期望获得比萨购买行为的数据。然而，只要是理性的人都不太可能会预料到其比萨消费行为会被用来计算保费。鉴于数据的敏感性和数据科学的巨大影响，数据主体的权利高于健康保险公司的合法权益。这些实例表明，这种平衡行为依赖于理性人群对于可接受行为的界定以及数据科学实践的潜在影响。伦理数据科学其实就是一种平衡行为：使用什么数据，用于什么目的以及应该如何处理数据。

处理个人数据的原则

《通用数据保护条例》第五条可以被视为该规定的核心。该条款为解决隐私问题提供了实践指南并阐明了法律精神。图2-1总结了条文的第一款。条文的第二款，则涵盖了问责标准，指出：“控制者应该对第一款负责，并能够证明他/她遵守了第一款。”在收集（和处理）个人数据时，牢记这六条原则至关重要。由于《通用数据保护条例》是一份法律文件，这些原则将在以下段落中进一步具体阐述，违反这些原则的人会被处以罚款。

图2-1 《通用数据保护条例》第五条第一款（5.1）

5.1（a） 在处理个人资料时，应“（a）从数据主体角度出发，遵循合法、公平和透明的原则进行处理”。毫无疑问，在透明原则方面上存在一些违规行为。一个有趣的例子是西班牙国家足球联赛（西甲）就因违反此条文而被罚款。据报道，他们开发了一个应用程序打击盗版，该设备的麦克风一刻不停地用来检测用户是否在观看足球比赛。如果这样可行的话，也可以访问该设备的全球定位系统（GPS）位置，以确定像餐厅或酒吧等场所是否播放了比赛。据报道，使用的技术类似于Shazam（用于识别音乐），并将声音足迹转换为散列。正如我们将在本章后面看到的，散列函数是单向的，这意味着从散列恢复到原始记录非常困难。

5.1（b） 指出处理数据时应当具有明确、合法的目的：个人数据必须“为明确、合法的目的而收集，而不得以与这些目的背道而驰的方式进一步处理”；根据第八十九条第一款的规定，为符合实现公众利益的目的、科学或历史研究目的，或统计目的而进行的进一步处理，不应被视为与最初目的不相符。我们以一个很简单的思想实验来说明：假设你是一个相当小的自治市的市长。你通过电子邮件与市民进行联系，他们曾就城市规划项目经由设计师联系过你。选举活动即将开始，而你想给这些市民发送一封政治竞选的邮件。你应该这样做吗？一位比利时的市长就做了一件非常类似的事情，后来被比利时数据保护局罚款2000欧元，原因是他不遵守限定目的原则：为公共服务而收集的数据不应用于个人竞选活动。

5.1（c） 该等数据应“数量充足、与其使用目的息息相关，并且仅限于实现该目的（不能用于其他的目的）”。一家欧洲支付服务供应商因不遵守《通用数据保护条例》的第五条（以及其他条款）而被罚款。经裁定，这家公司所收集的个人信息多于支付人支付费用所必需的信息（如其他付款项的金额及日期）。

5.1（d） 该等数据应“准确，如有需要应及时更新，必须采取一切适当措施以确保及时删除或纠正因处理目的而不准确的个人数据”。一旦确定某些数据点不准确，就必须予以纠正。一家匈牙利银行因违反此条款而被罚。据报道，这家银行跟某一位顾客签约时，弄错了电话号码。因而，这家银行将有关该顾客的信用卡债务短信发到了这个错误的电话号码上。该银行在很清楚这是一个错误的电话号码时，仍未删除该号码，并继续将短信发送给了这个不是该银行客户的人。据报道，匈牙利数据保护局为此开出了约1600欧元的罚单。

5.1（e） 此收集的数据应“以一种可识别数据主体身份的形式保存，而保存时间不得超过处理该个人数据的目的所需要的时间”。所以，只要根据第八十九条第一款的规定，只有以实现公众利益为目的，或用于科学和历史研究以及统计的目的时，个人数据才可被长时间储存，不过要实施此条例要求适当的技术和组织措施，以保障数据主体的权利和自由。一家丹麦的出租车公司，因长时间储存顾客数据而被罚款。即使顾客的姓名及地址在两年之后被删除（在其数据保留政策中也有说明），但该顾客的电话号码仍被继续保留了四年（据说因为这是其数据库关键字），因此丹麦数据保护局建议对其处以近16万欧元的罚款。

5.1（f） 最后，数据应“以一种保护个人数据安全的方式处理，包括使用适当的技术或组织措施，防止未经授权或不合法的处理以及意外的损失、毁坏或损伤”。一家葡萄牙医院被发现，一些包括社会工作者在内的非医务工作人员可以通过虚假的医生档案获取病人的资料。据报道，该系统共有985名注册用户的个人信息为“医生”，而只有296名医生是真实员工。由于缺乏适当的安全防护措施，数据的隐秘性无法得到充分保障，因为医生和医院工作人员无论其专业如何，都可以毫无限制地查看病人的数据。葡萄牙数据保护局因其违反本条款和其他条款而对其处以40万欧元的罚款。

讨论

考虑以下场景，其灵感来自谷歌智能家居设备中的一个真实案例。由于谷歌承包商的泄露，谷歌智能家居设备收录的比利时人的录音被泄露给了记者。谷歌智能家居设备是一个私人助理，可以根据你的口头问题来提供答案。不同的语言对此类私人助理的运行构成了挑战。谷歌表示，约0.2%的“音频片段”是由承包商转录的，以便更好地理解语言差异，这些音频片段与用户账号无关。这些录音泄露了一些用户非常私人的信息，包括健康相关问题。在某些情况下，例如，谷歌智能家居设备错误地检测到“Okay Google”（这是用于激活谷歌智能家居设备的指令），它就会在用户并未真实授意的情况下开始录音。作为一名数据科学家，这种转录音频片段的做法很有价值，通过获得更多的基础事实来训练特定语言的模型，从而改进此模型。那么对下面这些伦理问题如何处理呢？

1.其他的语音数据来源也能这么做吗？如果使用其他资源，哪些问题会得到解决，哪些问题无法得到解决？

2.你会使转录样本的过程更加透明吗？应该如何做到这一点？

3.这些数据的其他用途是什么？这些其他目的是否与最初的目的一致？

4.需要存储和使用完整的对话吗？或者，你能否想出一些更明智的方法来限制数据，从而在不提供对话语义的情况下转录这些对话以改进模型？

5.你如何确保转录的准确性？在获得准确的转录数据时会出现什么问题？

6.你会保存这些数据多长时间？

7.为了更好地处理数据保护问题，你将如何在不同的转录器之间划分音频片段？

8.你会采取什么安全措施来避免这些音频片段被泄露给公众？

2.2.2 公共数据是不可以自由复制的

数据科学家常常误认为公共数据是可以自由复制获取的。例如，公共脸书页面或者网上新闻报道的数据免费向公众开放，但却不一定可以擅自复制到私人的数据库中。通常，企业都构想过如何利用现有的公共数据集，但是收集此等数据时必须谨慎行事。根据这一警告衍生出两个原则：数据库权限和数据库政策。

数据库权限是一种建立数据库所需投资的认可，在未经数据库所有者同意的情况下，不允许其他人复制（大部分）数据库。欧洲是受到此等法律保护的地区。在欧洲立法中，数据库被定义为“以系统方式排列并可通过电子或其他方式单独访问的独立作品、数据或者其他材料的集合”。这是一个相当宽泛的定义，因此也包括邮件列表和通信簿。这些权限已经沿用了15年。因此即便数据库内容不受版权保护，当建造此数据库投入了大量资金时，所有条目的集合仍然受到保护。如果是公共数据库，你可以进行查询，但不能复制大部分内容。有趣的是，第五十条也预想到了例外情况，即数据提取是出于私人目的，或为了教学或科研，而不是出于商业用途。

除数据库权限外，将某些数据公开的公司，其数据库政策通常是不允许别人复制此等数据。想想脸书的公共页面，比如安特卫普大学的网页。人们无论是通过手动还是自动化爬虫程序都无法从公共页面中抓取或提取全部内容：大型网站将会有一个Robots协议文件，告知爬虫程序哪些页面允许访问。www.facebook.com/robots.txt（于2021年初下载）的第一行评论中写道：“除非你有明确的书面许可，否则禁止抓取脸书内容。”接下来它列出了不允许被特别提到的baiduspider、Bingbot以及Googlebot等的爬虫程序访问的网页和目录。对于Robots协议文件中没有列出的爬虫程序，最后一行评论写道，禁止它们抓取任何页面内容：

用户-代理：*

不允许：/

因此，当你想提取一个网站的信息时，请务必看看Robots协议文件。不过，随意复制提取网站的内容毕竟是不道德的行为，而且还可能产生法律问题。

在这种情况下，现在大多数公司都提供应用程序接口（API）来从其平台获取数据。例如，脸书和推特（Twitter）都提供了这样的API。这些API使数据检索变得很简单，并且是以一种合乎伦理（和合法）的方式。它们确实有局限性。推特提供公共API和高级API，这些API以推特博文的数量以及重新访问推特博文的天数和年份的不同而不同。在剑桥分析事件发生后，脸书对请求访问其API的人员变得非常严格，甚至对学术研究人员也是如此。

如果你仍然决定提取此等页面的全部内容并加以复制，那么请记住，你的个人数据可能也会被存储起来，例如带有名字的脸书公共页面上的评论。这本身就带来了其他的伦理问题，更不用说当这些个人数据涵盖欧洲公民的数据时，还会带来的法律问题（参见《通用数据保护条例》）。