购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.5 数据科学伦理平衡

本书中反复提到伦理思维不属于布尔逻辑体系,数据科学实践不能简单地被认定为合乎伦理还是违背伦理,它更多的是要平衡伦理考量和数据(科学)效用。有一种极端观点认为,人们既不会对数据科学伦理投入丝毫的时间和精力,也不会对它感兴趣;而另一种极端的观点认为,人们过于在乎数据科学伦理考量,所以不会使用任何数据。大多数据科学应用程序或多或少都会关注这两者。这与亚里士多德的观点有相似之处,他认为伦理美德通常是两个极端之间的某个平均水平。因此,不管怎么样,拒绝使用数据的极端行为也被认为是不合乎伦理的。

图1-2展示了伦理考量和数据效用之间的平衡。我们根据伦理考量的重要性和数据效用来决定数据科学实践。在很大程度上,两者之间的平衡与环境有关,也取决于其对人类和社会的潜在影响,以及这种影响的好坏程度。对此,我们可以参考以下问题:有多少有价值的数据可用?数据科学对公司的重要程度如何?我是否使用过个人资料?数据行业做出的决定对人们有影响吗?如果有,那么会对多少人产生影响呢?正如前面所提到的,伦理的重要性对个人而言具有主观性,它引导人们考虑以下问题:客户、我的股东或其他利益相关者是否关心与数据科学实践有关的伦理问题?企业总经理或数据科学家对此持什么看法?2021年欧洲新出台了与人工智能有关的规定,采用了类似的以风险为基础的方法。例如,人们认为人工智能系统威胁人类安全,会带来巨大的风险,因此此类系统被明令禁止。高风险系统包括用于就业、执法或移民等具有严格义务要求的系统。这时,天平的支点向左倾斜,因此我们需要更严格的数据科学伦理实践。欧洲新出台的规定中,最后两个类别是有限风险(如聊天机器人)和最小风险(如垃圾邮件过滤器)。

图1-2 数据科学伦理的平衡状态

但是我们不能把问题想得太简单,因为一些企业根本不会担心这些问题,还称“人们不可能发现什么”。从这一角度来说,一家公司是否看重数据科学伦理与公司的价值观密切相关。如果一家公司不注重伦理思维、透明度,缺乏客户至上或引领行业的态度,那么此公司也不会重视数据科学伦理。数据科学实践受伦理平衡的影响:天平的支点越往左侧倾斜,则表示越需要本书中讨论的数据科学伦理实践,比如限制用于公共用途的数据、通过添加噪声或者概括性变量来移除信号、改变标签,消除对敏感群体的歧视、进行更多评价分析,并且将预测模型的空间限制在可理解的范围内等。

数据科学伦理平衡: 受伦理考量和数据效用影响的一种数据科学实践的状态。

以信用评分为例:银行使用数据科学建立一个可用于评估贷款申请者信用的预测模型。预测模型就会帮助银行判断是否同意贷款人的申请,而且银行拥有大量的个人数据和敏感数据,这些数据包括客户的收入以及其所有付款记录。在这种情况下,伦理考量是很重要的。这需要保护隐私,银行做出的贷款决定需向贷款人解释说明,并且不歧视敏感群体。与此同时,数据科学在银行业的成熟应用表明了数据科学效用的重要性。这是数据科学的一种平衡状态(类似于图1-2),这种状态下,预测模型通常不使用性别模型和传统的预测模型,并且伴有严格的保护隐私的政策。另一方面,也是对预测性维护(一种行业应用)方面的考虑,即数据科学会预测机器发生故障的时间,以便在故障发生前分派技术人员进行维护。预测性维护使用的数据通常与机器相关,如机器的温度、振动、运行时间等。这些数据无关伦理,但是却有极大的效用。如此一来,天平的支点便向右侧(不重视伦理考量的一侧)倾斜。现在我们可以考虑一点:维护机器人员的数据也会被获取,这些数据会有他们的姓名、性别、工作时间和国籍。这次强调的是伦理考量,因此随着数据科学伦理实践的变化,天平的支点会再次向左侧倾斜。

如果不考虑伦理平衡就会产生一定风险,导致失衡,如图1-3所示。我们并非不考虑伦理约束,只不过容易忽略它而已,但这可能延误未来的数据科学实践。深入了解伦理问题尽管并不容易,但这是本书的目标。伦理学需要讨论这种平衡行为,所以本书通过诸多讨论活动,以结构化形式锻炼你的伦理思维。此外,大多警世故事都是伦理失衡的案例。但需要明确的一点是,这些故事大多与当时前沿领域的技术创新有关。我们可能会在后来意识到这涉及伦理问题,但在当时并不容易察觉。

图1-3 数据科学伦理不平衡的状态

尽管其他书籍已经阐述了数据科学的效用,但本书将重点探讨伦理概念及其对个人实践的重要性,而且还将讲解数据科学伦理技术。你可以用这些技术进行数据科学实践,以实现数据科学的效用和伦理之间的平衡。最后,我们不可能解决所有问题(本书的后几个章节将仔细阐述这一点)。例如,我们很难完全保证存储安全和通信安全,无法完美解释黑箱模型并对此做出评估,还有如何避免数据科学模型针对不同的、相互冲突的数据主体存在的歧视现象等问题。不切实际的要求可能会导致人们拒绝使用任何数据的极端情况。 zbVQp+2PS48iDSlDDVTDRHpLKBoquoK749cpPIjKtOTC53AJSiTQPFJzGcRTZcnC

点击中间区域
呼出菜单
上一章
目录
下一章
×