术语容易让读者感到困惑,所以本部分对部分术语进行了解释,旨在帮助读者理解相关背景知识和重要概念。
数据: 事实或信息,尤其是指用于查证或做决策时所检验、运用的事实或信息。
算法: 在解决一个特定问题时需遵循的一组规则。
——摘自《牛津英语词典》
预测或人工智能模型: 通过预测或人工智能算法从数据中学习的决策公式。
数据是构建所有数据科学的关键模块。算法可以应用于这些数据,以此来建立特定的数据科学模型。有人认为有些数据不合乎伦理规范,比如含有当事人不愿透漏的私人数据,或歧视敏感群体的数据。一个预测模型也可能会违背伦理,这种情况大多因为该预测模型建立在有伦理问题的数据基础之上。例如,一个利用个人信息进行预测的模型,或者预测模型歧视敏感群体。算法只不过是一套需遵循的规则或步骤,我们无法直接判断其是否合乎伦理道德(除非算法的开发者明确表明该算法涉及伦理层面)。试想一个应用于隐私数据的决策树算法做出一个涉及隐私问题的预测模型,这就与常见的关于数据质量的说法相一致:无用输入、无用输出。数据和由此产生的预测模型不合乎伦理,但因此称决策树算法也不合乎伦理似乎缺少充分的证据。克兰兹伯格总结的“六大科技定律”中的第一条也有类似的表达:“技术没有好坏之分,但技术也不是中立的。”
我们需尤为关注以下几种类型的数据:首先是涉及个人隐私的个人数据,这一点很重要;同时还要多留心涉及隐私的敏感数据,此类数据同样也不应该用来歧视他人(在医疗诊断等多数情况下,此类数据可能会有所帮助);最后一种是行为数据,由于我们在环游世界的过程中,处处留下了“数字面包屑”,行为数据越来越成为一种有用的数据源。
个人数据: 与已识别或者可识别的自然人(资料当事人)有关的任何信息。可识别的自然人指根据标识符,例如姓名、识别号码、定位数据、网络识别符号,或与该个人生理、心理、基因、精神、经济、文化或社会身份相关的一个或多个因素可被直接或间接识别出的个体。
——摘自《通用数据保护条例》第四条
敏感数据: 表明种族或民族起源、政治见解、宗教或哲学信仰或工会身份的数据;为了识别某一自然人,而对其基因数据、生物数据进行处理;以及与某一自然人的健康或性生活、性取向相关的数据,包含以上信息的个人数据不得泄露。
——摘自《通用数据保护条例》第九条
行为数据: 个人行为的证据。
——徐茉莉(2017)
随着时代的发展,处理数据时用于算法和其应用程序领域的术语也层出不穷,比如数据科学、数据挖掘、人工智能、商业智能、分析学。
数据科学: 研究并指导有原则地从数据中提取信息和知识的学科的统称。
数据挖掘: 利用“数据科学”领域的技术从数据中提取知识和信息。
人工智能: 随着时代的发展,根据智能代理的经验来提高其知识或性能的方法。
——福西特·普罗沃斯特(2013)
关于数据科学伦理的讨论大多以预测模型或监督学习为主,其中数据挖掘(或机器学习)技术用于发现数据中的模式,以预测模型的形式,预测一些目标变量的值。描述建模或无监督学习也将从数据中提取模式,但这些模式并非(明确地)用于预测,而是用于探索数据中的描述模式。目前,聚类和关联规则挖掘是较为普遍的描述性数据挖掘。虽然其重点是监督学习,但无监督学习可能也面临着同样的伦理问题。
人工智能一直被归为智能代理领域,计算机试图模仿人类的学习和解决问题等认知功能。显然,数据挖掘也属于其中一部分:计算机从数据中学习可解决特定问题的模式。最近,人工智能越来越受欢迎,这主要与深度学习有关。这些大型人工神经网络取得成功,主要归因于数据可用性不断增强、数据处理能力和方法的改进。深度学习主要在图像和语音识别方面取得了重大成就,有时甚至超过了人类取得的成果。此类模型面临的一个主要伦理问题是它们是典型的黑箱模型,无法解释做出某种预测的原因。人工智能常用于数据科学和数据挖掘。因为“数据科学”至关重要,所以本书的余下篇幅将主要使用此术语。但在讨论相同案例时也会使用“人工智能”(谁也不知道下一个流行词是什么)。此外,人工智能的某些领域已经超过了数据科学的范畴,比如通用人工智能和奇点。但是与这些领域相关的特定伦理可能并不会与我们未来的日常生活有太多密切的关系。