数据科学伦理：概念、技术和警世故事最新章节_大卫·马滕斯著

1.6 数据科学伦理的 FAT 流程框架

主流媒体对警世故事的关注，以及大量的新兴技术研究——从解释预测模型的新方法到讨论自动驾驶汽车中是否包括伦理偏好等研究，都说明了人们愈发关注和认可伦理数据科学的重要性。本书将从以下三个角度对 “FAT流程框架”进行研究。

1.数据科学过程阶段。

2.评估准则。

3.人类的角色。

框架的第一个方面包括数据科学项目的五个常见且相关的阶段：从数据收集到模型调度阶段。第二个方面重点研究社会中的三个属性：公平、责任和透明（FAT）。第三个方面探讨人类的四种角色（涉及讨论数据科学伦理时）：资料当事人、数据科学家、管理人员和模型主体（图1-4）。此框架应用范围广，涵盖诸多已知的数据科学伦理的方方面面；它还极具灵活性，使用了新技术和新案例。与此同时，FAT流程框架能为我们提供指导准则和警世故事，使我们能够从科学的角度对数据科学进行研究。

图1-4 数据科学项目中的不同角色

目前，关于FAT流程框架的讨论尚未结束，任何一种框架或核查表都会很快过时（因此需要定期更新）：数据源、技术、应用程序和伦理考量都在不断地变化。相反，数据科学家和商业人士在数据科学项目伊始以及审查现有数据科学项目时，则可以将FAT流程框架作为通用的指导准则。

1.6.1 数据科学中的不同角色

马滕斯和普罗沃斯特说过，人类在数据科学过程中扮演了不同的角色。人们通常只考虑数据主体，虽然数据主体确实是关键角色之一，但也应考虑其他的角色：

1.资料当事人：其（个人）数据正在被使用的人。监管机构可以充当代理人的角色。

2.管理人员：管理或签署数据科学项目的人。

3.数据科学家：从事数据科学研究的人。

4.模型主体：模型预测的对象。

我们可以通过分析一些数据型信用评分模型所做的决定来说明不同的角色（笔者将在第4章中详细讨论这个问题），也请参见表1-1。这一模型能够预测贷款申请人是否能够偿还贷款，并由此决定是否同意借贷。

表1-1 信用评分中不同角色可能会需要的解释说明

首先，被驳回的申请人会想知道自己无法贷款的原因（尤其涉及法律要求时）。是因为收入太低吗？是因为抵押资产价值比太高吗？是信用记录有问题吗？是多种因素叠加造成的吗？但是仅凭解释一句“电脑系统显示无法贷款给您……”是远远不够的。其次，在使用信用评分模型前，管理人员需要了解其运行原理。就算某个不可理解的黑箱模型在超时测试集（out-of-time test set）中是准确的，管理人员也不能只部署这个模型。对于管理人员而言，一个客户的贷款申请是否得到许可并不重要，重要的是模型的运作方式。再次，数据科学家则需要了解模型做出某些特定的错误决定的原因。是因为缺少足够针对此群体的数据吗？还是因为数据质量有问题？如果能知道这些问题的答案，数据科学模型会得到进一步发展和完善。最后，我们要注意的是，在本案例中，数据主体与贷款申请人不同：数据主体是以前申请过贷款的所有客户。银行通过这些人确定实际的目标变量：该客户是否已偿还贷款。模型（建立于先前贷款人的数据之上）对正在申请贷款的人进行信用评定。所以本例中的资料当事人，其实并不需要银行的解释说明，因为这无足轻重（除非使用的是资料当事人的数据，但是这种情况实属特殊）。

我们在考虑框架中的不同阶段和准则时，有些角色的重要性变得愈发明显，甚至有时会在要求进行信用评分解释时给予特别对待。

1.6.2 FAT：公平、责任和透明

数据科学伦理的评定依据三个准则：公平准则、责任准则和透明准则。前两个准则用于评定伦理概念，比如隐私、歧视和可解释性。责任准则与这些概念的有效性和核查性有关。“FTA”读起来不那么顺口，因此稍作调整以“FAT”来表示。接下来我们看一下每个准则的定义和解释。

公平准则包含两个重要概念：歧视和隐私。

公平（1）： 平等待人，不偏袒、不歧视。

公平（2）： 在某一特定情况下具备合理性，被普遍接受。

——摘自《牛津英语词典》

如上所述，这两个定义都太过笼统：许多数据科学模型的重点是区分群体：付款及时的人和付款延迟的人、流失的客户和忠实客户以及对我方产品感兴趣和不感兴趣的人等群体。同样地，“特定情况”也需详细说明。因此，我们将使用以下定义：

公平（1）： 不歧视敏感群体。

公平（2）： 对隐私进行可接受的处理。

除了公平的歧视面，还有公平的隐私面。合理使用个人数据需要尊重资料当事人的隐私。

隐私是公认的人权。联合国的《世界人权宣言》（1984）（ Universal Declaration of Human Rights ）规定：“任何人的私生活、家庭、住宅和通信不得任意被干涉，他的荣誉和名誉不得被攻击。”《欧洲人权公约》（1953）（ European Convention on Human Rights ）关于隐私权的规定：“每个人的私生活和家庭生活、住宅和通信都有受尊重的权利。”

从奥威尔（Orwell）的《一九八四》到欧盟通过的《通用数据保护条例》，关于隐私方面的书面资料一直数不胜数。但是隐私是什么呢？

隐私： 不受他人观察或干扰的状态。

——摘自《牛津英语词典》

换句话说，公平也涉及用可接受的处理方式尊重他人隐私（不想受他人观察或干扰）。这也可能是不言而喻的事情，但是这并非布尔逻辑体系那么简单明了。有些应用涉及的范围更广：检测欺诈、破案或医疗诊断，与定向广告或音乐推荐相比，前三者通常要求更多的个人数据（当然仍受一些限制）。各地区对隐私的规定不尽相同，例如欧洲的《通用数据保护条例》对隐私有相对严格的规定。

透明准则可能是最重要的一个准则，因为它影响着责任准则和公平准则。尽管人们通常将透明准则应用于解释数据科学模型所做的决定，但实际上透明准则的使用范围不限于此，它适用于数据科学项目研究的所有阶段。

透明： 很容易理解或检测。

——摘自《牛津英语词典》

主体不同，所要求的透明度也不尽相同：组织的管理人员会要求完全透明，而资料当事人不会获得此权利（以免泄露公司机密）。另一方面，数据科学家希望以前的模型工作中，所有的算法步骤完全透明；而管理人员则对正则化逻辑模型的正则化超参数进行交叉验证时所使用的超参数网格不太感兴趣。基于数据科学的过程和角色，接下来我们会讨论透明准则的标准以及实现途径。

透明度对公平和责任而言也至关重要。为了明确一个模型是否公平，数据的使用（隐私）或者对不同敏感群体的评定（歧视）一定要公开透明。正如我们所看到的，要实现数据科学进程和预测的透明公开，就要进一步改进数据科学模型：删除不必要的数据来源、消除使模型性能下降的数据偏差，或者可以解释错误分类，从而掌握改善数据质量或预测模型的方法。

透明准则的重要之处在于它可以解释数据科学模型对模型主体所做的决定。一些法律学者认为，欧洲《通用数据保护条例》中有“解释权”，其第十四条第二款（g）项规定，资料当事人不仅有权知道存在自动化决策、分析，也有权获得所涉及逻辑的有意义信息。欧盟《通用数据保护条例》的咨询机构第二十九条工作组对“所涉及逻辑”这一概念做出了详细的解释。他们写道：“数据控制者应以简洁易懂的方式，告诉资料当事人背后的理由或者所做决定的准则。《通用数据保护条例》要求数据控制者提供所涉及逻辑的有意义信息……所提供的信息应足够全面，以便资料当事人对所做决定的原因知情。”这并不需要企业将每个细节告知模型主体，因为这样做会泄露机密，甚至侵犯资料当事人的隐私。你使用的确切的数据科学技术是你“独家秘方”的一部分，正如你不一定要告知模型主体具体的预测分数一样，这也表明了透明准则也不像布尔逻辑体系一样规范，而是更加具有灵活性。

透明准则中的两个方面可以定义如下：

透明度（1）： 数据科学进程的明确性。

透明度（2）： 数据科学模型可以解释所做决定的能力。

第三个准则——责任，这可能是FAT评定准则中最难定义的一个准则，因为其概念宽泛，可用于不同的情境之中。

责任： 被要求证明行为或决策的合理性、负责任。

——摘自《牛津英语词典》

马克·波文斯（Mark Bovens）在一篇关于公共责任的论文中谈到了“难以捉摸的责任概念”。数据保护工作组在一份关于责任意见书中指出：“尽管难以在实践中定义责任的准确含义，但查尔斯·拉布（Charles Raab）在隐私保护方面谈到了这个概念，‘责任问题……是高度复杂的，对组织和公众之间的关系有着深远的影响’。”

《通用数据保护条例》的文本文件和证明文件有助于我们理解“为什么我们需要责任”（见2010年关于责任原则的第3/2010号意见）：责任就是要从理论走向实践。但要指望一个公司履行责任，仅仅有政策是远远不够的。一个公司有诸多关于数据科学伦理的政策，这听起来可能非常令人敬佩而且印象深刻，但这些公司也有义务确保这些政策的实施。责任旨在加强公司及其员工的责任感，这让我们想到另一个定义。

负责的： 即作为一个工作或者角色的一部分，有义务做某事，或者管理、照顾他人。

——摘自《牛津英语词典》

这种责任意义重大。一个人或公司必须为自己的行为（或未执行某些行为）向他人负责。这种责任由以下三部分组成。

责任： 有义务①实施恰当有效的措施以确保遵守原则；②要求这些措施确实符合现有的政策和条例；③认识到不履行责任的潜在消极影响。

第一部分是关于采取恰当的措施，确保以既定的政策和相关规定进行数据科学项目。技术措施包括正确运用加密手段确保隐私安全，或者通常在实施过程中考虑所讨论的数据科学伦理技术。组织措施包括对此类事项的培训和监督等方面，我们将在第6章讨论与模型调度相关的伦理问题时探讨这些方面。

第二部分是关于要求这些措施得到有效落实，并且这些措施确实符合现有的政策和条例。从这方面来看，确保已经采取措施至关重要，并且需要说明采用的具体途径和相关训练以及监督和核查制度。换句话说，责任不是等待系统出现故障，而是要求公司根据相关要求证明其遵守了数据科学伦理。这种核查通常由公众的代理人进行，比如监督部门或审计代理人。

责任的第三部分是必须面对不履行责任带来的后果。出现问题时有人需要对此负责，这意味着要承担责任。经济方面的后果，一般是政府进行罚款或由法官判决进行赔偿，但是这可能带来更严重的后果，因为惩戒性影响或声誉影响也可能对公司不利。按照波文斯的观点，是否被制裁（不一定是实际实施制裁）对于评判公司是否在信息提供方面承担了责任有着重大影响。图1-5总结了责任的三个组成部分。

图1-5 责任的三个部分

公司的财务会计和股东之间也可以建立一个有趣的联系。年度报告记录了公司一年的“账目”或历程，也对公司的成功和失败的案例以及其目标和策略进行了总结。根据公司的规模和类型，经独立审计后的报告符合某些种类的会计准则和惯例。上市公司的股东也可以向公司提出质疑，并要求赔偿。当然，不当行为也可能带来非常明显的负面后果。

1.6.3 数据科学伦理的FAT流程框架

FAT流程框架为数据科学项目提供了参考依据。这三个维度足以覆盖所有当前和未来的数据科学伦理的层面。图1-6所示框架基于以下三个维度建立：①数据科学项目所处的阶段，②FAT评定准则，③不同角色的参与。图1-7总结了在数据科学项目的不同阶段，书中涉及的公平和透明的概念。公司应在部署阶段考虑部分责任问题，并要求真正执行有效明显的措施，其中包括与公平和透明有关的概念和技术。

图1-6 数据科学伦理的FAT流程框架

图1-7 FAT流程框架中的公平和透明概念

我们需要强调的是该框架并没有对应用于何种伦理的概念和技术给出“明确”的答案。这三个FAT准则均有一系列的应对措施。其中可能涉及一些法律要求，从而构成必要条件。公司解决不同问题的能力取决于其业务和数据情况：与一个拥有专业的数据科学和法律团队的大型跨国企业相比，一个小型初创企业可采取的措施少之又少。同样，数据的规模、风险和敏感度也起着一定作用。

伦理数据收集

公平准则

数据收集过程是建立数据科学伦理的FAT流程框架的第一个重要阶段。从隐私角度和歧视敏感群体的角度来看，这个阶段需要公平对待资料当事人和模型主体。有一点需要注意，在这种情况下，资料当事人和模型主体的角色可以不一样，因为在数据收集过程中，可以对每个人使用不同的数据。我们再回到信用评分的案例，银行会保留曾经成功申请到贷款的客户数据，从而建立信用评分模型。该模型的目标变量是：这个客户是否偿还了贷款？他们在开始贷款时成为银行客户（假设他们之前并非银行客户），并签署一份合同，合同内容涉及哪些数据被使用、目的是什么、数据会被存储多长时间等。另一方面，贷款申请里也有许多尚未成为银行客户的人。他们只是提供自己的详细资料（收入、年龄以及职业等）以便进行评分，并获得贷款或利率。但是，这些个人数据只是用于给申请人评分，还是会被保留下来以便建立其他的数据科学模型？如果是后者，获得当事人的同意便至关重要。公平不应该只包括隐私，也应该考虑对敏感群体的公平性，以免降低以后对敏感群体的预测效果。

以下问题需要重点考虑：

● 公平对待 资料当事人和模型主体性： 在收集资料当事人和模型主体的数据时，是否尊重了他们的隐私？

● 公平对待 模型主体： 对所有的敏感群体来说，样本是否充足？

责任准则要求采取恰当有效的措施，从而与上一段问题的答案保持一致，如数据最小化、投诉和整改处理程序以及知情同意等问题。

透明准则

保持数据收集过程的透明度时也需考虑资料当事人和模型主体的隐私。这包括知情同意权：资料当事人和模型主体对数据收集是否知情？组织是否提供知情同意书？数据收集也应透明公开：数据收集的目的和持续时间有多长？A/B测试是用于收集所有模型主体数据的专用设置。作为实验当中的一部分，模型主体具有敏感性，他们会要求数据透明。假设你的自来水公司正在测试一种会让人感到极为不适的物质（这个案例可能有些牵强）。他们正在进行A/B测试：其中一半客户收到的水不含此类物质，另一半收到的水含有此类有害物质。一年后，你发现自己属于第二组。你会有什么感觉？你认为自来水公司应该通知你吗？你可能会觉得难以置信，但是如果这个实验是在网上进行，而且是以更加隐秘的方式进行的呢？例如仅将过滤后的信息呈现给你呢？A/B测试具有普遍性，需要让模型主体意识到他们是测试的一部分，尤其是这一实验会对测试对象产生重要影响的情况下。当然，这并不意味着你需要告诉他们，他们属于哪一组。

数据科学家和管理人员也会要求数据透明，他们需要知道数据的收集方法。数据科学家要了解数据收集过程以确保数据的质量，从而有效地进行数据预处理和建模，而对此进行复检确认的管理人员需要了解整个过程。

● 对 资料当事人 和 模型主体 公开透明：使用的是哪种数据？用于什么目的？持续时间多久？

● 对 模型主体 公开透明：用户清楚自己是A/B测试中的受试对象吗？会收到知情同意书吗？

● 对 数据科学家 公开透明：数据的收集方法是什么？是否考虑过对某些特定群体过度采样或有采样不足问题？

● 对 管理人员 公开透明：数据的收集方法是什么？

伦理数据预处理

公平准则

假设有这样一种观点：穿大码鞋子的人寿命短。让我们好好想想，然后找一下其中的原因。或许是因为他们需要在鞋子上花更多时间？还是因为他们容易跌倒呢？一种可能的解释是男人比女人的鞋码大，而男人的寿命却比女人的寿命短。但这个相关性的例子并不意味着因果关系，也表明了相关变量的问题。

不包括种族等敏感变量，并不一定意味着你不歧视种族敏感群体。任何与种族密切相关的变量都会引发歧视。如果银行的信用评分过程不允许使用性别变量，那么会允许使用鞋码变量吗？一个银行的工作人员可能不会问你的鞋码（小心会这样问的工作人员），但会问你的家庭地址，地址可能代表种族。在过去，银行一般会驳回一些种族社区居民的贷款申请，这种做法被称为“歧视”，我们将在本书第4章详细讨论这个问题。

公平准则除了涉及特征维度（关于歧视），还与实例维度（关于隐私）有关。当你声称对数据进行隐匿处理时，你能确保外人无法识别这些数据吗？对数据进行隐匿处理可能会对你有所帮助，因为你可以继续对其使用聚合分析法，或处理不包括任何个人信息的细粒度数据。后者的用案也便于提供可用的数据集来促进学术研究，这通常通过卡歌网（Kaggle）等系统来实现。然而，正如我们将要看到的，假名化（消除个人标识符）和匿名化（个人不能获取数据集中的任何信息）之间还是有差别的。

2006年，美国在线（AOL）公布了一组搜索查询的数据集，为我们展现了用户的搜索记录。这组数据集已经进行了用户匿名化处理[消除网际互联协议（IP）地址和用户姓名，也为每个用户随机生成用户身份证明（ID）等]。然而，有些用户依然能够被识别出来（包括一名62岁的寡妇），而且有些查询词条令人相当担忧，比如如何杀死你的妻子。本书的第3章会详细阐述本案例以及类似的奈飞公司（Netflix）数据集和思想实验。

数据预处理的第三个伦理问题是如何定义目标变量。定义一笔贷款什么时候算违约并没有那么简单：当某人拖欠一次还款时，这算违约吗？如果他拖欠两次呢？如果这个人在度假，忘记转账，或者忘记确保账户上有足够的资金，这时该怎么办？《巴塞尔协议Ⅱ》（ Basel Ⅱ Accords ）规定将贷款人连续三次未还款的情况视为违约。现在让我们以一个人力资源分析应用程序为例，我们要使用这个应用程序预测雇佣哪个求职者。我们可以利用历史数据集建立一个预测“成功聘用”的数据挖掘模型。但是如何定义“成功聘用的员工”呢？是在公司工作了至少五年的员工吗？还是晋升到管理层的员工？或者只是过去雇佣过的员工？所有这些都可能引发伦理问题：如果该公司对女性担任此类职位有偏见，模型也会有此类偏见。如果女性员工在公司的第一年休了产假，这是“成功聘用”吗？

● 公平对待 资料当事人 和 模型主体 ：如果匿名化保存数据，数据能否避免去识别化？敏感信息是否会泄露？

● 公平对待 资料当事人 和 模型主体 ：纳入的变量是否不是敏感群体？也不是歧视敏感群体的相关代理人？

● 公平对待 资料当事人 和 模型主体 ：是否以不歧视敏感群体的方式定义目标变量？

透明准则

数据预处理阶段的透明度涉及关于上述实例、输入变量和目标变量的公开交流。如果以假名化而不是匿名化的方式处理数据，资料当事人和模型主体是否知道他们的数据仍然被存留？如果以匿名化的方式处理数据，是否真的可以确保数据是真正被匿名化处理？同样，输入选择的步骤也应做好详细记录，有利于（日后的）数据科学家和管理人员能够清楚地明白这个过程，以确保他们能够理解消除（或保留）变量潜在的伦理动机的原因。最后，所有人均应知悉目标变量的定义，确保每个人对其定义以及对影响变量的现实因素无异议。

● 对 资料当事人 和 模型主体 公开透明：如果只将数据进行假名化处理，那么资料当事人是否需要知情？

● 对 资料当事人 和 模型主体 公开透明：对数据进行匿名化处理的过程是什么样的？匿名化的衡量标准是什么？

● 对 资料当事人 和 模型主体 公开透明：什么类型的数据被用作输入变量？输入变量与敏感变量有关吗？

● 对 数据科学家 和 管理人员 公开透明：如何界定目标变量是什么？这种测量方法有何现实意义？

建立伦理模型

公平准则

数据科学建模可以纳入隐私方面。假设数据科学家需要从几个数据提供者收集的数据集中构建各种预测模型。第一，你不需要有关资料当事人的个人资料，因为这些资料不会成为输入集的一部分。资料当事人的姓名、确切的出生日期或社会保障号码与你的行为无关（或不应该有关）。换句话说，个人身份信息应该受到保护并隐藏起来。第二，我们不应使用数据集对敏感变量进行预测。即使数据集并未直接包含有关政治倾向的信息，这些信息也可以很容易被数据集预测出来。关于脸书数据的例子能充分说明这一点。在这种情况下，我们应防范不当的建模模式。当然，与此同时，你希望拥有运行良好的预测模型。因此，你不应该在建模的过程中抛弃或降级使用与你的业务实例相关的重要模式。当来自多渠道的数据库信息被共享，或者当数据被公布给广大公众时，这就成为一个更严重的实际问题。

在建模阶段，模型含有特定的伦理偏好。这样做的主要原因是数据并不会充分反映预期的结果，这在期望对特定群体采取积极歧视（positive discrimination），或者在解决罕见情况时可能会有所帮助。一个预测如何驾驶的数据科学模型或许也需要在某些时候能够做出判断决定要撞老人还是孕妇。伦理讨论中应明确其偏好。然而，数据不会反映或者很少会反映这些低频率事件。我们将在本书的第4章中使用麻省理工的“道德机器”研究方法，并将其与广泛研究的“电车难题”联系起来，讨论是否应该以及如何包含此类伦理偏好。

● 对 资料当事人 和 模型主体公平 ：是否保护不相关的个人身份信息？

● 对 资料当事人 和 模型主体公平 ：可以不从数据中获取敏感属性吗？

● 对 资料当事人 和 模型主体公平 ：模型中含有伦理偏好吗？

透明准则

数据科学家可以使用的建模技术数不胜数，从经典耐用的逻辑到先进的深度学习算法技术，应有尽有。这些算法的一个不同之处在于它们生成的模型有不同的可理解性。我们通常谈论白箱模型和黑箱模型。通常情况下，可理解性是一种连续测量标准，其中，规则模型或树型模型是非常容易理解的，而非线性技术则颇有难度，不易理解。因此，输入数量（或正则化）和算法类型的选择均对模型的透明度有着重要影响。这与决策实际生成的解释密切相关，通常被称为可解释的人工智能的一部分。

● 对 数据科学家 和 管理人员透明 ：数据科学模型是否是可理解或可解释的？

1.6.4 评估伦理模型

公平准则

在评估阶段，数据科学模型根据上述与隐私和歧视敏感群体有关的公平准则进行评估。在本书第5章中，我们将回顾一系列检测模型尊重隐私程度的技术。

在我们决定模型是否会歧视敏感群体时，我们发现了一个自相矛盾之处——模型需要敏感属性。评估一个模型是否具有种族歧视，需要评估种族变量对预测的影响。如果可行，可以使用几种评估公平性的技术。但如果我们没有敏感变量，我们就会陷入困境。

公平对待 模型主体 ：需要使用或预测多少私人信息？

公平对待 模型主体 ：模型没有歧视敏感群体吗？

透明准则

在评估模型时，透明准则的作用非常重要。它的第一个作用可以正确评估模型。这一点至关重要，甚至对伦理有影响。不同的性能指标会对模型做出不同的决定。以预测股价为例：90%的准确性会引发质疑。简单来说，模型仅仅在股市每天上涨的十天之内做出评估，就算一直预测上涨也不会出错。那这是一个运行良好的模型吗？并非如此。一名优秀的数据科学家也不会犯这样的错误。但准确度的直观性有时会使我们得到这种“简单”的准确率指标，即使这一指标并不合适。

● 对 管理人员 公开透明：是否有恰当的预测性能指标？

● 对 管理人员 、 数据科学家 和 模型主体 公开透明：是否正确解释结果？

伦理模型调度

公平准则

在部署数据科学系统时，有时需要决定谁有权访问数据科学模型。你需要评定谁呢？银行通常仅对有信用记录或至少有一个存款账户的人进行信用评分。了解何人拥有系统访问权事关重大。审查便是一个对你的数据科学系统进行访问限制的具体案例。本书第6章将以一家大零售连锁店预测怀孕为例，说明不向每个人提供数据科学系统访问权的情况。最后，仅通过显示模型主体的信息和他们可能感兴趣的新闻而创建的过滤气泡，说明了他们并非仅仅依靠数据科学系统进行决策。

公平对待 模型主体 ：你是谁？你是否有权限访问数据科学系统？

公平对待 模型主体 ：访问是否有可能被驳回？被驳回的概率有多大？

透明准则

系统在当初设计时和后期运行时的表现可能差距很大。正如“非预期后果”的定义所言，非预期后果具有非预期性，尽管在设计的过程中已经设想过了。微软开发的人工智能聊天机器人Tay发表了一些关于种族主义的推文，这表明它在模型调度时并未预见这类问题将会产生的重大影响。所以，我们应清楚可能出现什么样的非预期后果以及如何消除其产生的影响。

通过数据科学模型误导人类是一种违背伦理的行为。深度伪造技术（DeepFake）就是一种基于深度学习的含误导性的技术，拍摄看似真实但是却虚假的视频。在传播虚假视频时也必须遵循透明准则。

● 对 模型主体 公开透明：你有考虑过产生消极的非预期后果的可能性吗？

● 对 模型主体 公开透明：你的数据科学模型会误导他人吗？