伦理学和哲学皆是传统学科,伦理学的定义如下:
伦理: 决定一个人的行为或进行一项活动的道德规范。
道德: 与个人行为对错有关的准则和规范。
——摘自《牛津英语词典》(Oxford University Press)
许多著作都在讨论伦理道德行为的形成问题。亚里士多德(Aristotle)的《尼各马可伦理学》( Nicomachean Ethic )便是探讨伦理的重要哲学著作之一。亚里士多德认为学习伦理学可以提高我们的生活质量。我们接受正统的教育、选择正义的行为、培养优良的习惯,这些都有利于我们形成良好、稳定的性格(与意识有关,与习惯不同)。本着这种精神,本书旨在讲解伦理数据科学的内涵。如此,你就可以在必要时保持数据科学行为的公义性。
亚里士多德的另一见解是伦理道德行为即在两个极端(过度和不足)行为之间的平均值。在两个极端行为中找到一个适度的位置,你的行为就会合乎道德规范。此“中庸之道”是一个重要的概念,我们谈及伦理数据科学时也会倾向于此:在不使用任何数据(不足)和所有的应用都使用数据但不考虑隐私、歧视或透明度等问题(过度)之间找到平衡点才是正确的做法。
我们可以对伦理和法律进行一个颇为有趣的区分:法律告诉我们可以做什么,而伦理则告诉我们应该做什么。伦理回答了是非对错的问题。虽然数据科学的法律层面并不是本书的重点,但法律和伦理之间密不可分,伦理有时会上升到法律层面,而且法律思维和伦理思维会有所重叠。例如,欧洲联盟(欧盟)通过的《通用数据保护条例》( General Data Protection Regulations, GDPR )涵盖了许多与隐私相关的数据科学以及数据科学的可解释性(分别在本书第2章和第4章中讨论),而在本书的撰写过程中,欧盟甚至提出了一项关于人工智能信任方面的新法规。而今,数据科学领域的技术在飞速发展,立法方面也在不断更新。
如果没有法律的指引,我们怎么判断何为道德、何为善恶呢?在不足和过度之间,每个人和企业都将自行决定所处的位置,这将受到社会和客户如何评价数据科学伦理的影响。事实上,你既是客户又是社会的一员,所以你也在决定着对错之分,这进一步说明了伦理学的主观性。我们从歧视这个重要的伦理层面来进行阐述。数据科学本身就与歧视有关,比如:区别是否可能偿还贷款的申请借款人,区别忠实客户和可能会流失的客户,区别对我方产品感兴趣的人和对我方产品不感兴趣的人。然而是否符合伦理的一项指标是不歧视敏感群体,可是谁来区分敏感群体呢?通常,在涉及公平时需要考虑三个关键因素:种族、性别或宗教。因此,对这三个因素的歧视被认为是有失公平的。但事实并非只是如此,这还需取决于用途:比如在医学诊断中,种族和性别是重要的科研动机变量。
接下来让我们谈谈歧视在应用中的依赖性。这种依赖性具有敏感性,因时间和地区的变化而变化。例如,男女平等最近才被社会普遍接受。美国女性于1920年才普遍获得选举权。美国西点军校直到1976年才首次招收女学员。欧洲的妇女花了一个世纪的时间才首次拥有了投票权。例如,比利时女性在1948年获得了投票权,而摩尔多瓦也直到1978年才赋予女性投票权。同样,反对种族歧视并非一直被社会认可。1865年,美国宪法第十三条修正案规定在全国范围内禁止奴隶制(其中奴隶主要是黑人),而1870年美国宪法第十五条修正案才正式赋予黑人投票权。
虽然现在我们大多认为这些是理所应当的权利,但将来我们也会被认为是时代的受害者。如此一来,就会出现两个敏感群体。第一个是我们认为可以歧视的人群,但是他们现在有多数人拥有的权利。比如老年人和低收入人群。年龄在营销和保险决策中起着重要作用,收入也是如此,针对iPad用户的定向投放广告就是一个简单的例子。也许未来我们会认为,把年龄和收入看作敏感因素令人无法接受。第二个是我们现在认为不值得拥有我们所有权利的群体,比如动物或机器人。图1-1表明近几年人们对素食主义的关注度呈上升趋势。照此趋势继续发展,我们的曾孙可能会谴责我们这些肉食者道德败坏。因此,我们要提醒自己,在看历史上和本书中的警世故事时,要保持温和的心态,因为这些故事往往是用我们新获得的伦理观点来阐述的。
图1-1 谷歌统计的素食主义关注度的趋势图(截至20世纪20年代早期)
区域因素也很重要,美国和欧洲法律的差别可以证明这一点。2018年,麻省理工学院的一项调查研究了人们解决电车难题时做出的选择:一个司机在无法刹车的情况下,不得不撞死一个成年人或者一个婴儿,这名司机该如何选择?通过让数千人做出相关难题的回答,以及更换不同的选择对象(婴儿、儿童、猫、狗、老人、高管、无家可归者等),他们进行了一个伦理偏好排名。研究表明,就怜悯程度而言,儿童排名高于成年人,成年人排名高于老年人。有趣的是,犬类排名高于犯罪嫌疑人。这项研究还发现了重要的地区差异:与北美和欧洲等西方国家相比,日本和中国等地区对年轻人的排名要低得多。作者也同样发现,在拉丁美洲国家,人类的排名低于宠物。这充分显示出了在尊重老年人或动物方面各个地区的差异。欧洲各国、美国和中国不同的隐私条例表明,不同国家对个人和国家权利的尊重程度也不同。
由于伦理具有主观性,每个公司都有责任决定在公司日常工作中进行何种数据科学伦理实践。本书探讨了数据伦理的基本概念和技术以及需铭记于心的警世故事,目的在于帮助管理者和数据科学家做出正确的决策。