Technological Logic and Algorithmic Biases in Symbolisms of Artificial Intelligence
摘要: 人工智能的热浪正扑面而来,其背后的算法成为学界及业界争议的热点。本文首先从人工智能的三大派别之一——符号主义出发,梳理算法发展及其运行背后的技术逻辑,分析符号主义视角下机器计算与人类思维的关系,通过说明算法建构过程中的选择行为,剖析算法在实践中不同层面的偏向。本研究试图提供一种技术哲学—方法论—技术实践的分析框架,并尝试从宏观视角出发,分析历史、科学和市场三重因素作用下算法产生偏向的社会历史根源。
关键词: 符号主义;人工智能;算法偏向
Abstract: The heat waves of artificial intelligence have brought hot discussions on controversies of algorithm to the frontline both in academia and industry. This paper sorts out the history of algorithm and its technological logics under the symbolisms paradigm of artificial intelligence. Then,the paper tries to situate the choices and constructs of different algorithms on the bases of analyzing relationships between machine computing and human thinking,which lead to a more detailed analysis on the biases caused by different algorithms in real practices. This paper also provides an analytical framework from a combined perspective from technological philosophy,methodology and technological practices. Eventually,the paper puts forward socio-historical reasons of the biases which were actually driven by technology history,science development and the market forces.
Keywords: symbolisms,artificial intelligence,algorithm biases
人工智能作为一个重要的科学前沿领域,近些年来频频出现在人们的视野中,2016年阿尔法狗大战李世石引发了大众对于人工智能的广泛讨论,在此之后,“算法”被作为人工智能的代名词逐渐占据我们的视野。但是“算法”并没有一个精确的定义,其主要指的是计算机按照一系列的指令来执行各种程序,通过处理海量的数据,促进问题的解决或决策的形成。
算法在现代生活中扮演着日益重要的角色,基于数据的算法渗透到生活的方方面面,任何人都不能避开。我们的生活被算法包围,它在给日常生活带来便利的同时,也在我们周围埋下了许多机遇与风险。也就是说,“人类即数据”成为常态。
算法是一把双刃剑。一方面,算法在公共服务领域的应用中取得了显著成果,可以帮助政府高效便捷地进行决策,为公民谋福祉,还有助于提高人们的生活质量。例如美国里昂交管部门利于大数据治理交通堵塞,通过对实时交通信息的搜集,实现信号灯的自我调整,缓解各路段高峰期压力,使车辆得以高效通行 ;各种可穿戴设备的应用对于人体各种体征数据的搜集,不仅增强了人们对自己身体的了解,同时还可以帮助医生了解患者的最新变化,科学预测与诊断病情 。然而,另一方面,算法在某些商业领域的运用却惹起了极大的争议。在激烈的市场机制竞争下,资本家为了追逐商业利益建造数据壁垒,破坏社会的公平与公正 ;各类电商通过“用户画像”实现精准营销,不可避免地带来隐私泄漏问题 ;各种信息咨询类软件利用个性化算法打造“个人日报”,由此产生的信息茧房问题不容忽视 ;手游、短视频应用的兴起使我们的娱乐生活日益丰富,但由算法驱动的同质性内容推送却使得人们日益变得消极被动、精神空虚 。
算法本身建立在数学表达式之上,具有答案固定的特性,往往被视为客观与理性的化身。但是,近些年来算法与社会的互动日益频繁,所显现出的问题使得人们对于大数据与算法的“公正性”产生了质疑。算法到底是不是天然就有客观、公正的特性?算法是否本身就存在局限?冷冰冰的、量化的算法和纷繁复杂的社会现象碰撞之后会产生什么影响?
本文描述算法的偏向,指的是在历史上科学家由于对机器计算与人的思维之间如何关联存在认知的变化和差异,影响了算法选择不同的侧面来实现对人类智能的模拟。而算法的偏见,则带有价值判断的色彩,更多地指向其应用产生的社会影响。
对于算法的角色和功能,研究者的看法是有多种维度的。有的研究者认为算法可以被视为一种制度化的工具 ,可以产生赋权和约束的功能;也有研究者把算法看成一种中介化的手段 ,认为它类似媒介研究中的把关人,能够影响公共领域和公众舆论的建构,甚至可以完成对现实的重建 ;还有的研究者直指算法背后的商业目的,认为人们更青睐利用算法来进行数据挖掘和消费世界的搭建 。
算法对现实生活各个领域的渗透,使得“算法的权力”变得引人注目。例如,电子商务领域的算法推荐、谷歌的排名和脸书的新闻等,都是引发算法争议的案例。曼诺维奇曾经提到“软件掌控世界”,软件布局了一系列物理的、机械的以及电子的技术,对文化物品进行生产、存储、分发,并且持续与其交互。 这其中,代码和算法起到了关键的作用。
有学者通过对网络广告的发布与犯罪记录的分析得出结论,认为算法在性别、种族或健康状况等方面的展示,产生了具有社会和伦理意义的偏见。 数据科学家凯西·奥尼尔更是将算法视为数学杀伤性武器,强调了许多情境下算法存在的风险,认为人们应该警惕不断渗透和深入日常生活的数学模型,因为它们加剧了偏见与不公,并很有可能威胁社会结构。同时,奥尼尔呼吁不同主体都应承担起相应的责任和义务,以这种方式对抗算法偏见。数据模型的创造者要对算法负责,政策的制定与执行者要慎重对待算法,而普通用户要加强对于大数据与算法模型的认识。 除此之外,还有学者认为可以通过监控算法,使其保证中立,以对抗算法的偏见,但是由于各种力量的左右,公平性的定义很难得到广泛的认同。
上述有关算法偏见的研究多从社会、文化、资本层面探讨其产生的根源。但是作为一种具体的技术实践,它背后还有技术历史发展的种种哲学和逻辑。由于缺乏相关计算机科学的背景知识,算法偏向产生背后的技术逻辑还未引起研究者的足够重视。当前,人工智能正在全面介入我们的日常生活,我国也正朝着人工智能高速发展的道路大步前进。已经有学者开始梳理人工智能发展史,从宏观的人工智能对“意识”的观念认识变迁入手,认为对“意识”的哲学思考影响了技术模拟人脑思维的种种尝试 ;另外,也有学者认为,尽管算法通过机器大规模且高速的运行来即时处理数据的能力引发了人们对于自由意志要败北的恐慌,但其背后所采纳的刺激——行为逻辑,仍然和以往资本追逐利润所青睐的方式一致,并未考量自由意志和伦理 。这些都是从人文学科与社会科学角度积极去探索与技术对话的良好尝试。
本文尝试从人工智能的符号主义范式入手,讨论它如何看待机器计算与人类思维的关系,以及由此引致的算法建构选择;又详细分析算法在操作实践不同层面的偏向,试图提供一种技术哲学—方法论—技术实践的分析框架。
人工智能的概念诞生之初,存在着两个派别的争论,其中一派认为人工智能应当借助符号学习人的思维逻辑过程,被称为符号主义;还有一派认为要通过模拟人脑的神经网络来实现人工智能,被称为联结主义。也就是说,人工智能中的符号主义认为人的智能主要包括逻辑演绎,而人工智能中的联结主义认为人类的智能主要包括归纳总结。
从历史上看,符号主义的产生和一系列理性主义思潮有密切关系。德国哲学家、数学家莱布尼茨有个著名的说法,即大量的人类推理可以被归约为某类运算,而这种运算能够指出谬误或解决看法上的差异。他想象有一套“人类思维符号表”,每一个人类思维的基本概念都可以用一个独特的符号表示。计算机能够操控符号,如果符号代表人类思维的基本概念,那么计算机就可以“思考”,并且能够执行人类的推理。另一位哲学家霍布斯也提出,能思考的机器是把推理与计算等同了起来,他认为,通过推理,他更好地理解了计算,而推理就是加和减。
这一类哲学思潮将人类的思考看成是大脑实现的功能,这种功能可以用其他的机器来实现。计算和理性紧密相关,最有可能模拟人类的理性推理。把有效的推理编码为符号规则,按照理性主义的公理原则来促成大脑功能在计算机当中的实现。这种思潮催生出基于功能模拟的物理符号系统研究这一方法论,让计算机代替人类的某些思维活动正是这种研究方法指导下的巨大成果。
基于功能模拟的物理符号系统的理论基础是“物理符号系统假设”(Physical Symbol System Hypothesis,PSSH),该假设将满足输入符号、输出符号、存储符号、复制符号、建立符号结构、条件转移这六个功能的物理符号系统称为智能系统。人的思维过程和计算机运行过程存在着一致性,都需要完成物理符号处理任务,因此,用计算机来模拟人类思维活动是可行而合理的。 这种思路与英美的经验主义哲学传统接近,它认定人类思想很大程度上是“根据理性原则和推理规则来处理单词” 。计算机首先用机器语言描述物理客体的符号形式,其次通过对符号的操控模拟人脑的逻辑推理功能,最终促成问题的解决。于是对人类智能基本功能的模拟便简化成为智能系统编写算法的过程。
在早期人工智能符号主义思潮的主导下,人工智能科学家认为其能解决一切问题,1957年西蒙和纽厄尔等人研究出的通用问题求解器(General Problem Solver,GPS)不局限于具体的领域,可以解答11种不同类型的问题。但是由于通用领域的知识边界难以划定,这一流派的科学家们转而开发只需要某一专门领域知识的“专家系统”(Expert Systems)。
这种符号主义逻辑主导下的专家系统的算法由两种因素组成,即逻辑和控制。逻辑可以清楚地阐明问题,并且提出解决问题所需要的知识,它影响了算法的意义;控制影响了算法的效率,并且可以通过提高控制效率改进算法,让问题得到快速的解决。
在功能模拟方法的指导下,专家系统形成了自身独特的环节,它的成功搭建要经历知识获取、知识表示、知识推理三个环节 (见图1)。每个环节都对偏向的产生有一定影响,下文将分别探讨每个环节中可能会遇到的问题。
图1 专家系统示意图
专家系统的核心是有能够解决相应问题的知识系统,知识系统的搭建离不开专门知识的获得和知识存储。
首先,从知识源来看,专家系统的成功搭建离不开专家级水平的知识,专家在接受访问的过程中可能会存在表达的偏差。具体领域的专家在处理和解决问题时总是结合自己多年来积累和总结的实践经验,这些经验往往很难用显性的语言表述和描绘,这就会给程序员的工作带来极大的困难。
其次,知识种类的数量会影响知识库中数据的组成结构。例如,为了搭建出一个可以通过学校名称来判断某高校是否为“大学”的专家系统,程序员访问了一个在高校名称方面造诣颇深的专家,专家为工程师提供了一批名字中带有“大学”二字的校名,这些校名组合成为该专家系统的知识库。但这样的专家系统在遇到带有“学院”二字的高校时,并不会将其辨认为大学。
由此可见,由于历史数据或社会中已经存在的刻板印象,相关知识源和知识存储并不全面,这将影响到算法对于事物的判断。亚马逊曾关闭了一个自动筛选简历的软件,主要原因是其所获取的历史招聘信息以雇用白人男性为主,而这可能导致对于女性及有色人种的歧视。
程序员在收集到专家级知识之后,要将其转化成计算机可以识别的语言。那么,将人类的思维过程向计算机精准地表达出来,成了知识表示取得成功的关键点,目前,知识表达有两个层面的局限。
从理论层面看,基于功能模拟的物理符号系统更多的是对抽象逻辑思维的表达,也就是说,依靠符号系统的专家系统无法应用于那些概念不够精确的、模糊的思维过程。例如,为了解决算法目前存在的问题,很多学者都提倡应当赋予算法道德观念,但问题的关键在于我们无法告诉算法“道德是什么”。这不是由于道德的定义所包含的字符过长,计算机无法读取,而是因为道德本身的含义复杂多样,人类尚未确定,更不能向计算机清楚地说明。
从执行层面看,计算机硬件水平的差异可能会导致理论上可行的步骤无法精准表达出来。以专家系统中取得显著成果的棋牌类算法为例,棋盘格数确定、下棋规则确定,就代表着棋盘之上的排列组合是可以穷尽的,那么在这样的情况下,专家系统可以充分发挥其速度快、精度高的特点,通过对数据的筛查迅速找出应对方案。但是在真正的执行过程中,计算机的内存、处理速度等硬件因素会导致它无法处理那么多的情况,从而无法获得全样本的数据库,在对垒中落败。
专家系统的优势在于其知识获取过程与人类的真实学习机制极为相似,但与人类学习不同的是,其只能学习简单的、量化的人类知识,不考虑人类的心理结构和抽象思维过程,因此将意识和行为对立起来,致使人机交互过程中产生偏向。
推理机是知识推理的重要载体。知识推理指的是系统在获得了有关信息和问题的关键词之后,将其与知识库当中的规则相匹配,获得结论,最后输出答案的过程。搜索与匹配是推理机工作的两大基本任务。
将用户的问题转化成机器可以识别的语言,并搜索知识库中可以用到的知识是推理机工作的第一步。与搜索过程同等重要的是将问题规则和数据库的知识进行匹配的过程,后一个过程通过找到目标任务与当前任务处理过程的差异,选择有利于消除差异的操作,逐步缩小差异并达到目标。
但是人类的语言符号天然地具有多义性和暧昧性的特征,语言符号的含义与社会的约定俗成和当时的语境有着极强的关系。与人类语言不同的是,算法只具有形式逻辑计算功能,无法洞悉输入语言背后的社会属性,这为问题的准确编码带来了困难。例如,专家系统就无法对汉语中的一词多义现象作出解释,“早点”既可以表示时间上的早一些,又可以表示早饭,但是推理机无法根据语境理解它到底是哪种意思,两种完全不同的问题在知识库中进行搜索,却与同一条规则相匹配,问题并没有得到有效的解决。搜索与匹配过程中出现错误的结果,将导致输出结果的偏差。
这样的偏向可以被理解为相似度偏向,其与上述两个偏向的不同之处在于机器只是在按照系统设计的流程与步骤执行工作。例如,当下以个性化推送机制为主的信息推送形式的设计宗旨就是按照用户的点击记录为其匹配内容,但是这会导致用户接受信息不平衡的问题,“信息茧房”“同温层效应”正是出自于此。
综上所述,符号主义方法是从模拟人类逻辑思维出发的,更适用于展示高级的智能理解和行为,表现特定领域的知识,其催生的算法也将产生诸如概念不清晰、范围不确定等问题,这直接引致了算法的偏向。
我们认为算法产生的偏向,指的是由于技术发展不成熟等原因,算法在技术开发阶段产生的一系列问题,而偏见指的是带有偏向的技术应用于社会之后带来的影响及后果。因此,在以专家系统为例进行具体的案例分析之后,本文将从更宏观的角度出发,把算法放在人工智能发展史、人的主体选择以及商业利益和社会效益矛盾的大背景下,探讨算法偏向问题的社会历史根源。
从最初只用于军事领域的计算机,到如今的数据和算法,技术的进步不断推动着技术伦理关注焦点发生转变。从历史上看,人工智能领域大致呈现三足鼎立的局面。符号主义认为人工智能源于数理逻辑,企图模拟人类大脑的逻辑结构来加工处理信息知识,前文中讨论的专家系统就是符号主义理论的成功运用,这对人工智能走向工程应用和实现理论联系实际具有重要意义。但是符号主义的知识获取、知识表示,以及知识的处理和应用过程都存在着一定的局限。联结主义源于仿生学,以当前大热的深度学习模式为代表,通过对人脑模型的研究进行数据的计算和处理。但其被公认更适用于干扰少、强监督的机器学习环境中,此外,算法运作过程中存在的黑箱系统以及算法具体的应用范围也是当前联结主义遇到的重要难题。行为主义源于控制论思想,出现于20世纪80年代以后,模拟人在控制过程中的行为,重视反馈的作用,并利用反馈信息调整系统运作过程中的偏差,在智能控制和智能机器人系统方面作出重要贡献。但是行为主义简化了人类的行动过程,即便存在着反馈环节,却忽视了刺激反应之中人的主体性因素的作用,难免会陷入机械环境决定论的泥沼。
以上对于人工智能三大门派的分析表明,不同的思潮各自存在着固有的缺陷和弊端,单纯依靠某一流派的观点或技术基本上不可能实现人工智能的突破性进展 。人工智能是一个整体,真正实现了人工智能的机器是三种学派力量的集合。行为主义可以发挥其宏观的视角,为联结主义指导下的神经网络制定规划,而更贴近人类思维的符号主义则可以弥补微观层面上的不足。这样,各类子系统累加形成巨大的智能网络,才能够实现强人工智能的融合。
相比较而言,机器擅长处理具有家族相似性的事物,即将事物抽象为普遍和一般并进行处理,人则是优于处理非家族相似性的事物,即人类可以从不相识相似的事物中抽取相识相似性。 算法开发过程中,为了追求普适性,机器会把特定的符号从特定的文化背景中抽离,归纳为相似的特征,这样难免会产生偏向。
从算法的开发及运行过程来看,这涉及四个方面的问题,第一是社会根源问题的追溯,例如公平与歧视的区隔,符号多义性带来的隐含偏见等。这是一个持续不断的过程,需要我们一起努力。第二是技术根源的多样性问题,包括数据多样性和技术人员的多样性。保持数据的多样性是从源头解决算法偏向问题的方法之一,如果数据集的种类不够多样,那么将会导致系统决策的偏向,从而使得偏向永存。算法应该为所有类型的人构建,保证技术人员的多样性,即保证种族、性别认同、宗教和社会经济背景的多样性,可以使得算法开发过程中始终存在不一样的声音。第三是完善流程设计过程。通常深度学习模型在应用之前会进行性能检测,这被认为是解决偏向的重要手段,但实际操作中一组数据通常会被一分为二,一部分用于训练机器,另一部分被用于性能检测,这样的两部分数据源于同样的收集过程,拥有相同的偏差,性能检测并没有发挥作用。因此,这就需要技术人员进行完善的流程设计。第四是明确算法的应用领域。社会科学讲究因地制宜、具体问题具体分析,但是计算机科学往往追求某一系统在多领域多环境下的通用性,例如源自于司法领域的算法被应用于求职过程。不同的思考方式导致了偏向问题的产生,算法工程师应当纠正旧思想,明确不同算法的适用领域,纠正偏向。
人工智能系统的开发和修复完全取决于人类智能,因此为了应对算法的偏向问题,不过分依赖数据,重视人类智能的重要性,实现人机融合才是行之有效的解决方向。
目前,许多核心算法技术主要由营利性公司开发和管理,这些核心技术同样被视为公司重要的知识产权。资本驱动下,商业利益和社会效益很难达到平衡。
首先,算法问责制与隐私权之间存在矛盾。一方面,出于保护公司核心机密的目的,算法无法实现真正的公开透明。另一方面,公开过多与有关算法工作原理有关的信息可能会为别有用心之人提供便利。而且,对透明度的要求还与多年以来人们为保护隐私而做的努力有冲突。其次,企业经济利益与社会效益二者难以平衡。为了留住更多用户,算法将不顾可能会产生的社会后果,充分发挥其“优势”。“你关心的,才是价值”这类口号正是这种思想的产物,而单一的信息推送将导致用户过度追求片面信息的满足。
为了避免泄露商业机密、维护企业商业利益,建立权威的第三方监管机构是行之有效的监管办法,这在一定程度上可以打破各方争执不休的僵局,使问题得到解决。例如,2018年4月,AI Now研究所为有意使用算法进行决策的公共机构制定了一个框架,以此监督算法在公共领域中的应用。 也有一些科学家尝试从外部发现商业算法中存在的偏向,计算机科学家Christo Wilson创建了一个使用Uber平台叫车的虚拟乘客,还将虚拟简历上传到求职网站中,以测试这些应用程序背后运行的算法是否存在性别偏见 。
加强法规治理,重视外部监管的力量,是平衡算法透明与隐私权,实现商业利益与社会效益双赢的重要平衡点。
算法技术的突破与发展始终要为人类社会发展服务,算法应当成为使日常生活的更加便捷高效的工具,而不应成为社会问题的放大镜。算法带有深刻的社会文化及历史烙印,随着它和社会生活的进一步交融,可能会有更多的新问题产生,由此来看,要真正克服算法偏向,就必须有持续观察算法与社会互动行为的机制,形成算法与社会互塑的公共空间,以增强人类对于算法的认识,提高算法的开放性,寻求人与算法的和平共处之道,让算法真正为社会服务。
〔黄佩,北京邮电大学数字媒体与设计艺术学院教授,网络系统与网络文化北京市重点实验室副主任;贾文颖,中国教育报刊社海外传播中心编辑〕
〔特约编辑:叶明睿〕
[1]
文本系国家社科基金项目“我国青少年网络舆情的大数据预警体系与引导机制研究”(项目编号:20&ZD013)、2021北京邮电大学研究生“传播学理论专题研究”专业课程建设(项目编号:2021ZY147)的阶段性成果。
本文得到北京邮电大学张春红老师的大力支持和帮助,作者在此深表感谢。