隐私保护机器学习最新章节_王力著

1.3　人工智能与机器学习

1.3.1　人工智能发展历程

人工智能，顾名思义，它致力于解析人类本身的智能并将这种智能赋予造物，从而创造出能够容纳并运用人类智能的机器。机器学习则是目前人们实现人工智能的核心方法，它主要研究机器如何通过算法效仿人类的学习行为，从而能够从海量的数据样本中学习到有价值的信息，进而完成设定的任务。人工智能的发展历程可以分为推理期（20世纪50年代到70年代）、知识期（20世纪70年代中期到20世纪80年代）和学习期（20世纪80年代至今）三个主要阶段。

1950年，艾伦·图灵提出了著名的“图灵测试”：让一台机器回答由人类提出的一系列问题，如果机器的回答能够以至少30%的概率使人类误判其为人类，则这台机器就通过了测试并可以认为具有人类的智能。之后的1956年，“人工智能”这一概念在美国达特茅斯大学一场为期两个月的讨论会上被提出，这也标志着“人工智能”这门学科的正式诞生。在这一最初时期，逻辑推理是机器实现智能的主流研究方向，这一阶段的代表性工作有A. Newell和H. Simon的“逻辑理论家”程序 ^[2] 及此后的“一般问题解决器”程序等。由于对机器逻辑推理能力的强化，这一时期的工作在数学问题的证明和求解方面的表现令人惊讶。除此之外，这一时期也出现了“连接主义”机器学习的萌芽。1957年，F. Rosenblatt提出了第一个计算机神经网络数学模型——感知机，该感知机能够通过迭代纠错解决线性分类问题 ^[3] 。

在那之后，基于逻辑推理的人工智能研究渐渐沉寂，因为人们逐渐意识到，真正的智能不仅仅是逻辑推理，机器更无法仅凭借逻辑推理能力实现人工智能。与之相对地，人们开始尝试直接将人类所能认知的各种知识直接赋予机器。20世纪70年代左右，人工智能进入“知识期”，这一阶段的代表性工作是大量应用各领域专业知识的专家系统。1968年，美国科学家Feigenbaum等研制出化学分析专家系统程序DENDRAL，它能够分析实验数据来判断未知化合物的分子结构。1976年，美国斯坦福大学Edward Shortliffe等人发布了医疗咨询系统MYCIN ^[4] ，可运用医疗专家知识帮助医生对患有血液感染疾病的患者进行诊断。这一时期被研制出的专家系统涵盖了生产制造、财务会计、金融等多个领域。1984年，大百科全书（CYC）项目立项，该项目试图将人类当时的所有常识都输入计算机并建立一个巨型数据库以进行知识推理。

但是，专家系统面临着“知识工程瓶颈”，将人类知识尤其是海量庞杂的专业知识数据整理并赋予机器，这本身就是一个艰巨的挑战。一个自然的想法是，相比把所有知识教给机器，能否让机器自身具有学习知识的能力呢？这就是机器学习。机器学习可以分为有监督学习和无监督学习，上面提到的感知机就是有监督学习的早期尝试之一。20世纪80年代是机器学习技术发展的重要阶段，这一时期各种机器学习技术百花齐放，基于“符号主义”与“连接主义”的机器学习都取得了重大进展。决策树学习（Decision Tree）就是这一阶段的重要成果之一。1984年，Breiman等提出分类回归决策树（CART） ^[5] ；1993年，Quinlan提出C.45决策树 ^[6] 。“连接主义”机器学习方面，1986年，Rumelhart等在Nature上发表了著名的反向传播（BP）算法 ^[7] ；1989年，Yann LeCun提出了著名的卷积神经网络（CNN）模型 ^[8] 并将其与反向传播算法结合，成功进行了英文手写体识别。

20世纪90年代，统计学习正式登上历史舞台，统计机器学习是近年来被广泛应用的机器学习方法。由于现实世界问题的复杂性和多样性，对于某些问题我们并不能完全根据其背后的科学原理进行精确建模分析，但是当我们获得对其足够多的观测数据，就没有必要对其建立严格的物理模型——我们可以使用数学统计的方法利用这些数据进行建模，这类模型虽然解释性欠佳，但是在庞大数据量的支撑下，不但易于构建并且往往能够取得不错的表现，统计学习就是这样一种基于数据和统计的“黑箱”方法。

统计机器学习中最具代表性的是支持向量机（SVM）和深度学习（Deep Learning）。支持向量机在1995年由Vapnik和Cortes提出 ^[9] ，直到今天，基于核函数的支持向量机仍然是解决非线性分类问题的重要方案之一。而2006年，Hinton等人整合了神经网络机器学习研究领域的诸多进展并提出了深度学习算法 ^[10] ，大大提高了神经网络的能力。深度神经网络能够高效进行音频、图像等复杂对象的处理，使机器学习的性能迈上了一个新的台阶。

得益于机器学习算法性能的不断进步，2010年以来，人工智能的进步日新月异，海量智能应用出现在我们的日常生活当中。直到今天，以深度神经网络为代表的人工智能算法取得了爆发式发展，在学术研究领域和工业应用领域一次次取得崭新突破，成为了当代计算机应用领域当之无愧的闪耀明星。

1.3.2　人工智能应用现状

人工智能经过长达近70年的发展在今天已经在社会的方方面面得到了广泛应用，带来了诸多技术变革，其中具有代表性的技术包括知识图谱、自然语言处理、计算机视觉、生物特征识别等。

知识图谱知识图谱与专家系统具有相似性，它本质上是结构化的人类语义知识库。对于库中的条目，我们不但要描述它的文本属性，还要丰富它的其他属性，拓展它与其他事物的联系。这样机器存储的就不只是某件事物本身，还包括了与之相关的先验知识，这样做的意义在于机器能够记住。

自然语言处理自然语言处理致力于使得用户能够用自然语言与机器进行交流，从而使人免于付出更多的时间成本学习机器语言，降低人与机器的沟通成本。当前深度神经网络技术在自然语言处理领域发挥着重要作用。2018年，Google发布了Bert预训练模型 ^[11] ，将当前自然语言处理水平提高到了一个崭新的高度。

计算机视觉计算机视觉是指使计算机通过模仿人类视觉系统从而获得类似的能力。该问题的焦点在于如何使机器与人类一样能够识别并理解甚至学习图像及视频中的关键信息。深度神经网络的面世极大地促进了计算机视觉领域的发展。当前深度神经网络已经成为机器认知理解图像或视频的重要工具，在人脸识别、目标检测等与我们日常生活关系紧密的领域中发挥着举足轻重的作用。

生物特征识别生物特征识别指利用个体独特的生理或行为特征进行身份识别与认证。个体生物特征识别具有安全、便捷、有代表性、不易伪造等多重优点，能够满足多种场合的身份认证需要，在安保、交通、办公、智能产品等领域已经广泛投入使用。当然，选择合适的生物特征作为识别对象对于现实应用十分重要，目前适合用于生物特征识别的个体体征包括指纹、虹膜、人脸、步态等。

1.3 人工智能与机器学习

1.3.1 人工智能发展历程

1.3.2 人工智能应用现状

1.3　人工智能与机器学习

1.3.1　人工智能发展历程

1.3.2　人工智能应用现状