购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.1 机器学习的定义

何谓机器学习?1959年,Arthur Samuel定义机器学习为:计算机在不直接编程的情况下,自动学会如何完成任务 。通过编程,我们直接告诉计算机该怎么完成任务。一旦任务超过编程时考虑的范围,程序将无法保持稳定性,我们称这种方式为编程驱动。使用编程驱动的方法,也许可以计算出A到B的最短路径,但却不能直接“指导”计算机如何分类图片,因为我们不可能让计算机涵盖世界上所有图片的特征。相反,基于数据驱动而非编程驱动的方式,让计算机从数据中“学习”规律,进而能够完成某项任务或工作。

举个简单的例子,假设小明的乒乓球技术很好但篮球技术却很差,如果翻译“小明的乒乓球谁也打不过”,通过编程驱动的方式,可以设计一个语法分析树,逐一分析每个中文的词性,根据词性再直译成英文为No one can beat Xiao Ming in table tennis;“小明的篮球谁也打不过”该怎么翻译呢?通过分析语法来解析句子,再直译,显然得不到想要的翻译结果。

如果采用机器学习方式,事先把小明的篮球和乒乓球等相关数据全部输入计算机中,通过“统计+数据”的方法训练一个决策模型,如图1.1所示,该模型结合所输入的数据,“学”到小明篮球差这个事实,从而能够正确翻译。

图1.1 数据驱动方法与程序维护法在汉语翻译上的区别

可能有人会反驳说,如果知道小明的篮球差,那么在用编程驱动的方法翻译语句时,只要设置一个条件语句不就行了吗?区别就在这里,编程驱动需要让我们知道“小明篮球差”这一点,从而在编程时预防性地增加一个条件语句。而机器学习则不然,它并不需要程序员认识小明,它只需要有关小明的数据即可。

因此,这里给机器学习下一个定义:所谓机器学习,是计算机使用数据驱动的方法,训练出一个令人满意的模型,从而使用模型完成各种需要一定“知识”的任务。

1.1.1 机器学习的相关学科

在谈到机器学习时,经常会提及人工智能、大数据、数据挖掘和深度学习等相关概念。所谓大数据,简单来说就是海量的数据。随着网络普及和Web技术的发展,计算机算力飞速提升而存储器价格不断下跌,获取海量的数据已不再是什么难事,数据库技术也使得管理庞大的数据不再困难,大数据是人工智能等相关学科的支撑。假设小明是一个国际明星,那么可以很容易地获取到与他相关的许多数据。如果小明是一个普通人,因为缺乏相关数据,应用机器学习的方法则变得举步维艰。

数据挖掘(data mining)是从海量的数据中挖掘知识的一项技术,其包括机器学习、统计学习和数据库技术等。而人工智能更像一门科学,旨在为机器赋予视觉、听觉、触觉和推理等智能。人工智能(AI)不在乎如何实现,而在于能否实现。因此,无论直接编程还是数据驱动,只要能实现机器智能,都可称之为人工智能技术。在全球畅销书《人工智能:一种现代的方法》中便花费了大量篇幅介绍编程驱动的方法。如图1.2所示,人工智能是广义的概念,它与电信、电子、自控和统计学都有联系。数据挖掘是以数据驱动为主,从数据中挖掘知识的技术,是人工智能的一个子集。大数据作为数据驱动方法的支撑,也是人工智能得以迅速发展的支柱。

图1.2 大数据、人工智能与数据挖掘的关系

机器学习是人工智能的一种计算方法,而深度学习(deep learning)则是以神经网络为主的机器学习方法之一,三者为从属关系,如图1.3所示。

图1.3 人工智能机器学习和深度学习的关系示意

例如,在2012年ImageNet比赛中斩获优胜的AlexNet便是一种多层、多节点的卷积神经网络,也由此引发了深度学习的热潮。2015年微软提出的神经网络模型在分类任务中的错误率仅为4.9%,这个数字已经小于人类的错误率(5.1%)。再如,2016年战胜李世石的AlphaGo也应用了深度强化学习的技术。由此可见,深度学习技术作为机器学习技术之一,正逐渐成为信息时代的主流技术。

1.1.2 机器学习与统计学习

同样是基于数据+统计的方法,从数据中寻找知识的技术,机器学习与统计学习有何区别呢?实际上,自机器学习出现以来,其与统计学习之间的关系至今没有定论。有人说“机器学习是大数据时代的统计学”,也有人认为“机器学习即统计学习”,还有人说“机器学习是被鼓吹出来的统计学习”,又“有人认为统计学习是一种小样本的机器学习”。

有学者则认为统计学习与机器学习的侧重点不同,统计学习关注的是模型参数的准确性,对未知数据的预测效果就没有那么重要了;而机器学习具有明确的目标,即提升模型的实用性。综合各种文献资料,我们总结出统计学习与机器学习的大致区别,如表1.1所示。

表1.1 统计学习和机器学习的区别 IZ0LpIbJgWpZNg36RGLUakqW9rhN2vjBxVfRNj4g7QiwSuc2lz7OKii+oq2znkyA

点击中间区域
呼出菜单
上一章
目录
下一章
×