机器学习教程(微课视频版)最新章节_张旭东著

第1章
机器学习概述

本节介绍机器学习（machine learning，ML）的基本概念，并通过一些简单实例说明这些概念。机器学习内容庞杂，所涉及的概念繁多，为了让读者对机器学习有一个基本的认识，本章对机器学习的类型、所要面对的主要问题和关键性术语给出一个入门性的介绍，在后续各章节再对各种模型和算法展开详细介绍。

视频讲解

1.1　什么是机器学习

机器学习的本质是能够从经验中学习。若给机器学习下一个定义，可引用Mitchell在机器学习的第一本教材 Machine Learning 中给出的定义：对于某类任务T和性能度量P，一个计算机程序被认为可以从经验E中学习是指，通过经验E的改进后，它在任务T上由性能度量P所衡量的性能有所提高。大多数机器学习算法所指的经验是由数据提供的。

通过图1.1.1的基本结构流程并结合一个具体实例，简要说明机器学习的过程和主要组成部分。

图1.1.1　一个机器学习系统的基本结构流程

用机器学习解决一个实际问题，第一步就是收集数据。根据任务不同，收集数据的方式各有不同。收集到数据以后，不是所有数据都是可用的，要对数据进行选择和预处理，规范数据结构，删除一些不合格的数据等。

例如，设计一个某地区花卉识别软件，靠自己收集的花卉图片一般是不够的，可以通过一个网站收集旅游爱好者提供的图片，但这些图片不一定都是合格的，要删除一些不合格图片。将保留下的图片集合进行规格化，得到格式规范的数据集。在这个花卉识别的例子中，收集的照片可能有单反相机拍摄的高清晰图片，也有入门型手机拍摄的低质量图片，目前机器学习算法大多对这种分散度很高的输入数据缺乏适应性，需要通过预处理将所有图片剪裁成统一大小的图片，像素的取值范围也规格化到统一的范围。

完成如上预处理后，根据应用需要，可能要对数据样本做标注。对于花卉识别的例子，机器学习需要从样本集中学习给一幅图片命名的规则，相当于一个教师教会软件识别各种花卉的名称，这需要对样本集中各样本代表的花卉品种做人工标注，标明其名称（监督学习）。机器学习通过这些带标注的样本集学习出一个模型，若通过学习过程确定了模型，当使用者给出一幅新的花卉图片时，机器学习软件可推断出其名称。

数据收集和预处理因与应用密切关联，不在本书的进一步详细讨论范围之内。数据预处理后，可能直接使用这个数据，也可能从这个数据中抽取特征向量，将特征向量作为机器学习的输入。本书为了名词统一起见，总将对输入的表示称为特征向量。

模型选择和模型学习是机器学习的核心，也是本书的核心。这里所谓模型是指机器学习最终需要确定的一种数学表示形式。目前人们已经提出了多种不同的机器学习模型或假设，例如线性回归、神经网络、支持向量机等，后续章节会详细介绍这些模型。对于一个机器学习任务，一般会选定一种模型，例如目前图像识别首选的一般是神经网络模型，尤其是卷积神经网络（convolutional neural network，CNN）。选定模型后，使用已收集并预处理的数据集，通过机器学习的算法确定模型，这可能是非常复杂的过程，包括训练、验证和测试等过程，甚至还需要在模型选择和模型学习之间反复迭代多次。学习并确定模型的过程可称为学习过程或训练过程。

当机器学习模型确定后，该模型可用于对新的输入做出结果推断，这一阶段也称为预测。例如，以上花卉软件可以做成手机App，当手机拍摄了新的花卉照片后，输入给这个模型，该模型可输出花卉的名称。机器学习的这个应用阶段可称为推断过程或预测过程。

在一般的机器学习算法中，学习过程和推断过程的复杂度是不平衡的。大多数机器学习算法需要大量数据进行学习，耗费大量计算资源，但推断过程往往简单快捷。例如花卉识别系统，为了得到好的应用体验，可能需要收集超过百万张花卉图片，通过人工标注，在高速计算机上反复调试训练，才能确定模型。但当模型确定后，在手机上对一幅新拍摄的图片做推断只需要秒级运算。

一个机器学习系统进入应用后，其使用体验可以反馈给设计者，设计者收集到反馈信息和更多数据后可进一步改进并更新系统。

结合图1.1.1和以上介绍，将一个机器学习系统简单归结为几部分：①数据收集和预处理；②模型选择；③模型学习或训练；④模型推断和预测，即模型应用。

本书作为机器学习的基础教材，主要关心机器学习模型的学习和模型推断，故在后续章节进一步讨论以上的第②～④部分。至于数据收集和预处理，若需要解决的是一个实际问题，则需要从实际环境中收集数据，这与实际问题密切相关且千变万化，不是本书讨论的重点。需要注意，在机器学习的发展过程中，针对典型应用并为了方便研究，有多个组织公布了各类标准数据集可供使用，用于实验和评估算法。在课程的学习中，也可使用这些数据集完成实践作业，关于标准数据集的进一步说明，可见1.3节。

机器学习应用在非常广泛的领域，其中应用较深入并为人们熟悉的领域有图像分类和识别、计算机视觉、语音识别、自然语言处理（如机器翻译、人机对话）、推荐系统、网络搜索引擎等。此外，还有无人系统领域，如智能机器人、无人驾驶汽车、无人机自主系统等，以及一些更加专用的领域，如通信与信息系统领域（通信、雷达等的信号分类和识别、通信信道建模等）、生命科学和医学、机械工程、金融和保险、物流航运等。

由于应用广泛，众多领域的科技工作者对机器学习的贡献使得该领域所涉及知识已非常广泛和深入，本书仅仅通过基本原理和常用算法给出机器学习的导论性介绍。

第1章 机器学习概述

1.1 什么是机器学习

第1章
机器学习概述

1.1　什么是机器学习