监督学习的应用主要在三个方面:分类问题、标注问题和回归问题。
分类是监督学习的一个核心问题。在监督学习中,当输出变量 Y 取有限个离散值时,预测问题便成为分类问题。这时,输入变量 X 可以是离散的,也可以是连续的。监督学习从数据中学习一个分类模型或分类决策函数,称为分类器(classifier)。分类器对新的输入进行输出的预测,称为分类(classification)。可能的输出称为类别(class)。分类的类别为多个时,称为多类分类问题。本书主要讨论二类分类问题。
分类问题包括学习和分类两个过程。在学习过程中,根据已知的训练数据集利用有效的学习方法学习一个分类器;在分类过程中,利用学习的分类器对新的输入实例进行分类。分类问题可用图1.10描述。图中( x 1 , y 1 ),( x 2 , y 2 ),…,( x N , y N )是训练数据集,学习系统由训练数据学习一个分类器 P ( Y | X )或 Y = f ( X );分类系统通过学到的分类器 P ( Y | X )或 Y = f ( X )对于新的输入实例 x N +1 进行分类,即预测其输出的类标记 y N +1 。
图1.1 0分类问题
评价分类器性能的指标一般是分类准确率(accuracy),其定义是:对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。也就是损失函数是0-1损失时测试数据集上的准确率(见式(1.21))。
对于二类分类问题常用的评价指标是精确率(precision)与召回率(recall)。通常以关注的类为正类,其他类为负类,分类器在测试数据集上的预测或正确或不正确,4种情况出现的总数分别记作:
TP——将正类预测为正类数;
FN——将正类预测为负类数;
FP——将负类预测为正类数;
TN——将负类预测为负类数。
精确率定义为
召回率定义为
此外,还有 F 1 值,是精确率和召回率的调和均值,即
精确率和召回率都高时, F 1 值也会高。
许多统计学习方法可以用于分类,包括 k 近邻法、感知机、朴素贝叶斯法、决策树、决策列表、逻辑斯谛回归模型、支持向量机、提升方法、贝叶斯网络、神经网络、Winnow等。本书将讲述其中一些主要方法。
分类在于根据其特性将数据“分门别类”,所以在许多领域都有广泛的应用。例如,在银行业务中,可以构建一个客户分类模型,对客户按照贷款风险的大小进行分类;在网络安全领域,可以利用日志数据的分类对非法入侵进行检测;在图像处理中,分类可以用来检测图像中是否有人脸出现;在手写识别中,分类可以用于识别手写的数字;在互联网搜索中,网页的分类可以帮助网页的抓取、索引与排序。
举一个分类应用的例子——文本分类(text classification)。这里的文本可以是新闻报道、网页、电子邮件、学术论文等。类别往往是关于文本内容的,例如政治、经济、体育等;也有关于文本特点的,如正面意见、反面意见;还可以根据应用确定,如垃圾邮件、非垃圾邮件等。文本分类是根据文本的特征将其划分到已有的类中。输入是文本的特征向量,输出是文本的类别。通常把文本中的单词定义为特征,每个单词对应一个特征。单词的特征可以是二值的,如果单词在文本中出现则取值是1,否则是0;也可以是多值的,表示单词在文本中出现的频率。直观地,如果“股票”“银行”“货币”这些词出现很多,这个文本可能属于经济类;如果“网球”“比赛”“运动员”这些词频繁出现,这个文本可能属于体育类。
标注(tagging)也是一个监督学习问题。可以认为标注问题是分类问题的一个推广,标注问题又是更复杂的结构预测(structure prediction)问题的简单形式。标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。标注问题的目标在于学习一个模型,使它能够对观测序列给出标记序列作为预测。注意,可能的标记个数是有限的,但其组合所成的标记序列的个数是依序列长度呈指数级增长的。
标注问题分为学习和标注两个过程(如图1.11所示)。首先给定一个训练数据集
这里, , i =1,2,…, N ,是输入观测序列; ,…, 是相应的输出标记序列; n 是序列的长度,对不同样本可以有不同的值。学习系统基于训练数据集构建一个模型,表示为条件概率分布:
这里,每一个 X ( i ) ( i =1,2,…, n )取值为所有可能的观测,每一个 Y ( i ) ( i =1,2,…, n )取值为所有可能的标记,一般 n≤N 。标注系统按照学习得到的条件概率分布模型,对新的输入观测序列找到相应的输出标记序列。具体地,对一个观测序列 找到使条件概率 最大的标记序列 。
图1.1 1标注问题
评价标注模型的指标与评价分类模型的指标一样,常用的有标注准确率、精确率和召回率。其定义与分类模型相同。
标注常用的统计学习方法有:隐马尔可夫模型、条件随机场。
标注问题在信息抽取、自然语言处理等领域被广泛应用,是这些领域的基本问题。例如,自然语言处理中的词性标注(part of speech tagging)就是一个典型的标注问题:给定一个由单词组成的句子,对这个句子中的每一个单词进行词性标注,即对一个单词序列预测其对应的词性标记序列。
举一个信息抽取的例子。从英文文章中抽取基本名词短语(base noun phrase)。为此,要对文章进行标注。英文单词是一个观测,英文句子是一个观测序列,标记表示名词短语的“开始”、“结束”或“其他”(分别以B,E,O表示),标记序列表示英文句子中基本名词短语的所在位置。信息抽取时,将标记“开始”到标记“结束”的单词作为名词短语。例如,给出以下的观测序列,即英文句子,标注系统产生相应的标记序列,即给出句子中的基本名词短语。
输入:At Microsoft Research,we have an insatiable curiosity and the desire to create new technology that will help de fine the computing experience.
输出:At/O Microsoft/B Research/E,we/O have/O an/O insatiable/B curiosity/E and/O the/O desire/BE to/O create/O new/B technology/E that/O will/O help/O de fine/O the/O computing/B experience/E.
回归(regression)是监督学习的另一个重要问题。回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。回归模型正是表示从输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合:选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据(参照1.4.2节)。
回归问题分为学习和预测两个过程(如图1.12所示)。首先给定一个训练数据集:
这里, x i ∈ R n 是输入, y ∈ R 是对应的输出, i =1,2,…, N 。学习系统基于训练数据构建一个模型,即函数 Y = f ( X );对新的输入 x N +1 ,预测系统根据学习的模型 Y = f ( X )确定相应的输出 y N +1 。
图1.1 2回归问题
回归问题按照输入变量的个数,分为一元回归和多元回归;按照输入变量和输出变量之间关系的类型即模型的类型,分为线性回归和非线性回归。
回归学习最常用的损失函数是平方损失函数,在此情况下,回归问题可以由著名的最小二乘法(least squares)求解。
许多领域的任务都可以形式化为回归问题,比如,回归可以用于商务领域,作为市场趋势预测、产品质量管理、客户满意度调查、投资风险分析的工具。作为例子,简单介绍股价预测问题。假设知道某一公司在过去不同时间点(比如,每天)的市场上的股票价格(比如,股票平均价格),以及在各个时间点之前可能影响该公司股价的信息(比如,该公司前一周的营业额、利润)。目标是从过去的数据学习一个模型,使它可以基于当前的信息预测该公司下一个时间点的股票价格。可以将这个问题作为回归问题解决。具体地,将影响股价的信息视为自变量(输入的特征),而将股价视为因变量(输出的值)。将过去的数据作为训练数据就可以学习一个回归模型,并对未来的股价进行预测。可以看出这是一个困难的预测问题,因为影响股价的因素非常多,我们未必能判断到哪些信息(输入的特征)有用并能得到这些信息。