机器学习的算法分析和实践最新章节_孙健著

4.1 逻辑回归概述

线性回归针对的问题是其输出的结果为连续性变量。针对分类问题，其输出的结果为离散变量，所以无法直接使用线性回归的办法。例如，一个典型的回归问题，给定一组数据

（ x ₁ ，y ₁ ），（ x ₂ ，y ₂ ），···，（ x _n ，y _n ）

其中，但 y _i ∈{-1，1}为两个点的离散变量。如何选取函数空间以及损失函数成为解决问题的核心。首先来看损失函数，因为 y _i 取值为离散型，所以不能使用

接下来采用概率论的思维研究这个问题。假设对于两个随机变量（ X，Y ），它们之间有联合分布 p （ x，y ），其中 Y 取值两个点。给出独立随机抽样的样本

（ x ₁ ，y ₁ ），（ x ₂ ，y ₂ ），···，（ x _n ，y _n ）

试计算条件概率分布函数 p （ y | x ）。从条件概率的公式可知，这等价于计算 p （ y =0| x ），p （ y =1| x ）两个函数。如果令

f （ x ）= p （ y =0| x ）

则当 y =1时，有

1- f （ x ）= p （ y =1| x ）

使用一个关于 x 的函数来判别 y 的取值，可以看成是一个判别模型。这点有别于后面会讲到的生成模型。显然，满足这样条件的函数应满足0≤ f （ x ）≤1，另外，足够光滑的函数应该使得应用更加方便。为此，假设一个函数形式兼顾线性以及作为概率分布函数介于0∼1且足够光滑的约束。考虑一个把实数映射到（0，1）之间的函数

复合上一个线性函数 y = w ^T x + b ，就有

这个函数可以看成一个概率

为了简化记号，还是采取升维的方法，那么就可以省略 b ，从而写成

这样，所有样本的密度函数就是

再一次应用极大似然估计的想法，使得希望求解

或者在定义损失函数为- l （ w ）以后，化为极小化损失函数的问题。对上述问题求解，首先可以用对数函数做变换，即

但是，这个函数的极值是没有办法用闭形式解来给出的，所以只能求助于数值方法。这个函数表达不是 w 的一次函数，从而不可能使用线性规划方法求解，也不是二次函数，所以也不可能使用二次规划方法求解，但是可以使用梯度下降法来求解这个优化问题。

另外，既然让 Y 取值为{-1，1}，同时定义

对于这个特殊形式的函数，有

所以当 y _i 取{-1，1}时，也可以看成目标是

线性回归和逻辑回归都是使用线性的函数作为假设函数。线性回归有简单闭形式的解，但是逻辑回归没有简单闭形式的解，所以必须使用数值方法解答。最简单的数值方法就是梯度下降法，该方法在以后会进行介绍。重点是这里有待优化的损失函数是个凸函数，所以最小值存在并且唯一，并不会有神经网络常见的局部极小值的情况。

当得到了 f （ x ）= P （ y | x ）以后，该如何分类呢？直观的办法是，如果 f （ x ）＞0.5，则分类 y =1，但是有1- f （ x ）的概率为 y =-1。下面进行更严格的证明。

假设正确的概率函数是 f （ x ），即

P （ y =1| x ）= f （ x ）

定义

显然对于这个分类方法，如果 f （ x ）＞0.5，则分类 y =1，但是有1- f （ x ）的概率为 y =0，从而错误率是1- f （ x ）。反之，如果 f （ x ）＜0.5，则判断 y =-1，但是有 f （ x ）的概率为 y =1。所以，无论 f （ x ）是多少，错误率都是

min（ f （ x ），1- f （ x ））

现在，如果有任何一个关于 x 的分类函数，根据函数判断 y =-1时，总有 f （ x ）的可能性为 y =1，同理，当判断 y =1时，总有1- f （ x ）的可能性为 y =-1。所以，无论分类函数是多少，错误率不是 f （ x ）就是1- f （ x ）。显然，这样的错误率比起min（ f （ x ），1- f （ x ））来得大，因此上述判断是最优的。