解决线性回归问题的方法叫作最小二乘(least square)法。这个方法的名称说明了它的目标,也就是最小化误差的平方和。
首先来看只有一个自变量(或者说自变量只有一维)的简单情况。设自变量为x,因变量为y,数据是若干对(x (i) ,y (i) )(我们用带括号的下标表示样本或者数据条目的编号,把普通下标留到后面处理多特征样本或者多维度数据时,作为特征或者维度的编号)。我们希望得出线性关系y=wx+b。显然,无法使得每一个样本都精确满足y (i) =wx (i) +b,只能使误差尽量小。假设有N个样本,那么总的误差E表示如下(1/2是为了方便求导数)。
我们发现误差是w和b的二次函数,而二次函数的极值点是导数为0的位置。因此,可以设导数为0,然后求解方程。
这是一个二元一次方程组,其中只有w和b两个变量,可以得到下面的解。
现在我们可以根据不同因素对套餐价格分别做出估计。