购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

4.1 线性回归概述

学者法兰西斯·高尔顿(Francis Galton)最早在19世纪提出了回归的概念,用来描述人群的遗传特征“回归”到平均值这一规律。现代统计学意义上的回归分析已经发展成为完全不同的概念。现代意义的回归分析是一种构建预测模型的方法,研究如何定量描述自变量和因变量之间的关系。我们可以将其理解为函数拟合。假设自变量和因变量之间存在某种函数关系,当我们用定量的数学形式去描述这种关系时,有一些参数是未知的。根据实际数据选取合适的参数,使得自变量和因变量之间的函数关系贴近真实观察值,这就是回归分析。当自变量和因变量之间的关系为线性函数时,这种回归分析称为线性回归。完成回归分析后,我们可以利用得到的定量函数关系,根据给定的自变量计算出对应的因变量。而对于没有观察过的自变量取值,回归分析可以预测因变量的值。

人工智能要解决的很多问题都可以看作回归问题:对于一定的输入(自变量),预测对应的输出(因变量)。输入可以是图像、音频序列、文本,输出则可以是图像中包含某种物体的概率、某种物体在图像中的位置、声音中包含某词汇的概率、声音表达的某种情绪的程度、文本中包含要搜索的目标信息的概率、文本是某种语言的概率等。

下面看一个预测餐厅套餐价格的问题。我们有一些餐厅的数据,分别是餐厅座位数量、当地食材采购价格、员工平均薪资和午饭套餐价格,如表4.1所示。我们希望建立一个模型,根据座位数量、食材价格和员工薪资估计合理的套餐价格。

表4.1 餐厅套餐价格数据

066-1

从数据可以看出,随着餐厅规模(座位数量)的增长,单位成本也许有所下降,套餐价格有下降趋势;而食材价格和员工薪资都是餐厅的成本,它们与套餐价格呈正相关,如图4.1所示。如果单独用三者中的任何一项,都可以对套餐价格进行估计。估计的方法是找到一条最符合数据点分布的直线,坐标横轴是自变量(如食材价格),纵轴是因变量(如套餐价格),对于给定的自变量,直线上对应的点可以告诉我们因变量的估计值。然而,通过单一的变量进行的估计是非常不准确的,我们希望能够利用多个维度的自变量来进行估计。这时,这些自变量和因变量构成了一个多维空间,我们要找到一个最符合数据点分布的多维平面(超平面),利用这个平面对因变量的取值进行预测。

067-1

图4.1 餐厅座位数量、食材采购价格、员工薪资水平与套餐价格的关系 72uHW2YaXOoqb7YBqfPhUfx1h2f5KS/jyWXAgvEY13pA7PJWuuyxLggRQq/QxksU

点击中间区域
呼出菜单
上一章
目录
下一章
×