回归分析是利用数据统计原理,对大量统计数据进行数学处理,并确定变量与某些变量的相关关系,建立一个相关性的回归方程(函数表达式),并加以外推,用于预测今后因变量变化的方法。
根据因变量和自变量的函数表达式回归分析可分为:线性回归分析、非线性回归分析。
根据因变量和自变量的个数,回归分析可分为:一元回归分析、多元回归分析、逻辑回归分析和其他回归分析等。
线性回归分析是回归分析中最基本的方法,遇到非线性回归分析时,可以借助数学手段将其化为线性回归,一旦线性回归问题得到解决,非线性回归问题也就迎刃而解了。如取对数使乘法变成加法等,有一些非线性回归也可直接进行,如多项式回归等。有一些模型无论采取什么方式变换都不能实现线性化,对这些模型一般采用高斯—牛顿迭代法进行参数估计,即借助泰勒级数展开式进行逐次的线性近似估计。
对于社会经济现象,很难确定因变量和自变量之间的关系,因为它们大多是随机的,只有通过大量的观察统计,才能找出其中的规律,随机分析是利用统计学原理描述随机变量关系的一种方法。
回归分析可简单理解为信息分析与预测,信息即统计数据,分析即对信息进行数据处理,预测就是加以外推,也就是适当扩大已有自变量取值范围,并承认该回归方程在该扩大的定义域内成立,然后就可以在该定义域上取值进行“未来预测”。当然,对回归方程可以进行有效地控制。
因此,回归分析主要解决下面两方面的问题。
(1)确定变量之间是否存在相关关系,若存在,则找出数学表达式。
(2)根据一个或几个变量的值,预测或控制另一个或几个变量的值,且要估计这种控制或预测可达到何种精确度。
(1)根据自变量与因变量的现有数据及关系,初步设定回归方程。
(2)求出合理的回归系数。
(3)进行相关性检验,确定相关系数。
(4)在符合相关性要求后,即可根据已经得到的回归方程与具体条件,来确定事物的未来状况,并计算预测值的置信区间。
回归分析的有效性:用回归分析进行预测,首先要对各个自变量做出预测。若各个自变量可以人工控制或易于预测,而且回归方程也较符合实际,则应用回归预测是有效的,否则就很难应用。
回归分析中常用到的几个概念如下。
(1)实际值:实际观测到的研究对象的特征数据值。
(2)理论值:根据实际值可以得到一条倾向线,用数学方法拟合这条曲线,可以得到数学模型,根据这个数学模型计算出来的、与实际值相对应的值,称为理论值。
(3)预测值:实际上也是根据数学模型计算出来的理论值,但它是与未来对应的理论值。
(4)表示符号:实际值用y i 表示;理论值用 表示;预测值用y 0 表示。
为使回归分析方程符合实际,首先,应尽可能判断自变量的可能种类和个数,并在观察事物发展规律的基础上定性回归方程的可能类型;其次,力求掌握较充分的高质量统计数据,再运用统计方法,利用数学工具和相关软件,从定量方面计算或改进定性判断。