购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

4.1 Logistic回归模型简介

Logistic回归模型属于一种广义线性回归模型,与多重线性回归模型有很多相同之处。它们的模型形式基本相同,即 w x + b ,其中, w b 是待求参数。区别在于它们的因变量不同,多重线性回归模型直接将 w x + b 作为因变量,即 y = w x + b ,而Logistic回归模型则通过函数 L w x + b 转换为一个隐状态 p p = L w x + b ),然后根据 p 与1 -p 的大小决定因变量的值。如果 L 是Logistic函数,就是Logistic回归分析;如果 L 是多项式函数,就是多项式回归分析。

4.1.1 Logistic回归模型的公式

在SPSS的所有分析中,变量按照变量值是否连续被分为连续变量和离散变量。其中,离散变量指数值为自然数或者以整数为单位计算的变量,比如参会人员的男女比例、合作单位的个数、参会人数等。连续变量和离散变量的具体划分可以参照表4-1-1。Logistic回归模型的因变量通常为离散变量。

表4-1-1

在Logistic回归模型中,根据因变量的取值个数,可以分为二元Logistic回归模型和多元Logistic回归模型。

二元Logistic回归模型公式:

其中, z = B 0 + B 1 X 1 +… B p X p p 为自变量个数),某一事件不发生的概率为prob(no event)=1−prob(event),因此最主要的是求 B 0 B 1 ,…, B p (常量和系数)。

多元Logistic回归模型公式:

4.1.2 Logistic回归分析的目的

Logistic回归分析的目的是求证有关联(相关)的变量之间的关系。Logistic回归分析往往通过对一组样本数据进行分析,发现影响某一变量的诸多变量,得出以多个自变量估计因变量的Logistic回归模型,从而确定关联变量之间的关系。

4.1.3 Logistic回归模型的适用条件

想要使用Logistic回归模型,需要满足以下几个条件。

● 自变量 x 与因变量 y 之间的关系是非线性的。

● Logistic回归模型中的自变量既可以是连续变量,也可以是离散变量或者虚拟变量,而且对自变量正态分布没有特殊要求,自变量和逻辑回归概率是线性关系。

● 非等方差性,Logistic回归模型不需要像线性回归模型一样,要求等方差性;但残差和因变量要服从二项分布。

● 独立性,即数据为随机样本,各观测对象之间相互独立。

● 无共线性,即自变量 x 之间相互独立,需要注意的是,重复计数现象指标不适用于Logistic回归模型。

Logistic回归模型的本质是用事件发生的概率除以事件没有发生的概率,再取对数。这个简单的变换改变了取值区间,以及因变量与自变量之间的曲线关系,使得因变量和自变量之间呈线性关系,所以Logistic回归模型从根本上解决了因变量不是连续变量时该如何操作的问题。Logistic回归模型在现实中得到了广泛应用。例如,分析某件事情发生的概率与其他数值型自变量的关系。

此外,如果自变量为字符型变量,则需要重新编码。一般来说,当自变量数量大于或等于3个时,就需要根据实际情况予以处理。

4.1.4 Logistic回归分析的主要用途

Logistic回归分析作为常用的数据挖掘分析方法之一,在经济学、社会学、医学等领域中的应用尤为广泛,下面简单介绍其用途。

首先,Logistic回归分析可以直接预测自变量相对于某一事件或者情况的发生概率。通过建立Logistic回归模型,根据自变量相关度的高低决定进入顺序。在保证自变量满足其标准化回归系数达到进入标准(即通过 F 值或 F 概率值规定的标准)后,再逐一移除对模型贡献最小的自变量,直到所有自变量均达到标准为止。以医学领域为例,通过Logistic回归分析,医学家可以清楚地预测药品A对于某种疾病的医疗效果,从而更好地选择治疗方案。

其次,Logistic回归分析能够发现危险因素。通过预测,Logistic回归分析根据自变量权重结果,可以清晰地判别哪些因素对因变量来说是危险因素。以企业经济管理为例,在企业员工中抽取两组员工,一组为高效率,另一组为低效率。两组员工必定具有不同的体征与工作方式,其中,自变量包括员工的工作年限、工作积极性、企业理念认同程度、所在小组领导的领导风栺等。在这种情况下,通过Logistic回归分析可以得到自变量的权重,从而可以大致了解哪些因素是影响企业经济效率的危险因素。

最后,Logistic回归分析能够判断某种可能,这里不是指预测的效果,而是一种事实上的判别,即通过Logistic回归分析判断某种可能或者某种情况发生的概率。以医学领域为例,医生在诊断过程中通过Logistic回归分析可以判断病人患某种疾病的概率有多大,或者判断病人有多大的可能性被确诊为某种疾病。 T1fpGhtyKzsoy7tICts4DQWfIjgGEPa5CYcVl303YdDANX0raj1BXXj1QGloidLC

点击中间区域
呼出菜单
上一章
目录
下一章
×

打开