购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第四章
病证型分类研究与潜在变量模型

证型分类研究是辨证论治理论的核心之一,是病证型结合研究的精髓。它作为中医临床诊断与治疗的主要依据,一直都是中医证候研究领域的关注重点。病证型分类是在明确疾病诊断的基础上,收集所有支持证和型分类的临床信息,明确证和型与临床信息之间的关联,利用这些关联信息对疾病进行证和型分类。但证候是一个非线性、多维多阶的复杂巨系统,用传统的线性方法进行研究很难得到一致而规范的结果,因此在证和型分类研究中逐步引入数理统计学、信息科学、系统科学及现代医学等多种研究方法来处理具有多重共线性、非线性、模糊性和非正态分布的中医证候数据变量,从而进行疾病的证和型分类已成为业内共识。

证候是一个不可直接测量的、无法用确切数据定量表述的、隐藏的潜变量,依靠望、闻、问、切等直观方法获得信息,临床医生辨证的过程实际上就是在大脑中建立一个由可直接观测的临床四诊信息到潜在证型类别的分析路径。

潜在变量模型就是研究病、证、型与临床信息相关关系的一类统计分析方法,可以对疾病的证和型分类和证候要素提取进行系列研究。潜在变量模型是由不可直接测量的变量、因子、结构等构成的。根据潜在变量与显在变量的连续、离散性质及其关系可分为因子分析模型、潜在类别分析模型、结构方程模型、项目反应理论中的等级反应模型、潜在类别模型等。

第一节 连续变量

“证型”是医生通过临床辨证获得的,是不能直接观测得到的变量。在病、证、型结合的研究中,将这种不能或不易直接观测的变量称为“潜在变量”或“潜在因子”。虽然它不能直接测得,但却是一种抽象的客观存在,所以必然与某些可测变量(临床症状)有着不同程度的联系。因子分析就是利用降维思想,在力保数据丢失信息最少的原则下,探讨多个能够直接测量,并且具有一定相关性的实测指标(临床症状)是如何受少数几个内在的独立因子(证候分型)所支配,将错综复杂的临床指标转化为少数几个综合指标,即公因子。

因子分析是一种非线性的多元统计分析方法,着重在解释原始变量(可测变量)之间的关系。经典的因子分析方法是需建立在正态数据基础上研究的,因此应注意样本量不能太小,而且变量之间要有相关性。根据因子分析的特点,我们将其引入到病、证、型分类研究中,简化四诊信息结构,以最少的分型个数,对复杂的四诊信息做出最大的解释,并对分型与四诊信息之间的关系进行探索。

因子分析是通过构建数学模型,来研究多个变量间相关系数矩阵(或协方差矩阵)的内部依赖关系,找出能将所研究的变量综合成为少数几个指标。这几个综合指标是不可直接测量的,但它能反映事物的本质,通常称为因子。各因子间是独立且互不相关的,所有变量都可以成为公因子的线性组合。

例如:设有 N 个样本, P 个指标, X =( x 1 x 2 ,……, x p T 为随机变量 x 1 x 2 ,……, x p 构成的向量,要寻找公共因子 F =( F 1 F 2 ,……, F p T ,则因子模型:

用矩阵表示:

矩阵 A =( a ij )称为因子载荷矩阵, a ij 为因子载荷,其实质就是公因子 F i X j 的相关系数。 ε 为特殊因子,代表公因子以外的影响因素所导致的(不能被公共因子所解释的)变量变异,实际分析时可忽略不计。上述模型矩阵形式表示为 X = AF + ε

因子分析的数学模型中各统计量在分型个数研究中的特定意义:

特征值(eigen value):它可以被看成是分型个数影响力度的指标,代表引入该分型后可以解释多少个原始四诊信息的内容。如果特征值小于1,说明该分型的解释力度还不如直接引入一个原四诊信息的平均解释力度大。因此一般可以用特征值大于1作为选择分型个数的标准。

累积贡献率:前 K 个主要分型个数的累积贡献率指按照方差贡献率从大到小排列,前 K 个主要分型累积提取了多少个原始四诊信息,即前面 K 个主要分型累积提取 X 1 X 2 ,……, X p 多少个四诊信息。一般来说,如果前 K 个主要分型包含了全部测量指标所具有的主要四诊信息,这样既减少了四诊信息的量数,又便于实际问题的分析和研究。特征值与累积贡献率都是判断分型个数的重要指标。

因子载荷 a ij :因子载荷 a i j 为第 i 个变量(四诊信息)在第 j 个因子(型)上的载荷,实际上就是第 i 个四诊信息与第 j 个型的相关系数,表述第 i 个四诊信息依赖第 j 个型的程度,或者说反映了第 i 个四诊信息对于第 j 个型分类的重要性。其绝对值越大,则表示第 j 个型与第 i 个四诊信息的关系越密切。也就是说因子载荷可用来表示四诊信息在证型诊断分类研究中的重要程度。

碎石图用于显示各类分型的重要程度,其横轴为分类序号,纵轴表示特征值大小。它将分类按特征值从大到小依次排列,从中可以直接观察出最主要的证候分型。前面陡坡对应较大的特征值,作用明显;后面的平坡对应较小的特征值,其影响较弱。

因子分析可以分为探索性因子分析(exploratory factor analysis,EFA)和证实性因子分析(confirmatory factor analysis,CFA)。证实性因子分析也称为验证性因子分析。因子分析常用的分析软件有:SAS、LISREL、AMOS、EQS、Mplus等。

一、病证型分类的探索性研究

探索性因子分析是目前证候学研究领域常用的一种统计方法,由于研究者对四诊信息与病证和型间的关系在事前并不知道或者并不确定,因此需要根据统计理论及准则,如计算因子的特征值、累积贡献率大小等,以确定最佳因子个数,整个研究过程具有探索性,故称之为探索性因子分析。EFA具有探讨可测变量的特征、性质、内部联系,揭示有多少个主要的潜在因子可能影响这些可测变量的作用。它要求寻找出的这些潜在因子要尽可能地概括原可测变量的信息,因此通常被广泛地应用在证候分类的初期阶段。

探索性因子分析能真实、有效、深入地解释原始可测变量之间的关系,使潜在变量(分型)客观化并具有明确的实际意义。

(一)探索性因子分析步骤

探索性因子分析需要基于一定的假设前提:公共因子与特殊因子之间相互独立;特殊因子之间相互独立;所有公共因子直接影响观测变量等。其关键环节是寻找公因子,研究者需假设每个指标变量都与某个因子匹配,再通过因子载荷推断出数据的结构。探索性因子分析大致可分为四步:研究数据处理,消除不一致的变量;根据标准化数据的相关矩阵,计算相关矩阵的特征值、累积贡献率以确定分型类别个数;选择合适方法提取各种分型;利用旋转方法使得分型的类别更具可解释性。

1.研究数据的处理

研究数据处理即数据检验,由于因子分析是从众多原始变量中聚集出少数几个有代表性的因子,这就要求原变量之间具有较强的相关性。如果原变量间不存在相关关系,或者说没有共同成分的话,就无法、也没有必要再去提取因子,因为原变量本身就已经是最小的不能再缩减的数据集。为检验原始数据间是否具有相关性,在因子分析之前,可以选择进行KMO统计量检验、Bartlett球形检验及共性方差检验,Cronbach’s alpha系数。KMO(Kaiser-Meyer-Olkin)检验统计量是用于比较变量间简单相关系数和偏相关系数的指标,其判断标准为:KMO>0.9非常适合;0.8<KMO≤0.9适合;0.7<KMO≤0.8一般;0.5<KMO≤0.7不太适合;KMO≤0.5不适合。简而言之,如果KMO值越接近1,则越适合于做因子分析;如果KMO越小,则越不适合于做因子分析。巴特利特(Bartlett)球形检验通过相关矩阵是否为单位矩阵来检验各变量是否独立。只有在原假设各变量相互独立被拒绝,因子分析才能进行。共性方差检验的数值在0~1,取值越大说明该变量能被公因子解释的信息比例越高,此时进行因子分析效果是理想的。Cronbach’s alpha系数是信度系数中的一种。所谓信度亦即可靠性或精确度,用以反映相同条件下重复测定结果的近似程度。它是用以表明在四诊信息和全部指标的探索性因子分析对个体重复测量时是否存在内部一致性。按照公认的标准,Cronbach’s alpha系数在0.6~0.8表示内部一致性较好,而大于0.8时表示内部一致性极好。

以高脂血症为例 [68] ,其在进行因子分析前数据处理见表4-1、表4-2。

由上表高脂血症研究数据的处理结果可知,KMO统计量大于0.7,可认为做因子分析的效果是理想的;Bartlett球形检验结果表明 P 值小于0.05,统计的检验假设被拒绝,说明所有指标间不独立具有相关性,数据可以用因子分析模型研究;共性方差大于0.5的指标占绝大多数,这也从另一个角度表明高脂血病应用因子分析是适宜的。Cronbach’s alpha在0.6~0.8表示内部一致性较好。

表4-1 高脂血症研究数据处理结果

表4-2 高脂血症探索性因子分析中累积贡献率及指标的Cronbach系数

2.分型类别个数的确定

根据特征值确定分型类别个数,一般选取特征值大于1的公因子。但并不是绝对的,在实际应用中可以将累积贡献率、特征值大小与碎石图等综合起来考虑,必要时也可以保留特征值小于1,但在专业上有明确含义的公因子。还可以通过直观观察碎石图的方式来确定证型分类个数。

3.分型类别(因子)的提取

提取因子的方法有许多种,其中最常用的是主成分法,其次还有最大似然法、未加权的最小平方法、广义最小二乘法、主轴因子分解法、α因子分解法及映像因子分解法。事实上,如果四诊信息数和样本量都大,而且相关性也高,则以上各种因子提取法的结果基本相同,区别仅在于其分析思想不同。主成分法是最常用的方法,在多数情况下也是最佳的选择;如果样本量极大(1 500以上),则极大似然法的结果更为精确;如果样本量小,或变量少,α因子法或映像因子法可能更合适;当对各种方法的原理不太清楚或者适用条件不明的情况下,主成分法仍然是最好的选择。

4.分型类别的校正

因子分析得到的每个公因子(分型)可以对原变量中的每一变量(四诊信息)做出一定解释,而解释程度的大小反映在因子载荷矩阵的元素结构上。一般我们可以得到每一列的因子载荷中有一些是比较大的,而另一些比较小,由此知道该列对应的因子主要解释了哪些变量,一次确定该公因子的主要特征和内涵。但有时因子载荷的大小差异不是非常明显,此时公因子的命名和解释就比较困难,这时可以使用因子矩阵旋转进行变换,使得旋转之后的载荷矩阵在每一列上元素的绝对值尽量地拉开距离,增加因子载荷的差异性,提高因子的可解释性。为了能够合理解释因子结构常采用正交旋转或斜交旋转等方法。

(二)脑梗死的探索性因子分析举隅

国家自然基金项目“证的应用基础研究”(BS1996053),收集了496例来自江苏省中医院脑梗死病例 [69] ,首先对收集到的四诊信息指标进行单因素分析,将阳性率10%以上且有统计学意义的指标直接纳入进一步分析;对于阳性率在10%以下和阳性率10%以上但没有统计学意义的指标必须根据中医专家的临床经验对研究指标进行取舍。如果有些指标虽然无统计学意义但专家认为对病证诊断有临床价值,则统计分析时可以考虑保留,且纳入进一步做数据处理的证候群中。按上述指标选取原则,所有纳入进一步分析的证候群指标共85个。对85个指标进行KMO统计量及Bartlett球形检验,得到KMO=0.773 4, χ 2 =18 971.72, P <0.001,Bartlett球形检验拒绝零假设,说明该数据所有指标间不独立,可运用因子模型对数据进行分析处理。

表4-3列出了脑梗死探索性因子的特征值和累积贡献率,当取5因子时,累积贡献率达56.74%,当取6因子时,累积贡献率达到62.16%。

表4-3 脑梗死探索性因子分析的特征值及累积贡献率表

图4-1显示当选取5个或6个因子时,特征值的变化趋势开始平稳。综合探索性因子分析的特征值、累积贡献率及碎石图,提取5个因子或6个因子比较合适,能较好地反映各指标所包含的大部分信息,这也符合中医证候分型的传统分类。根据中医临床专家的意见,根据专业评估最终确定5因子的结果较为理想。

图4-1 脑梗死探索性因子分析的碎石图

二、病证型分类的证实性研究

探索性因子分析能初步确定疾病证候分型的个数,但难以弄清哪些症状可能被哪个分型所影响,以及证候分型之间的关联程度。如哪个是主症,哪个是兼症不能确定,证候分型之间是处于一个怎样的支配关系亦不明确。而主症和兼症对辨证论治又有着举足轻重的作用,这就需要引入新的统计方法——证实性因子分析。

证实性因子分析又称确定性因子分析或验证性因子分析,是研究者根据专业理论或自身经验对测量变量与因子间的关系进行检验,从而评价因子(证候分型)与其对应的指标(四诊信息)之间的关系,验证探索性因子分析中内部结构(证候分型)的真实性。证实性因子分析能综合利用临床的信息,分析证候分型之间的关联,允许每一个四诊信息变量有度量误差,比较符合现实情况,结果更加接近真实,结论更加准确。

(一)证实性因子分析步骤

证实性因子分析必须有特定的理论依据或概念构架作为基础,然后借助数学语言来确定该理论所构建的模型是否合理适当。其分析目的在于决定事前定义因子的模型拟合实际数据的能力,以检测观测变量、因子个数和因子载荷是否与基于先验建立的理论预期一致。在病证型的分类研究中,可进一步确定证候分型探索性研究的结果是否合适,更好地显示四诊信息与证候分型之间的关系。

1.模型设置

模型设置即模型表达,指模型涉及四诊信息、四诊信息之间关系、模型参数等的设定。根据过往研究结果或理论依据,选定证候分型(公因子)个数和设定模型中的固定参数和自由参数,构建一个确定性模型。

2.模型识别

标准的证实性因子模型识别规则有制定测量单位、 t 法则、三指标法则、两指标法则、单指标法则。目前常用的是制定测量单位的方法,在多数情况下产生相同的拟合和参数估计,但有时会产生不同的标准误。

3.拟合评价

选择合适的方法来估计自由变化的因子载荷。在多元正态的条件下,常用的方法是最大似然估计、广义最小二乘法和一般加权最小二乘法;在非正态的条件下,可用渐进分布自由估计。

4.评价模型

当因子模型能够拟合数据时,因子载荷的选择要使模型暗含的相关矩阵与实际观测矩阵之间的差异最小,我们常采用的统计参数为拟合优度指数(GFI),GFI≥0.8表明模型的拟合程度是可以接受的。每个指标都有相应的评价标准,实际分析时应该根据各个指标的值进行综合判断。

5.修正模型

如果模型的拟合效果欠佳,需根据模型合理性检验结果,判定检验模型的优劣,并根据专业知识和统计学有关标准对模型进行修正,得出合理的因子模型。

(二)脑梗死的证实性因子分析举隅

通过探索性因子分析方法对494例脑梗死患者的四诊信息进行统计学分析发现,当提取因子数(证候分型)为5时,结果较为理想。故将5因子的EFA模型设置为证实性因子分析的初步模型 [69] 。模型识别、拟合评价及模型修正均借助于AMOS软件进行,最终的拟合优度统计量 χ 2 /df =1.174,拟合优度指数(GFI)=0.840,表明模型的拟合结果较为理想。

各因子在证实性因子分析下的载荷系数大于0.3与因子关系密切,可作为诊断该证候分型(因子)分类的主症;因子1中载荷系数大于0.3的变量有发热、喉中痰鸣、黏痰、气促、神昏、小便黄赤、数脉、多汗、小便失禁、舌红;因子2中载荷系数大于0.3的变量有语言謇涩、舌强、肢体偏瘫、寡言少语、精神萎靡、嗜睡、小便失禁;因子3中载荷系数大于0.3的变量有气短、易感冒、沉脉、四肢欠温、浮肿、睑下青黑、舌胖、喜热饮、疲倦乏力、舌淡白、指甲青紫、气微、咳嗽;因子4中载荷系数大于0.3的变量有目胀、头胀、头痛、烘热、目眩、心烦易怒、口苦、失眠、肌肤麻木、头昏、盗汗、弦脉、涩脉、便秘、气粗;因子5中载荷系数大于0.3的变量有细脉、舌瘦、舌干、舌红少津、目干涩、舌红绛、口唇干红、五心烦热、口干、舌苔少。

探索性和证实性因子分析是因子分析中两个不可分割的重要组成部分,其主要的区别在于显变量(四诊信息)与潜因子(分型)之间的关系是事先确定的还是事后推定的。但在实际研究中不能截然分开,只有结合运用才能相得益彰,深化研究结果。在研究的实际操作中通过探索性因子分析建立模型,再用证实性因子分析去检验和修正模型,前者提供了发现模型以验证假设的概念和计算工具,其结果为证实性因子分析建立假设提供了重要的基础和保证。

第二节 分类变量

潜在变量模型可以应用于连续变量与类别变量两种不同的数据形式,根据潜在变量与外显变量的连续性和离散性性质及其关系,可将潜在变量模型分为4种,分别为因子分析、潜在轮廓分析、项目反应理论和潜在类别分析,见表4-4。

表4-4 潜在变量模型的分类

证候研究作为中医研究中的基础和核心,始终是中医药领域研究的热点、难点。证候研究中的关键问题是如何客观准确地把握证候特征。通过直接问询患者得到的四诊信息项目经常为二分类或有序分类变量,此时应用因子分析往往可能得出不正确的结论,因此潜在类别模型在此具有极大的应用价值。其与一般常用的因子分析的最大不同在于变量的形式,因子分析处理的是连续变量,潜在类别分析处理的是类别变量。正因为潜在类别模型以类别数据作为素材,补足了潜在变量模型的一个缺口,为科学研究者面对俯拾皆是的类别数据提供了一种更强而有力的分析工具。

潜在类别分析模型是探讨分类外显变量所隐含的类别潜变量的最佳统计分析方法,目的在于利用潜在类别解释多个外显分类变量之间复杂的关联性,使之能以较少的潜在类别数目解释外显变量之间的关联性。传统的潜在类别分析可以估计潜类别概率和潜类别中外显变量的条件概率两类参数。类别概率参数表示随机抽取的个体属于一个特定类的概率,相当于因子分析中的解释变异百分比;而条件概率反应个体某观察变量属于特定类别的可能性,相当于因子分析中的因子载荷。

一、潜在类别分析步骤

一个完整的潜在类别模型建模过程包括模型参数化、参数估计、模型识别、模型评价、潜在分类与结果解释等。

(一)概率参数化

潜在类别模型的概率参数化包括两种类型的分类变量:观察变量或显变量和非观察变量或潜变量;两种类型的参数:潜在类别概率和条件概率。潜在类别模型假定任意两个观测变量之间的关系可以由潜变量解释。假设潜变量X有t(t=1,2,…,T)个潜在类别;A、B、C为三个显变量,且其水平数分别为i,j,k。最基本的潜在类别模型为:

表示一个潜在类别模型的联合概率; 表示观测数据属于某一潜变量X的特定潜在类别的概率; 表示属于第t个潜在类别的研究对象对A外显变量中第i个反应的条件概率。

(二)模型估计与模型识别

提出假定模型后,接下来的重要工作就是求出模型中参数的终解和参数估计时的识别问题。在潜在类别模型中常用的参数估计方法有EM(expectation-maximization)算法和NR(Newton-Raphson)算法,其中以EM最为常用。如果模型中的参数要顺利求出一组最佳解,那么参数数目必须小于自由度。如果自由度小于0,将造成模型不能识别的问题,无法运用EM算法与NR算法进行迭代求解。遇到模型无法识别的情况,可以限定部分参数,减少待估参数数目,提高模型估计的识别性。

(三)模型评价与潜在分类

模型评价的主要工作是找出既简洁,具有较少参数,又具有较好拟合优度的模型,其中4种指标Pearson χ 2 ,似然比 χ 2 ,Akaike信息准则(AIC),Bayesian信息准则(BIC)已得到广泛使用。

在确定模型后,最后要将各组的观察值分类到适当的潜在类别当中,来说明观察值的后验类别属性,即潜在聚类分析。潜在聚类分析是在一定的概率模型之下,利用概率估计与比较进行分类,即利用估计所得的潜在类别概率和各潜在类别中各外显变量的条件概率计算外显变量反应每种组合分类到各潜在类别的后验概率,然后根据后验概率的大小决定该组合应归入的潜在类别,即创造一个新的类别变量说明观察值的后验类别属性,从而实现分类的目的。其分类原理是Bayesian理论。

利用上式求出值潜变量X的条件概率后,根据其值的大小判断观察值属于哪一类。如果潜在类别t在某一类的概率最大则相应的个体归为该类。

二、潜在类别模型分析软件

LCA的专用软件很多,目前比较著名和应用很广的分析软件有SAS、Mplus和Latent GOLD软件,Mplus软件和Latent GOLD软件均是潜变量的专业软件。这些软件各具优点,实际工作者可以根据需要选择软件。

三、高血压病二分类数据潜在类别分析模型举隅

以高血压病为例,通过全国多中心流行病学研究,分别从5个三级甲等综合性中医院收集了1 499例符合纳入排出标准且依从性较好的高血压病病例,并以这1 499例病例为研究对象,确定高血压病的5个主要证候,分别为肝火亢盛证、肝肾阴虚证、痰瘀互结证、心肾两虚证、肝郁伤神证。其中,肝火亢盛证包含15个指标,这些指标均为二分类指标,运用潜在类别分析方法进行高血压病患者个体证候诊断分类 [41]

为了选择合适的潜在类别模型,从潜在类别数为1的初始模型开始,拟合了10个潜在类别模型。由拟合信息可知:5-Cluster有最低的BIC值(BIC=26 037.786 6),显示5个潜在类别的模型是较佳的模型。AIC指标则以10个潜在类别的模型较为理想。由于AIC没有考虑到样本例数的影响,因此,当样本例数较大时,AIC概率推导缺乏渐近性,而BIC统计量考虑了样本例数。一般来说,当样本数很大时,建议以BIC来判断模型的优劣,本研究的样本数达到1 499例,因此,当潜在类别数为5时,BIC最小,可选择包含5个潜在类别的模型作为较为理想的模型。

按照5个潜在类别的分析模型,利用EM算法对潜在类别概率和潜在类别下证候的条件概率进行估计,并绘出的潜在类别概率图可发现Cluster1和Cluster4重合率较高,故在5个类别的基础上合并为4个类别。根据4个潜在类别估算出的潜在类别概率和潜在类别条件概率。

在模型参数化之后,可以对肝火亢盛证候下的各潜在类别进行定义,方便理解,同时可对各潜在类别概率和各指标的条件概率进行解释。对于肝火亢盛证型,Cluster1除了急躁易怒外,其他项目的条件概率基本上高于另外3类,Cluster1定义为肝火亢盛典型证,潜在类别概率为0.285 3;Cluster2面红、小便黄赤、舌红、舌干、黄苔和弦脉等项目的条件概率最低,Cluster2定义为肝火亢盛证候,潜在类别概率为0.270 9;Cluster3定义为肝火亢盛证候,潜在类别概率为0.265 9,它与类别1相比,目眩、目胀、目赤、头痛、头胀等项目的条件概率相差较大;Cluster4面红、小便黄赤、舌红、舌干、黄苔和弦脉等项目的条件概率高于第2类别,急躁易怒、烦躁与头痛的条件概率低于Cluster3,故Cluster4定义为肝火亢盛证候临界,潜在类别概率为0.177 9。与这4类相对应的各类别的高血压病患者分别为417例、416例、406例和260例。

潜在类别分析模型是描述多个外显分类变量之间复杂的关联性的数学模型,可以应用于中医证候个体化诊断中。依据各因素在潜在类别中的条件概率的分布特征进行人群的分型,通过比较不同类别人群的后验概率,进行个体化诊断分类,为中医个体化治疗提供依据。它不但弥补了因子分析仅能处理连续性潜在变量的缺口,尤其重要的是潜在类别分析把分类数据与潜在变量的观念加以结合,提高了分类变量的分析价值,使研究者能够透过概率更加深入地了解分类变量背后的潜在影响因素,也为医学科研工作者提供了一种实用的分析工具,具有重要的统计方法学价值。

第三节 病证型结构方程模型分类研究

因子分析可以定量研究每一种病相应的证候分型个数,并用载荷系数衡量每一个证候分型所对应的主要四诊信息。但对分型之间关联度研究不够深入,只能证明得出的分型之间存在关联,至于其主次关系、支配关系则力不从心。1973年瑞士统计学家Karl Joreskog将含潜变量的因子分析模型与路径分析有效结合,形成了结构方程模型(SEM)。与传统的统计分析方法比较,这种方法在误差估计、潜变量提取、因子间关系拟合等方面具有显著的优势,使用也较为灵活广泛,是目前多元数据统计分析的重要工具。

一、结构方程模型的特点

结构方程模型又称潜变量结构模型或协方差结构模型,是一种融合了因子分析和路径分析的多元统计技术。它试图利用研究者所搜集的实证资料来确定假设的变量间的关系以及潜在变量与显性指标的一致性程度。自20世纪70年代被提出以来已被大量应用到教育学、心理学、社会学和行为科学等学科中,在医学领域的生存质量评价、临床试验的疗效评价以及中医病证型分类研究中的应用也日渐成熟。在中医学研究中,证是对四诊信息表达的机体病理生理变化整体反应状态的概括,可以看作潜变量。而中医临床数据中的四诊信息可以看作显变量。结构方程模型可以同时考虑四诊信息与四诊信息、四诊信息与证候分型、分型与分型之间的关系,对难以直接测量的概念进行合理解释,分析病、证和型与四诊信息间错综复杂的关系,以及证候分型之间的相关性,揭示证候规律,为医学研究者验证各种学说、观点、模型的合理性创造很好的条件。

结构方程模型之所以得到广泛的应用是因为这种分析方法具有以下特点:

①具有理论先验性,SEM假设因果模型必须建立在一定的理论上,采用验证性因素分析,比传统的探索性分析更周详。②不仅可以有效地处理多个显变量间的关系并评估其作用大小,而且可以借助因子分析方法评价潜变量的作用大小。③SEM中可以同时存在多个显变量和多个潜变量,并且SEM分析过程可以研究显变量和潜变量之间、多个潜变量之间复杂的内在联系或因果关系。④根据专业理论假设某个观察指标可以同时存在于几个因子中,应用SEM去验证这种假设是否成立。例如,在中医学的四诊信息指标与证候关系的研究中,四诊信息指标是可以直接观察的,而中医学中的证候分型是不可直接测量,有的四诊信息如面红,既可以在某一个证候分型(如肝火亢盛)中出现,也可以在另一个证候分型(如肝肾阴虚)中出现,只是出现的先后次序的不同。⑤传统的多因素分析一般都不对自变量的测量误差做评价,但是应用SEM方法可以估计观察指标的测量误差,从而使观察指标在相应因子上载荷的估计更加精确,同时也可以评估测量的信度和效度。⑥对变量关系的处理更具有弹性,结构方程模型除了可以测量变量关系外,还可以利用潜在变量进行观察值的残差估计。⑦适用于大样本分析,在样本量达到200以上时,结构方程模型可以得出稳定的分析结果。⑧融合了多种统计技术,结构方程模型是对一般线性模型的扩展,适用于回归分析、方差和协方差分析、多水平模型等具体的统计模型。⑨重视多重统计指标的应用,结构方程模型处理的是整体模型的比较,参考的是整合性的系数,从不同的角度进行分析,避免过度依赖。

二、结构方程模型的分析步骤

结构方程模型大致的研究流程可以分为探讨相关理论、建立假设模型、确定模型、测算样本量、估计模型参数、模型的拟合度评价、模型修正等。

1.探讨相关理论

描述和建立变量间存在的关系,特别是变量之间的因果关系等,都需要以专业理论为基础,必须根据理论分析得出哪些是所研究问题的重要变量,所有重要观察变量和潜变量是不能忽略的,要以理论知识去解释将要建立的假设模型。

2.建立假设模型

根据理论提出假设,用路径图的形式描述,并用若干个方程式表达和构建模型。包括观察变量与潜变量之间关系,潜变量与潜变量之间关系。对于复杂模型,必要时要对观察变量与潜变量间的载荷大小,或者潜变量与潜变量之间相关关系加以某些条件限制。

3.测算样本量

收集研究样本,并对样本测量以得到观察数据。SEM的基本假设中要求在前两步的基础上,随机抽取的样本要足够大,观察变量的总体服从多元正态分布,资料无系统性缺失值等。

4.估计模型参数

用所收集的样本资料对结构方程模型的参数进行估计。在对参数估计时,只有在模型确定为可识别的条件下,参数才有唯一的估计值。

5.评价模型拟合度

将所收集的资料与由参数估计所确定的理论预测模型进行比较,评价两者符合程度。评价的方法首先是做整体模型的拟合程度检验。当整体模型的拟合程度检验达到模型可接受时,再做SEM的测量模型拟合程度检验和结构模型拟合程度检验。否则,就要做下一步工作即模型修正。

6.修正模型

当整体模型的拟合程度检验未达到模型可接受时,可以根据理论假设以及上面模型的拟合度评价结果,对某些参数的条件重新修改,例如固定某个参数或放宽某些约束参数的条件,再重新估计参数和评价新的模型拟合度,直到模型达到可接受程度。

7.展示结果

当模型确实拟合得好时,就应当对所拟合的模型统计结果以及模型在实际工作中应用做解释和讨论。包括模型中哪个参数影响力大,哪个参数影响力小;某一个变量对另一个变量之间存在直接影响,还是通过其他变量而存在间接影响等。这样就可以对模型的结果变量的效应进行分析了。

三、结构方程模型分析软件

实际工作者在数据分析时都需要用SEM的专用软件完成。SEM的专用软件很多,目前比较著名和应用很广的分析软件是有LISREL和AMOS软件。此外,还有EQS、Mplus等软件。在SAS分析系统STAT模块中的CALIS过程也可以分析SEM。这些软件各具优点,实际工作者可以根据需要选择软件。

四、支气管哮喘结构方程模型举隅

以支气管哮喘 [70] 为例,对临床流调收集的430例支气管哮喘患者的四诊信息,采用流行病学软件Epi info 5和Epi Data建立数据库,双机录入并对录入文件比较、逻辑检查后,锁定数据库。所有指标经单因素分析选择阳性率≥10%的四诊信息指标作为统计分析数据,同时保留阳性率虽低但有临床意义的指标。最终共有50个四诊信息指标进入因子分析。上述50个四诊信息数据的KMO统计量为0.837,说明偏相关性很弱,Bartlett球形检验的 P 值小于0.001,拒绝零假设,说明收集到的数据之间具有相关性,可以运用因子分析进行统计分析。在此基础上分别进行了四、五因子的探索性因子分析,其中五因子的结果与中医传统经验的证候分类符合度高。以五因子探索性分析模型为基础,构建支气管哮喘证实性因子分析模型,选择载荷系数大于等于0.4的指标作为诊断证候分型的主要症状,载荷系数在0~0.4的为诊断证候分型的可现症状,结果显示因子1(F1)的主要症状为口淡、畏寒、形寒怕冷、倚息、咳痰量多、面色㿠白、泡沫样痰、沉脉、细脉;可现症状为痰白清稀、纳少、发绀、哮鸣音、舌淡白等,根据症状表现将因子1归纳为寒痰阻肺型。因子2(F2)的主要症状为口干、心烦易怒、小便黄赤、五心烦热、自汗、痰黄黏稠、口黏腻、咳痰量多、口苦、舌苔黄、舌红;可现症状为胁肋胀满、气短、咳嗽、少气懒言、舌苔腻、脉弦,根据症状表现将因子2归纳为热痰蕴肺型。因子3(F3)的主要症状为哮吼、气喘、喉中痰鸣、动则喘甚、泡沫痰、哮鸣音;可现症状为咳痰量多、痰白质黏、咳嗽、少气懒言、气短、咽痒、口干、倚息、胁肋胀满、面色㿠白、口苦、痰白清稀,根据症状表现将因子3归纳为风痰阻肺型。因子4(F4)的主要症状为发绀、倚息、唇色青紫、小便黄赤、数脉、滑脉;可现症状为呼吸急促、痰黄黏稠、喷嚏、气短、舌红、舌苔腻,根据症状表现将因子4归纳为痰瘀阻肺型。因子5(F5)的主要症状为自汗、腰膝酸软、少气懒言、气短、耳鸣、喷嚏、易感冒、便溏、动则喘甚、舌胖;可现症状为胁肋胀满、口黏腻、小便黄赤、舌紫暗,根据症状表现将因子5归纳为肺肾两虚型。

利用上述因子分析结果,在AMOS软件中构建支气管哮喘结构方程模型,拟合修正后GFI=0.909,拟合度较好。计算所得哮喘各型的共同症状为气短(载荷系数为0.947)、气喘(0.940)、胸闷(0.858)、动则喘甚(0.810)、喉中痰鸣(0.806)、哮吼(0.786)、咳痰量多(0.750)、少气懒言(0.700)、痰白质黏(0.672)、咳嗽(0.557),这与哮病的诊断标准基本吻合,基础证为痰饮伏肺。5个型分别为F1寒痰阻肺型,载荷系数为0.090,F2热痰蕴肺型,载荷系数为0.393,F3风痰阻肺型,载荷系数为0.441,F4痰瘀阻肺型,载荷系数为0.303,F5肺肾气虚型,载荷系数为-0.852。肺肾气虚型的载荷系数为负,表示该型与哮喘关联程度呈负向相关,即共同症状呈减弱状态,提示肺肾两虚型处于哮喘缓解期,痰鸣气喘症状不显著。其余型的载荷系数皆为正数,提示各型与哮喘关联程度呈正向相关,即基础症状呈加强状态,提示发作期各型与哮喘联系更为紧密。

第四节 病证型结合证型分类的不同方法比较研究

随着中医证候研究的深入,结构方程模型正日益成为证候数据分析中的热点方法之一,越来越多的研究者选择采用结构方程模型方法对证候的估计和假设进行验证。传统结构方程模型以协方差矩阵为基础,研究变量应为连续型变量。但是在中医证候研究中处理四诊信息时,一般都将四诊信息的测量视作分类或等级资料,为此,需要考虑在处理等级资料时能否采用结构方程模型方法统计建模呢?经应用Mplus进行蒙特卡罗模拟研究,比较不同情况下(如样本例数、相关系数等条件)采用协方差矩阵与多项相关系数法构建模型的两种结果是否存在差异,以比较多项相关系数、协方差矩阵两种方法构建的结构方程模型是否存在差别。若有差别,差别的原因何在?从理论上探讨临床实际中的应用条件。研究结果表明可以运用多项相关系数矩阵的方法建立模型,将等级资料转换成连续变量的矩阵来估计参数进行统计分析。

一、协方差矩阵构建模型

传统的结构方程模型是以协方差矩阵为基础进行分析的,是以可直接观测变量与潜在变量均假设以连续变量和正态分布为前提条件,以皮尔森(Pearson)相关系数为基础估计模型参数。具体分析过程在此不再介绍,可参考其他专著。

二、多项相关系数矩阵

临床实践中,医生采集患者的四诊信息常以两分类(有、无)或等级分类(无、轻、中、重)表示。目前有研究认为多项相关系数在处理等级资料时能得到更为接近实际的相关水平。

多项相关系数,即假定两个变量x与y都是有序分类变量,它们分为s和r个等级。如果存在连续型变量ξ与η,通过两个潜在变量的不同阈值得到x与y所对应的等级。将连续潜在变量ξ与η的相关系数为ρ,也称为有序变量x与y的多项相关系数。x和ξ有如下关系:x=1当ξ<α 1 ;x=2当α 1 <ξ<α 2 ;x=r当α r-1 <ξ<α r 。y与η有如下关系:y=1当η<β 1 ;y=2当β 1 <η<β 2 ;y=s当β s-1 <η<β s 。构造似然函数

其中

其中ρ为潜在变量间的相关系数。最大化似然函数可得其解。

三、蒙特卡罗模拟比较两种模型的差别

结构方程模型有着许多经典测量理论无法比拟的优势,突破了诸多局限性。在中医病证型、证候要素客观化的研究中取得了实质性的结果。然而随着研究的不断深入,以及结构方程模型被更广泛的运用,出现了许多新的亟待解决的问题。首先,数据形式更为复杂。如,中医证和型是由证候要素构成的,它并不是单维度的,它考虑的显在变量可以是两分类和/或有序多分类的变量。但是传统SEM是基于协方差进行分析的,并不适用于等级分类资料。在另外一些情况下,研究者甚至不知道数据分布的类型。其次,新的SEM构建参数估计方法被提出,那么在不同的条件下使用不同的参数估计方法,得到的结果可能会有偏差,就很难判断哪种模型估计更符合实际情况。尽管统计理论可以解决一些研究问题,然而对于有限的样本量,SEM的估计往往是既定的渐近理论可望而不可及的。这些问题是对模型估计的评价和比较研究,想要通过严谨缜密的数理运算来推演出结果是不现实的,而目前对这一类问题尚无可以使用和参考的准确的数学理论公式方法。但是,如果预先获知数据的真实参数,然后根据模型估计得到其参数的估计值,通过比较不同条件或者不同方法下的估计值与真实值的差异度或者拟合指数的差别,就可以根据这些结果来回答上述问题了。蒙特卡罗(Monte Carlo,MC)方法正是基于这样一种思想被引用到病证型分类研究中,这是一种常用于随机抽样和计算机数据模拟的计算数理方法。同时,在面对等级分布的资料时,使用传统的协方差构建模型与使用多项相关系数来构建模型到底有何差别,如有差别,须研究在哪些因素水平之下可以使用协方差构建模型,哪些情况下使用多项相关系数,才能得到比较正确的结果。

四、高血压病证型研究的两种模型的比较

通过对临床流行病学调查中收集到的高血压病案例进行两种研究,一是采用多项相关系数和协方差分别建立结构方程模型(图4-2),比较两种方法建模的结果;二是借助计算机软件完成复杂模型与蒙特卡罗模拟的过程,探讨中医高血压的证候分型及数理统计方法的适用性。在对流调中收集到的高血压病例数据进行单因素分析后,共有79个四诊信息指标进入下一步研究,以构建协方差和多项系数的探索性因子分析模型(表4-5)。

图4-2 协方差法与多项相关系数法的碎石图比较

表4-5 因子分析特征根及贡献率

综合特征根、累积贡献率及碎石图结果,两种方法建模下都是取因子个数5较为理想。基于协方差的因子1可以解释为肝肾阴虚,因子2可以解释为心肾两虚,因子3可以解释为肝郁伤神,因子4可以解释为肝火亢盛,因子5可以解释为痰浊内蕴。基于多项相关系数的因子1可以解释为阴虚阳亢,因子2可以解释为心肾阴虚,因子3可以解释为肝郁伤神,因子4解释为肝火亢盛,因子5可以解释为痰湿夹瘀。在探索性因子分析的基础上构建结构方程模型进行验证,选取载荷系数在0.3以上的四诊信息作为评价指标。因子1的协方差与多项相关系数两组数据比较,协方差类判为肝肾阴虚型较为合适,用多项相关系数构建的结果较乱。因子2两组结果相差不多,都可以分析为心肾两虚型,比较而言多项相关系数建模较好。因子3解释为肝郁伤神型,以协方差建模的结果较好。因子4两组均能说明为肝火亢盛型,但多项相关系数建模所包含的四诊信息更为丰满。因子5解释为痰瘀内阻型,以多项相关系数建模结果较好。最终两种模型拟合指数结果如表4-6,基于协方差的结构方程模型CFI值为0.900,RMSEA为0.024。基于多项相关系数建模的CFI值为0.947,RMSEA为0.019。对比两者的拟合指数结果可见,虽然基于协方差模型的调整次数多于多项相关系数,但是CFI值刚达到0.900这一模型拟合好坏的判断阈值;而多项相关系数法则几乎达到了0.950,表示模型的拟合情况十分理想。两者的RMSEA值均小于0.05阈值。由此可见,基于多项相关系数构建的结构方程模型略优于协方差构建的结构方程模型。中医学专家对模型结果做评估后认为,两种方法建立的模型结果类似。总体而言,基于协方差CFA模型的结果更为简洁,且便于临床专家用中医理论对不同证候分型进行解释。

表4-6 多项相关系数与协方差法建模的拟合指数比较

在上述研究基础上利用Mplus软件进行蒙特卡罗模拟,共测试六种不同的样本含量(50、100、150、250、500、1 000);五种不同的载荷系数水平(0.3、0.4、0.5、0.6、0.8);两种不同的模拟因子数(4因子和8因子);两种不同的等级分布(3等分、3不等分);均采用斜交旋转方法。分别模拟100次,这样就有12 000(120×100)个数据集需要分析,最终用两种不同的统计量(协方差、多项相关系数)来构建模型进行检验,那么就有24 000种情况,需要做24 000次数据分析。在模型拟合指数的选取上,以RMSEA为主要指标,同时参考CFI结果(注:CFI越大表示模型拟合越好,RMSEA越小表示模型拟合越好)。详见表4-7。

表4-7 两种模型下CFA模型拟合指数

续表

从上表拟合指数看,基于多项相关系数的模型在各种不同条件下都优于协方差法。基于多项相关系数CFI的总体均值要比协方差CFI的总体均值大,而RMSEA的总体均值要低。从各个不同条件的分类看,CFI值随着样本量的增加和载荷系数的增大有明显的上升趋势,当样本增大时,两种方法的结果将趋于一致。RMSEA值随着样本量的增大有逐渐减小的趋势。但是RMSEA值随着载荷系数的增大也同时增大。因子数的多寡和观测变量的数据分布这两点对模型拟合指数的影响不明显。

表4-8 不同条件下拟合模型在各个载荷系数水平中的因子载荷均值

从表4-8中可见,基于协方差的CFA模型在因子水平0.4~0.6中,载荷系数更接近真实水平;而在较高的载荷系数0.8中,多项相关系数法建模的因子载荷值更接近真实值。模拟结果中,多项相关系数的CFA的因子载荷系数在实际因子载荷系数较小的情况下(0.3、0.4、0.5、0.6),模拟结果偏大;而在实际因子载荷系数在0.8时,十分接近真实值。而协方差CFA的结果却是在实际因子载荷系数较小的情况下(0.3、0.4、0.5、0.6),模拟因子载荷系数接近真实值;而在实际因子载荷系数在0.8时,模拟结果较实际情况偏小。实际载荷系数较低时,样本量的增加对两种方法的结果均有影响:当实际载荷系数较低且样本量在250及以下时,样本量越大,载荷系数越接近真实水平。

综上所述,其模拟数据的分析表明,在处理样本量小的等级资料时,多项相关系数构建的CFA胜于协方差构建的CFA。当样本量大(≥250),两种方法模型识别能力及拟合效果均表现出相当的一致性;当因子数较少时(4因子)多项相关系数的拟合指数结果与协方差的结果无明显差异;但当因子数较多(8因子),多项相关系数的拟合指数结果明显优于传统的协方差法。而其他条件的改变对两种方法影响不大。

根据分析结果可知,在处理两分类或等级资料时,CFA中多项相关系数略优于协方差法。基于多项相关系数构建的结构方程模型在数据样本量较小,因子载荷系数较少时,两种方法结果基本一致。通过中医专家的论证和分析,认为传统的协方差构建模型对中医证候分型研究有很好的临床应用价值。

第五节 证候要素提取二阶证实性因子分析研究

证候是对人体疾病病理生理变化的整体反应状态的概括。中医证候分型诊断是由具体临床症状、舌苔、脉象根据中医理论进行不同分类并命名的过程。从目前已出版的、较有影响力的证候诊断学著作来看,收录的证候表述不尽一致,证候分类与证候命名都不统一 [71] 。针对这种证候命名不统一的情况,目前已有很多研究将疾病可能出现的证候进行简化分解,使用时再实行组合。王永炎院士提出按病机层面分6类,29个基本证候要素,即外感六淫:风、寒、暑、湿、燥、火;内生五气:内风、内寒、内火、内湿、内燥;气相关:气虚、气滞、气郁、气逆、气脱、气陷;血相关:血虚、血瘀、血脱、血燥、出血;阴阳相关:阴虚、阳虚、阴盛、阳亢;其他:毒、痰、水。每个证候要素要在病位层面上进行靶位的厘定。任一证候要素或证候要素靶位都具有不同于其他证候要素或证候要素靶位的特异性症状、体征及其组合。从宏观范畴讲,证候要素具有以下特征:①组成证候的最小单元;②每一证候要素都有不同于其他要素的特异性症状;③临床所见的所有证候都可由证候要素组合而成。从证候要素的应用而言,证候要素又有如下特征:①降维降阶,使证候界面有限化;②升阶,使证候构成因素之间相关关系定性和定量化;③升维,全面把握证候的个性特征。如在“寒湿困脾”证候中,寒、湿是证候要素,脾是证候要素靶位。任一证候要素或证候要素靶位都具有不同于其他证候要素或证候要素靶位的特异性症状、体征及其组合。

而我们则在因子分析、结构方程模型的基础上引入二阶证实性因子分析方法,对证候进行降维升阶的处理以对不同的证候分型命名。证候要素是构成证候的最小单元,是组成证候分型的主要元素,具有简洁性与灵活性并存的特点,主要包括病位和病性两大类要素,研究关键在于降维升阶。所谓“降维”是指通过合适的统计方法筛选观测变量,将多个四诊信息综合归纳为几个因子的过程,也就是减少基本证候因素的过程;相反,在证候分型研究的基础上再将各分型包含几个证候要素组合起来的过程即为“升阶”的过程,即增加各种组合的过程。通过降维升阶使证候分型诊断不再是一种由具体分型与临床表现之间单纯的线性联系组合的平面,而呈现出一种复杂立体交叉的组合关系。在这种组合之中,使用者有着极大的自由掌握的空间,这正符合患者特殊个体差异及医生临床运用的需要。运用因子分析、结构方程模型明确疾病证候分型后,通过二阶证实性因子方法的降维研究,将各证候分型进行证候要素的分解,以达到临床应用的简洁性和灵活性,从而明确各证候要素与四诊信息间的对应关系;同时,按照证候要素的基本组合规律,构成基本证型和复杂证候分型以升阶,可以确保临床治疗及处方用药的安全性和有效性,深化临床辨证治疗研究。证候要素实质上是对证候分型的化解,中医研究过程中涉及的证候分型、证候要素和四诊信息指标间的关系就是二阶证实性因子分析中的一阶因子、二阶因子和观测变量间的关系。二阶证实性因子分析是建立在EFA及CFA得出因子个数及载荷系数的基础上,具体步骤可归纳为:①将疾病CFA结果中各因子载荷系数为正值的指标选出;②对每个因子中载荷系数为正值的指标再次进行探索性因子分析;③构建该因子证候要素分析二阶证实性因子模型。

一、二阶证实性因子分析步骤

二阶证实性因子分析步骤主要包括:构建模型、模型识别、模型估计、模型评价和模型修正。

1.模型构建

通常是根据探索性因子分析结果及专业知识和研究目的建立观测变量与潜在变量(四诊信息与证候要素)之间、潜在变量与潜在变量(证候要素与证候要素)之间的关系。其构建内容主要包括:因子个数的选择;因子载荷的定义,即规定哪些因子载荷是需要考虑的(自由参数),哪些因子载荷是不需要估计的(固定参数);指定证候要素与证候要素之间的关系。

2.模型识别

二阶证实性因子分析模型识别的过程较为复杂,涉及样本矩与总体矩的计算,模型是否识别指的是模型是否能够利用样本数据得出所有未知参数的解的问题。需要确定数据点的个数,假定有m个变量,当考虑协方差时,数据点个数应为 。当数据点个数小于估计参数时,意味着无法求解,就称作不可识别。一般可以通过增加限制条件,即减少未知参数的个数,增大自由度予以解决。当数据点的个数恰好与估计参数相同,就成为恰好识别;当数据点数大于估计参数时,称为过度识别。而且当模型自由度越大时,模型就越简单。

3.模型参数的估计与拟合

根据原始资料数据获得变量协方差矩阵或相关系数矩阵。分析的目标是样本的协方差矩阵与模型隐含的理论协方差矩阵间的差距大小。这一差距的定义不同,就存在不同的参数估计和拟合方法。常见的估计参数的方法有,加权最小二乘法(WLS)、非加权最小二乘法(ML),广义最小二乘法(GLS),对角加权最小二乘法(DWLS)等,这些方法一般都要求数据满足正态分布,其中似然估计法的数学表达式为:

F是数据拟合程度的综合指标,S为样本协方差矩阵,C为理论协方差矩阵,Tr(A)表示矩阵A的迹,det © 为C的行列式值。

4.模型评价

获得参数的估计值后需要评价模型的拟合效果,包含方程的解是否恰当,估计是否收敛,各参数的估计值是否在合理的范围内;参数与预设模型的关系是否合理;检查多个不同类型的整体拟合情况。拟合指数是评价=模型整体拟合效果的主要指标,拟合指数类型很多,其中 χ 2 (df)统计量是最基本的拟合指数,其次可以采用相似拟合指数和估计误差均方根。

5.模型修正

在结构方程模型中,对首次建立的理论模型进行拟合时,很难做到一次拟合成功,需要不断修正。模型的修正实际上是适当的改变模型中某些变量之间的关系。修正过程中可以根据样本数据提供的信息作为判断,同时也需要以实际的理论做指导。对每个固定的参数或约束参数而言,修正指数(MI)服从自由度为1的卡方分布,它测量了当单个固定参数或约束参数被释放为自由参数时新拟合的模型所引起 χ 2 (df)值的减小量。当MI值较高时就表明相应的固定参数应当被改变为自由参数,从而达到更好的拟合模型,但是MI值只能将其作为参考,在修正过程中还需结合专业知识。

二、高血压病肝火亢盛型二阶证实性因子分析举隅

以高血压病分型后如何提取证候要素为例。将2006年7月至2009年12月在常州、南京、沈阳和珠海四个地区五个三级甲等中医院收集到的高血压病1 280例资料进行研究。首先取出以往已经完成的五因子证实性因子分析中的因子1,专业上解释为肝火亢盛型。该因子中包含的四诊信息的载荷系数为正值的指标共有18个;其次,对其再次进行探索性因子分析,结果提取到两个因子;第三,将载荷系数大于0.3的指标共14个构建出证实性因子分析路径图;最后进行二阶证候要素分析,结果显示模型拟合度GFI=0.985,CFI=0.974。因子1经二阶因子分析提取到了2个证候要素:要素1为面红、急躁易怒、弦脉、舌红、小便黄赤、烦躁、黄苔、口干;要素2为头胀、目胀、头痛、目赤、目眩、口苦。

表4-9 高血压病肝火亢盛型的二阶证候要素分析

由表4-9可知高血压病证候要素1提示高血压病肝火亢盛型病性属火、热;证候要素2提示高血压病肝火亢盛型的病位在肝,因“肝开窍于目”“头为诸阳之汇”,通过病性病位要素分析,将因子1命名为“肝火亢盛型”是客观可行的。

第六节 中医临床四诊信息等级反应理论研究

项目反应理论(item response theory,IRT)也称潜在特质理论,是现代教育学中重要的测量理论 [72] 。它通过数学模型来展示被试的某种潜在特质(被试能力)与其对项目的反应(正确作答的概率)之间存在的关系。研究时可在因子分析的基础上借助IRT中的等级反应模型(graded response model,GRM),对每一个证候分型和与其相关的四诊信息指标间的联系进行项目的效度分析,科学地评价四诊信息轻、中、重等级的划分的重要性及合理性,为中医辨证标准中的四诊信息的筛选、构成和量级的确认提供客观依据。

一、四诊信息轻重等级反应模型

等级反应模型(GRM)是项目反应理论中的一种模型,其显在变量为等级分类资料,如四诊信息资料。假设测量工具有 m 条项目,现有 n 个个体被测量, y ij 为第 j 个个体( j =1,2,…, n )第 i 条项目( i =1,2,…, m )的测量结果,其测量结果为4个类别的等级资料。Samejima于1969年提出了等级反应模型: 。其中,

上式中,D为常数项,等于1.702, θ j 是潜在变量参数(能力参数),它表示第j个个体的能力,代表 θ j 能力下个体出现阳性的条件概率。α i 是第i个项目的区分度参数; b ik 为第i条项目的难度参数,它是项目鉴别不同受试者潜在变量特质水平(能力)的一种度量。在中医学中,能力参数 θ j 可以测量中医四诊信息得分(即病情严重程度),表示的是中医四诊信息得分为 θ j 时第i条项目出现阳性的概率。区分度系数代表某个项目鉴别不同被研究者的潜在变量特质水平(能力)的一种度量。我们在进行中医证候分型研究时,利用四诊信息等级去度量与鉴别不同患者的严重程度。难度参数是指在教育测量中被研究者在回答某个项目的正确率,而在医学中,难度参数则可用来说明被研究者在某个检测指标出现阳性结果的频率。

(一)潜在特质理论

潜在特质理论(latent trait theory,LTT)是指制约人的行为的心理品质。由于这种特质至今没有任何迹象表明它的物质存在,故称为潜在特质(latent trait)。研究者为探清其结构和性质并使之数量化,做以下定义:对于人的某种任务行为起制约作用的若干潜在特质的集合称为潜在特质空间,记为θ,其中相互独立的潜在特质的数目称为空间的维度。一个k维的潜在特质空间可表示为θ=(θ 1 ,θ 2 ,θ 3 ,…,θ k ),其中θ t (其中1≤t≤k)为一个潜在分量。

(二)项目特征曲线

项目特征曲线(item characteristic curve,ICC)是指被试项目上正确作答概率对被试潜在特质水平的回归线(图4-3)。

图4-3 项目特征曲线

我们能从ICC看出反映项目属性的参数指标,如项目难度、项目区分度等。ICC以潜在特质θ为横坐标,以正确反应或肯定反应的概率P(θ)为纵坐标。项目难度值b即为正确反应概率P(θ)等于0.5时,所对应的潜在特质θ值,而项目区分度a则为曲线在拐点b处的切线斜率的函数,斜率越大项目区分度越高。项目特征曲线是以潜在能力与项目答对概率间的关系,如果能力低,则答对的概率低。当项目是有序等级指标时,考察潜在能力与累积概率的关系时,称为操作特征曲线(OCC)。考察潜在能力与类别的概率关系时,此时称为类别反应曲线(CRC)。如:中医高血压病证候分型研究中有一个“面红”的指标,从临床上分为无、轻、中和重四个等级,对应共有四条CRC曲线,每一个等级的特征曲线与其邻近等级的特征曲线有一个交点,所对应的横坐标称为阈值。因此,四个等级的特征曲线有三个交点,因而横轴上有三个阈值,可以计算出对应于各个阈值的概率。一般来说,能力参数和难度参数都在-3~3的范围内,在项目反应理论中反映能力参数和难度参数是在同一个横轴上。

(三)信息函数

在项目反应理论中,信息函数是一个非常重要的内容,它包括项目信息函数(item information function,IIF)与测试信息函数(test information function,TIF)。每个测试项目提供的信息量是它所测应试者能力的函数,因而项目及测验信息函数值均随应试者个体能力取值的不同而变化。IIF的公式如下:

测试信息函数则是所有项目信息函数的累加总和。

在项目反应理论中,我们希望项目提供有效的信息量,有效信息量越高则估计越准确。可作为能力估计精确度的判断。项目信息函数反映了不同特性(参数)的项目在评价不同被试潜在特质水平时的信息贡献关系。项目信息量的大小由项目参数和被测个体能力决定,项目提供的信息量越大,表明这个项目在评价被测个体能力时越有价值。

二、项目反应理论的应用软件

随着计算机技术的发展,原本复杂的项目反应理论通过计算机软件编程所简化,1969年怀特和潘杰帕克森开发出IRT的第一个计算机程序BICAL。1976年洛德推出了IRT的第二个十分重要的应用软件LOGIST,这使得IRT直接进入了考试的实用阶段。1982年,密斯莱维和博克编制BILOG,可用于单参数、双参数和三参数Logistic模型的参数估计。

三、高血压病肝火亢盛型项目反应理论举隅

在二阶证实性因子分析中,我们已经详细介绍了高血压肝火亢盛型的证候要素命名方法,以及诊断肝火亢盛型主要的18个四诊信息指标,选取其中12个较为重要的指标 [73] :急躁易怒、烦躁、头痛、头胀、面红、目胀、目赤、口苦、小便黄赤、舌红、黄苔和弦脉,应用R软件构建其等级反应模型,评估上述12个四诊信息等级划分的合理性。如表4-10所示。

表4-10 肝火亢盛型12个四诊信息指的等级反应模型分析

上表12个指标的区分度参数α的值都在0.4以上,说明用它们支持证型诊断的效度是不错的,即这12个指标用来鉴别肝火亢盛型是较好的。

图4-4是高血压病肝火亢盛型四分类指标GRM模型下的12个四诊信息指标项目反应曲线图。图中横坐标表示潜在能力的标准化得分,纵坐标为不同能力下4个不同分类应答的概率。如“急躁易怒”的4个级别对应描述为“无症状或体征”、轻者为“性情偏急,事欲速成,遇事不成易动感情”、中者为“性情急躁,容易发怒”、重者为“性情暴躁,动则发怒”,4条曲线分别代表不同四诊信息标准化的得分下选项为4个级别的概率。四个等级特征曲线的交点对应的横轴上的难度参数阈值分别为:b1=0.175,b2=1.844,b3=4.345。但是第三个阈值4.345很大,即认为急躁易怒在肝火亢盛型的患者出现性情暴躁,动辄易怒的重者可能性小。从“头痛”的特征曲线上看,四个等级的交点分不开,说明实际工作中头痛在肝火亢盛型诊断中的等级区分不是很好。上表4-9结果中,所有指标难度系数阈值都超出了3,说明当指标出现这样大的值时,其可能性是很少的,提示了我们有必要重新考虑指标分为4个等级是否有必要。因此,我们重新审查了这12个指标原始资料,每个指标在各个分级中的频数分布,结果显示在等级为“重”的频数确实都很少,因此可以考虑将“中”和“重”的两个级别合并。以面红为例,指标面红(代码S1021300),其4个等级特征曲线的交点可以得到横轴上的难度参数阈值分别为:b1=0.559,b2=2.568,b3=5.663。从ICC图中看出,3个阈值在横轴上分得比较开,但是第3个阈值5.280很大,说明出现等级为“重”的可能性少。另外舌红、黄苔、弦脉在证候潜在得分较大时回答重级的概率还是很低,即这三个条目主要以无、轻、中为主。说明四诊信息的量化等级必须进行科学的研判,才能真正地反映临床证候分型的轻重程度。

图4-4 高血压病肝火亢盛型12个四诊信息指标项目反应曲线图 +jItX70q8h93txd+uNaMV2AwL/fWFbpnbXoKtZF3xyzgqYQtmZf4WraPbl5LSThm

点击中间区域
呼出菜单
上一章
目录
下一章
×

打开