综合评价方法及其医学应用（第2版）最新章节_史静琤著

第一章
综合评价概论

第一节　基本概念

一、评价与综合评价

随着决策科学的发展，评价科学也在不断发展。所谓评价（evaluation），是基于特定目标，通过对照某些标准来判断观测结果，并赋予这种结果以一定的意义和价值的系统过程。一般而言，观测结果仅能反映现状，只有通过评价之后，才能对现状的意义加以判断。例如，身高140cm，体重35kg，仅就这两个数字而言，并没有什么实际意义，而当与某一年龄的生长发育标准进行对比时，就能看出其意义与价值了。

评价应用于人类的生产生活实践已有数千年的历史，但关于评价的第一篇正式记载是1792年William Farish使用定量分数来评估学生的表现。经过200多年的发展，评估已经发展成为一个成熟的研究领域。

单一因素的评价易于实现，只要按一定的准则分别依据该因素给研究对象一个评价等级或分数，依等级或分数高低，便可排出优劣顺序；但是在医疗卫生实际工作中，对于复杂的状况，因同时受到多种因素的影响，必须综合考察多个有关因素，依据多个有关指标对评价对象进行评价，并排出优劣顺序。综合评价（synthetical evaluation）指基于特定的决策目标，从两个或多个方面收集相关信息，按照一定的评价标准，采用适当的方法和技术，对各备选方案的价值或优劣进行系统的评估，从而为决策提供有效证据。例如，某儿童的营养状况评价，就是综合分析所摄入的食物种类、数量、配比、吸收、疾病情况，以及身体发育、形态、功能、智力、遗传等有关因素，而得到的总的印象或总体评价。

综合评价不同于多个指标分析的简单相加，而是在掌握有关历史资料的基础上，将各种有关因素的信息集中，依据其内在联系进行适当加工提炼，并密切结合医疗卫生工作实践，用数理统计方法构建恰当的评价模型，以谋求对评价对象的类别及其优劣等级进行较为客观的判断，为医疗卫生工作决策提供依据。

作为当代的医疗卫生工作者，在总结经验、考核效果和进行科学研究过程中，经常会遇到综合评价问题。医疗保健决策基于不同人群的视角通常会有不同的回答，即使是同一人群，往往也需兼顾决策的多个方面，这类决策往往错综复杂。无论是宏观决策，例如：政府预算分配，医改方案的选择；还是微观决策，例如：患者最佳治疗方案的选择，某地中学生心理健康教育模式的选择等，影响这些决策的因素是多方面的，也往往存在多个备选方案。在实践中，依据相关信息评估备选方案以做出明智的决策，尚需付出巨大努力。对这类涉及多个目标的决策，采用综合评价的系列方法，对各个可能的备选方案进行优劣评价和排序，通过结构化、清晰的方法辅助决策，可增强决策的一致性、透明度和有效性，提高决策质量，更好地指导医学实践。

医疗卫生工作的理论和实践是一个广泛的领域，因而有关的综合评价必然涉及各个方面，有着十分丰富的内容。

根据评价手段，可分为定量评价（quantitative evaluation）与定性评价（qualitative evaluation）。定量评价较为客观、全面，易为人们所接受。对于一些缺乏客观、定量评估指标的情形，定性评价是很好的补充。

在医学研究中，根据评价的领域，可分为临床评价（clinical evaluation）、卫生评价（health evaluation）和管理评价（administrative evaluation）等。

临床评价包括诊断性试验和方法评价，用以评估某种诊断手段的应用价值，通常结合考察其敏感性、特异性与准确性进行综合评定，例如心电图运动试验对诊断冠状动脉狭窄的应用价值评估；包括疗效评价，用以评估各种临床治疗药物或疗法对某种或某类疾病的治疗效果，往往根据选定的多个疗效指标，对其有效性及安全性进行综合评价，例如内科疗法与外科疗法对颈总动脉病变所致一过性脑缺血的疗效评价；包括预后及转归评价，用以评估某些临床措施或病程中呈现的某些征象对疾病预后和转归的影响等。

卫生评价包括环境评价，用以对生活环境或生产环境的优劣进行评估，例如，大气质量、水质、土质污染程度的评价；包括营养评价，用以评估群体或个体营养状况以及某些食品或营养素的营养价值等，例如，婴幼儿营养状况的评价、老年人群蛋白质消化吸收状况评价等；包括生长发育评价，用以对不同发育阶段的儿童及青少年体格发育、行为智力发育与心理状况进行评价；还包括疾病防控效果评价、生活质量评价等。

管理评价包括事前需求评价（needs assessment），用以评估新方案在实施之前的需求程度和方案的可行思路，例如通过收集人群的意愿数据和利益相关者（stakeholder）的意见等评估肥胖预防措施的需求和相关政策的可行性；包括过程或实施评价（process or implementation evaluation），用以评估方案是否按计划实施，例如评估肥胖预防措施实施后干预对象是否被动员，以及相关意识是否有提升；包括结果评价（outcome evaluation），通过评估方案完成后的结果或结果的进展来衡量方案在目标人群中的效果，例如评估肥胖预防措施所引起的目标人群态度、行为、健康结局，甚至相关政策的改变；包括影响评价（impact evaluation），通常用以评估方案对于人群水平或远期的影响，例如评估肥胖预防措施对目标人群远期健康结局的影响。

按评价阶段，可分为预评价（pre-event evaluation）、中期评价（interim evaluation）和终结评价（afterevent evaluation）。

预评价，是在制订某项医疗措施计划时进行评价，这时还未开展大量的试验研究工作，还缺乏来源于实践的数据，主要是参考有关资料，汇集各方面意见，通盘考虑方案中的各种问题，制订切实可行的方案，这种评价具有预测性，属探索性评价。

中期评价，是在大量进行试验研究工作之后进行的，着重验证设计或方案的正确性与可行性，研究暴露出来的问题，并采取必要的措施或对策，以决定在原计划或方案中应保留的部分、应改进的部分及应摒弃的部分。

终结评价，是在试验研究工作全部完成以后进行的，属于推广应用前的评价，着重全面审查研究成果，并与同类成果或技术在科学性、先进性、实用性、经济性等各方面进行综合比较，以决定优劣取舍。

对某一具体事件的评价，可能既涉及前一种分类的内容，又涉及后一种分类的内容；既包括对整个系统的评价，也包含对可靠性、可行性方面的评价；而且对于同一事件，依不同目的往往有不同的评价标准，这就使得评价工作复杂化和评价结果多样化。

二、综合评价的数据准备

（一）高质量的内容丰富的数据信息是综合评价的基本前提

信息的缺乏，将无法认识事物间的相互联系，也无法探求事物的规律。这些信息，有反映现状的，有反映历史的，有定量的，也有定性的……从某种意义上讲，综合评价就是信息管理的全过程，即信息的收集、处理和分析的过程，只有在充分掌握有关评价对象相关因素信息的基础上，才有可能作出科学可靠的评价。

1.数据的收集

是一项至关重要的基础工作，有的信息来自第一手数据，有的来自第二手数据。

第一手数据，包括以各种形式直接收集到的数据，主要来源于三个方面：各种统计报表，各种医疗卫生工作记录和报告卡，以及专题调查或实验（包括各种形式的抽样调查，普查和典型调查），获取第一手资料往往需时较长，费用较高，但较为可靠。

第二手数据，多为已经公布或发表的有关资料。随着信息技术的高速发展，医疗卫生工作者有越来越多的机会获取公共数据，用于综合评价。这类数据易于获取，可以节省大量的人力、物力和财力。其缺点亦显而易见：一方面不是为某项研究量身定制，未必能够获取所需的全部数据信息；另一方面，二手数据质量良莠不齐，需进行仔细的数据核查与筛查。

收集的数据，应符合以下要求：

（1）完整：内容全面，无遗漏，范围齐全，时间连续。

（2）准确：这是最重要也是最基本的要求。资料应准确反映实际情况，各项目之间无矛盾，各数字无不合理现象。

（3）及时：有良好的时效性，从某种意义上说，信息的价值取决于提供信息的时间。

（4）适用：信息能反映本质问题，包括那些实际上能产生潜在影响的信息，有利于提高工作效率。

（5）经济：以较低的投入获取所需的信息，保证评估的经济可行。

2.数据的预处理

信息的准确和可靠性直接影响到评价的客观性，由于多方面的原因，我们收集到的资料不可避免地会受到某些干扰。同时，考虑到资料使用的方便，有必要对数据进行预处理。

数据预处理，即用各种方法对原始资料进行核查与筛查，确保其准确、完整，并使之条理化、系统化的过程。包含数据的准确性核查，通过人工核验或统计量、统计图表来检验数据的准确性；包含识别与处理可疑的离群值（outlier），从而改善资料分析条件的过程；包含缺失数据（missing data）性质与数量的评价，并按照科学原则进行相应处理，从而保证资料完整性的过程；也包含定性资料或等级资料与定量资料间的相互转换，尤其是定性或等级资料定量化，从而适于进一步分析的过程；也包含由已知信息来推算有关的未知信息，从而获得新的信息的过程。

（1）数据准确性核查与整理：可通过双人核对或录入数据统计描述的方法核验数据中的错误或遗漏，对各项目之间存在的矛盾与不合理现象，应根据实际情况予以纠正、补充，或删除；在此基础上，根据研究设计中整理分析计划的要求进行合理的分组汇总。

（2）离群值的查找与处理：在一组观测值中单变量极端取值（单变量离群值）或两个或多个变量的极端组合（多变量离群值），即为可疑的离群值，这样的离群值会使综合评价结果失真。

通常情形下，对单变量计量资料离群值的查找，当定量资料服从正态分布时，可使用拉依达准则、格鲁布斯法进行单变量离群值的识别；当资料不服从正态分布时，可采用 Q 检验法查找单变量离群值。此外，也可借助于直方图、箱式图、P-P图和Q-Q图等发现潜在的离群值；对多变量离群值的查找，可计算马氏距离（Mahalanobis distance）、杠杆值（leverage value）与影响值（influence value）等，读者可以参考有关专著。

导致离群值的原因可能是数据录入错误（予以纠正）、缺失值的录入代码没有专门定义（标记）、观察单位不属于目标人群（删除）、测量值为非正态分布中的一些极端值（变量转换），应根据情况予以相应处理。

（3）缺失数据处理：数据缺失是评估中常见的问题之一，可由各种原因引起，如：动物死亡、设备故障、调查对象的退出、失访或人为的失误等。

在完全随机缺失或随机缺失的情形下，如果缺失值数量不大（不足5%），对缺失数据可予删除或进行缺失值估计。常用的缺失值估计方法有经验法、均值替代法、回归法、期望最大法（expectation maximization algorithm，EM法）等，读者可以参考有关书籍。

（4）各种类型资料间的数量转换：在进行综合评价时，必然涉及多个评价指标，有些是定量的，有些是定性的或等级的。为了满足某些评价方法的要求，在某些情况下，需要把一种类型的资料转换成另一种类型的资料。

计量资料转换成计数资料或等级资料的过程较易实现，只要依据有关专业知识，合理制订不同类别（或等级）间的数量界限，并对各观察单位进行清点计数，便可将一组计量资料转变成计数资料或等级资料。例如，脉搏次数（次/min）本为定量指标，如果规定脉搏数少于60次/min为缓脉，60～100次/min为正常，多于100次/min为速脉，则该定量指标就转换成了有3个等级的等级资料，可按缓脉、正常、速脉3个级别来清点观察单位数。

计数资料与等级资料转换成计量资料的过程较为复杂。一方面，某些定性指标本身难以量化；另一方面，对那些半定量的等级资料，如何对各等级进行恰当的赋值，使得这种定量能较为准确地反映各等级间的差别，也是一个值得探索的问题。医学现象本身是一个极其复杂的过程，目前很多医疗卫生评价指标都缺乏进行客观度量的有效手段，例如，头痛或腹痛程度，就只能凭患者的主诉与医生的判断加以度量。与医学有关的社会、政治、文化等诸方面评价指标的客观度量就更为困难了。因此，医学现象的数量化过程，是计量医学发展中的一个问题，也是评价科学发展中的一个问题。

对于按性质分类的计数资料，如果研究的属性限于两类，则一般用0和1将其转换成（0，1）变量；如果研究的属性多于两类，一般说来，一个有 m 种属性分类的定性指标，可转换成（ m -1）个（0，1）变量。如血型，有O型、A型、B型、AB型4个分类，则可以用 X ₁ 、 X ₂ 、 X ₃ 和3个哑变量进行赋值，可规定O型为 X ₁ =1，其他型为 X ₁ =0，A型为 X ₂ =1，其他型为 X ₂ =0，B型为 X ₃ =1，其他型为 X ₃ =0，即O型用 X ₁ =1， X ₂ =0， X ₃ =0表示；A型用 X ₁ =0， X ₂ =1， X ₃ =0表示；B型用 X ₁ =0， X ₂ =0， X ₃ =1表示；AB型用 X ₁ =0， X ₂ =0， X ₃ =0表示。

对于等级资料，常按照各等级由低到高的排列顺序转换成取值由小到大排列的一个变量 X ，各等级间的数量差异应酌情而定，可取公差相等或不等的等差级数，甚至可取等比级数。例如：腹痛分成不痛、轻度痛、中度痛和重度痛4个等级，则可规定不痛为 X =0，轻度痛为 X =1，中度痛为 X =2，重度痛为 X =3等。

（5）常用的信息推算法：依据已掌握的信息及其与客观事物间的联系，我们可以间接推算出由于各种原因不能直接测定的所需信息。

1）平衡法：利用平衡关系式推算某些短缺资料。例如，在“某年人口数=上年人口数+同年出生数-同年死亡数+同年迁入人口数-同年迁出人口数”的平衡关系式中，如果缺少迁出人口数，其他数据均为已知，则可由以上关系式推出：同年迁出人口数=上年人口数+同年出生数-同年死亡数+同年迁入人数-某年人口数。

2）几何增长速度法：在已知历史数据按等比级数增长的条件下，可用此法推算两个历史数据之间所短缺的某些历史资料。设已知某事物的平均发展速度其中 a _n 为资料中最后一年的某指标量， a ₀ 为第一年的某指标量， n 为年份差数，则可据此推算 a ₀ 至 a _n 年间任意一个年份的某指标量，设为 a _k ，则 a _k 为：

式中 y 为推算年份与 a ₀ 之差值。

3）因素推算法：利用现象内部各构成因素之间的变化关系进行资料推算。例如，由某年龄组人口数=总人口数×该年龄组人口构成比，便可在已知某地总人口数及人口构成的历史资料的基础上，推算某地各年龄组人数。

（二）提倡现成历史资料的综合利用

不少医疗卫生单位长期以来在利用各种现成的历史资料方面存在着调查研究多，资料分析少；登记材料与表格多，科学结论少；单指标分析多，多指标综合评价少等现象。这使得现有的信息得不到充分利用，因此，提倡对现有历史资料的综合利用，甚至着手实现信息的区域性合作与国际合作，充分利用现有的计算机软件，提倡专业工作者与卫生统计工作者进行广泛深入的协作，将使得通过各种途径而获取的多方面信息发挥最大的作用，也将使得各种形式的综合评价模型更加稳定可靠。

第二节　综合评价的一般步骤

对某事件进行多因素综合评价的过程，实质上就是一个科学研究与决策的过程，原则上应当包括设计、收集资料、整理资料和分析资料几个基本阶段，在实施中应着重注意以下几个基本环节：

1.定义决策问题，明确评价目标

清晰明了地阐述决策问题，准确清楚地定义评价目标是确保综合评价后续步骤顺利进行的关键环节。综合评价方法是解决多准则决策（multiple criteria decision analysis，MCDA）问题的有效途径。MCDA最早由法国经济学家Pareto于1896年从政治经济学角度提出，是决策理论的扩展，涵盖了任何具有多个目标的决策。将多个评价标准，通常是相互冲突的标准，组合成一个整体评估，来评估备选方案，辅助决策。

根据评价目标，可以明确决策者和利益相关者。决策者指在各个备选方案之间作出选择的组织或个人。利益相关者是对各备选方案提供偏好信息的相关人员。利益相关者的确定应基于评价目标，可包括临床医护人员、患者、医疗支付方（如：医疗保险机构、患者等）、相关专业人员和一般人群，利益相关者亦可是决策者本身（例如，参与共同决策的患者）。基于决策问题，也可以确定各可能的备选方案。

2.选择评价指标

综合评价指标（evaluation indicator）可以是定量、定性、或等级的。根据评价目的，评价指标可以来源于文献回顾、核心工作组讨论、专家咨询等多种途径。研究者亦可以采用目标树图（详见第七章）的思路将评价目标逐级分解，得到各级评价指标。进而，应对可选指标进行筛选，力图分清主次，抓住主要指标，剔除次要指标。一方面使得建立的评价模型简单化，能就事件的主流或本质进行评价；另一方面，还可以节省计算量，并有利于提高评价模型的精度与准确度。

目前，筛选评价指标主要根据有关的专业理论和实践，来分析各评价指标对结果的影响，挑选那些代表性、确定性好，有一定区别能力又互相独立的指标组成评价指标体系，体系应具有完整性。所谓代表性，指各层次的指标对所选的各层次特征能最好地表达；所谓确定性，即指标值确定，而且其高低在评价中有确切的含义；所谓区别能力，或灵敏性，即指标值有一定的波动范围，不同评价等级间有一定的差距；所谓独立性，即选入的指标各有所用，相互不能替代。所谓完整性，是指评价指标体系全面，能很好地契合评价目标，回答决策问题，没有重要的方面被遗漏。

3.评价数据的获取与预处理

为保证评价的科学与客观，应采用严谨的方法采集评价数据并进行预处理（详见本章第一节）。

4.各备选方案评估指标赋值

选定的评价指标应给予明确的定义，按照指标的实际意义分为高优（指标取值越高越优，如：治愈率）、低优（指标取值越低越优，如：病死率）和中优（指标取值为某个区间较优，越靠近这个区间越优，如：患者自付比例）等类别，并给出具体的评分规则。基于评价指标各备选方案的实测情况，按照评分规则进行赋值。若需要，可合理确定各单个指标的评价等级（evaluation grade）及其界限。

5.确定评价指标的权重

评价指标权重（weight）是指利益相关者对于各评价指标的偏好。权重代表利益相关者在各评价指标之间的“权衡”，即根据评价目的，确定诸评价指标在对某事物评价中的相对重要性。

权重的确定，归纳起来有主观定权法和客观定权法两类，前者主要包括专家评分法、成对比较法、Saaty权重法等；后者主要包括模糊定权法、秩和比法、熵权法、相关系数法等。不同方法确定的权重分配，可能不尽一致，这将导致权重分配的不确定性，最终可能导致评价结果的不确定性。因而在实际工作中，不论用哪种方法确定权重分配，都应当依赖于较为合理的专业解释。

6.建立综合评价模型

根据评价目的，数据特征，选择适当的综合评价办法，建立综合评价模型（evaluation model），计算综合指标。

广义来说，目前常用的多种医学统计学方法及其衍生的方法似乎都可用于进行综合评价。因为任何统计指标都综合了一定的有关信息，例如，期望寿命这个统计指标，就综合了某地某年居民健康状况、卫生状况、环境状况、经济文化状况以及社会政治因素等多方面的信息，或者说，这个指标可用于对某人群上述几方面的状况进行综合评价。此外，如多维列联表分析方法、析因试验设计分析方法、正交试验设计分析方法等，都可综合多个因素对某一结果进行综合评价。

近年来随着电子计算机的发展而发展起来的多元统计分析方法，如多元回归和逐步回归分析、判别分析、logistic回归分析、因子分析与主成分分析、聚类分析、时间序列分析、广义线性混合效应模型等，已经在很多疾病的诊断、治疗、预后估计、危险因素分析以及少年儿童生长发育分析等方面得到成功应用，无疑可作为综合评价的方法加以运用。20世纪60年代以来，随着模糊数学的发展而发展起来的模糊多元分析方法，如模糊聚类、模糊判别、模糊综合评价等方法，也大大丰富了综合评价方法学的内容。当然，鉴于评价通常服务于决策，因而诸多决策分析方法也可用来进行评价，例如决策树法等。

此外，在医疗卫生工作实践中，人们还采用了一些较为简单、快速、实用而具有非参数色彩的综合评价方法，如综合指数法、综合评分法、秩和比法、包络分析法、TOPSIS法、密切值法、功效系数法、交叉积差法、综合图形法、优序法、普通相关法、灰色模型法、层次分析法等。这些方法已经广泛应用于医疗卫生的各个领域。在模型建立后的应用实践中，应对选用的评价模型进行考察，并不断修改补充，使之具有一定的科学性、实用性与先进性，然后推广应用。

7.不确定性分析

在综合评价的过程中，选择不同评价指标、指标权重和利益相关者，都可能影响备选方案的排序，即使得评价结果具有不确定性。如前文所述，指标和权重的选择应以较好的专业解释为依据。即便如此，了解这种不确定性对综合评价结果的影响，以评估决策结果的稳健性仍尤为重要。参数不确定性（例如：指标权重赋值的不确定性）可以使用概率敏感性分析技术来解决，结构不确定性（例如：评价指标的选择）可以通过情景分析来解决，例如：可以使用不同的评价指标集来分析综合评价结果是否不同。在综合评价模型中，亦可以使用从不同利益相关者群体获得的权重得分来研究亚组间偏好的异质性。

8.报告结果与辅助决策

综合评价结果可以表格或图形的形式呈现。通常按照综合指标对各备选方案进行优劣排序，为决策提供信息，并指导后续实践。在前述步骤中，成本数据亦可作为评价指标之一，来进行经济学综合评价，以支持资源分配决策。

上述各步骤操作建议详见表1-1。

表1-1　综合评价操作步骤建议

续表

需要说明两点：

其一，上述步骤建议为读者提供了一个进行综合评价的范式，但并不意味着每一个评价都需要按清单里的所有步骤，或清单步骤的特定顺序进行。研究者可以根据实际情况，进行选择。例如：在某些研究中，提出决策问题、明确评价目标、筛选评价指标、获取评价数据、确定权重（例如：各指标等权），并计算综合指标，就足以很好地指导实践工作。

例如：评估新生儿缺氧状况的Apgar评分方法，就是综合评价方法成功应用的例证之一。20世纪30年代新生儿死亡率居高不下，美国麻醉科医生Virginia Apgar发现医生们没有办法判断那些先天不足新生儿的状况，从而无法进行合理救治，更多选择放弃，是导致新生儿死亡率持续高位的主要原因。

Apgar守着产房，记录救助婴儿的数据，琢磨如何对新生儿缺氧状况进行评价，判断哪些孩子能救得活。就在这些成堆的数据中，Apgar找到了规律，并将其简化，总结成评估新生儿缺氧状况的Apgar评分，通过五个方面快速打分判断婴儿的情况辅助临床决策，一个有经验的医生完成一次评分甚至不需要一分钟。首先根据医学理论与临床经验，选择肌张力（activity）、脉搏（pulse）、皱眉动作即对刺激的反应（grimace）、外貌（肤色）（appearance）、呼吸（respiration）5个体征作为评价指标，并赋予相等的权重；然后依据理论与实践，确定各单指标三个评价等级的界限及0、1、2三个分值的评分标准，建立如表1-2所示的评价模型；最后确定以累加法累计某评估对象各指标评分，并确定正常、轻度缺氧、重度缺氧三个等级的数量界限。Apgar采集了更多数据，开始结合评分制定对应的救助方案。

表1-2　新生儿Apgar评分标准 ^*

^* 以累加法累计总分：8～10分为正常；4～7分为轻度缺氧；0～3分为重度缺氧

通过实践检验，该模型仍然是产科临床用以判断新生儿有无窒息及窒息程度的常用方法。“患者将生命交给你，你应该明白怎么做。”是Virginia Apgar一生所恪守的原则，这也体现了评价与决策在医疗卫生实践中极其重要的作用。

其二，综合评价方法亦有其局限性，主要表现为：①综合评价目前仍是一个不断发展和完善的分析过程，本书所介绍的相关方法很多只涉及统计描述，无法进行统计推断；②可以采用多种客观或主观的方法筛选评价指标、确定指标权重，用不同的方法确定的指标或权重分配可能不一致，这将导致分析结果的不确定性；③不同的综合评价方法对同一批对象评价的结果亦可能不一致。对于②和③所产生的评价结果的不确定性可根据专业知识、不确定性分析结果与实践经验加以解释和决策。

第三节　综合评价方法的主要应用

随着社会发展，世界联系越来越紧密，人群健康状况所带来的影响往往是多维度、多层面的。很多情形下，单一的评价目标和评估指标无法很好指导实践。例如：2019年12月以来，新型冠状病毒肺炎给全世界每个人生活的方方面面都带来了不同程度的影响。疾病及其防控措施带来了医疗服务模式的转变（基层卫生服务数量的增加、远程医疗的发展等），教学、办公方式的革新（网络课程、网络会议数量激增），带给人们心理的冲击（人与自然的观念、人生的意义与面对死亡的态度等），造成全球经济的低迷（尤其是出口贸易、旅游、服务业）等。

越来越多的研究者认识到，当我们在对健康及其干预措施进行评价时，除了考虑与健康维度相关的结果外，还有必要考虑更多方面。Richard D.Smith和Mark Petticrew指出目前宏观干预与微观评估并存的矛盾，提出公共卫生评价发展的重点应该是拓展评估的空间与广度。2014年世界卫生组织也强调，中低收入国家制定卫生保健优先事宜不仅要考虑成本效益，也需要充分解决卫生系统的全部目标。可以预见，综合评价方法在医疗卫生领域的应用将得到长足的发展。

目前，医疗卫生领域工作者应用综合评价方法面临的主要挑战包括：①何谓医学综合评价“规范的”过程？在综合评价辅助医疗卫生决策过程中需要统筹考虑哪些问题？②在错综复杂的决策问题面前，有哪些常用的综合评价方法？各综合评价方法基于不同的理论基础，有各自的优势和局限，我们该如何进行选择？缺乏系统的参考，实践中可能导致方法的误用，甚至误导决策。③在医疗卫生不同的领域，综合评价方法该怎样应用，可以为工作和决策提供怎样的支持？有怎样的应用实例可供参考？④尽管很多综合评价方法并不复杂，但一些常用的专业统计软件缺乏相关模块，如何借助软件实现综合评价过程？

本书将按概论篇、方法篇、应用篇和软件篇四个部分对综合评价进行全面介绍。第一部分概论篇，是方法论的部分，共3章，主要介绍综合评价方法的理论体系、基本概念、与主要步骤。方法步骤中最为关键的评价指标选择与权重估计，和国内医疗卫生领域报道较少的不确定性分析方法各自单列一章。第二部分方法篇，共13章，从统计方法的视角介绍各常用的综合评价方法，包括：综合评分法、综合指数法、秩和比法、层次分析法、TOPSIS法、模糊综合评价方法、数据包络分析法、人工神经网络法、多变量统计分析方法、卫生经济学评价、空间分析方法、meta分析方法，以及综合评价其他方法。第三部分应用篇，共9章，从医学应用的视角介绍综合评价方法如何应用于医学管理、糖尿病转归风险评估、中医药研究、临床实践、心理和精神卫生领域、公共卫生与预防医学领域、突发公共卫生事件应对，以及生活质量评价等各个领域。第四部分软件篇，共2章，主要介绍常用综合评价方法在R语言和SPSS中的实现过程。

（史静琤　孙振球）

第一章 综合评价概论

第一节 基本概念