老年卫生学最新章节_何耀著

第二章
老年健康与生活质量评价

对健康状态进行科学的评价是及时发现老年人疾病、亚健康状态及潜在身体功能丧失以及相关危险因素的必需，也是老年人群维持生活质量及健康期望寿命的保障。生活质量是健康状态评价的重要指标，从生理、心理及社会功能等各方面反映了老年人的健康状态，并可作为疾病预防和治疗是否有效的评价指标。由于老年人生理及认知功能的变化，在评价方法的选择上需考虑其在老年人群中的可行性、可靠性和有效性。本章中，我们将在第一节尝试对老年健康的内涵及外延进行阐述，第二节到第五节重点阐述生活质量、生活满意度、日常功能及疾病负担等老年健康的主要维度的概念及常用评价方法，并在第六节对上述评估中需要考虑的方法学问题做一个总结性的呈现，其目的是为公共卫生和临床科研或实践中开展老年健康评估提供方法学参考。

第一节　老年健康概述

一、老年健康的定义

健康状态的标准化评估是现代公共卫生、临床医学及卫生管理等领域科学研究及实践的基础。通过对人群健康状态的量化，我们可以获得人群疾病与健康水平状态，由此确定不同人群或地区的医疗卫生需求；通过关联健康状态与自然环境、生活行为方式、社会心理及生物学特征等探索人群健康的影响因素，从而形成促进（或保护）健康状态的干预措施，并通过比较有无干预条件下健康状态的差异验证这些干预措施的科学性、安全性、有效性和可行性，以便最终推广到全人群。

“健康”是一个复合概念，是机体与周围的自然和社会环境发生交互作用的结果。因此，健康的评估应包括“健康”定义中的生理、心理及社会适应3个维度，还需要明确健康状态对个体、群体乃至社会结构的影响。常用的健康相关评估体系多在中青年人群中产生并验证，而老年人由于生理机能和认知功能的自然衰退，参与社会生活模式和程度的变化，常用评估方法和指标无论从内容的特异性，实施的可行性、数据的可靠性，还是结果的公共卫生或临床意义解读方面，都需要进行相应的“适老化”调整，或构建专门针对老年人群的指标体系。

寿命延长不仅指生存时间的延长，同时强调健康地生存，既要“活得长”，也要“活得好”。WHO曾于20世纪中期提出健康的定义：指个体不仅没有疾病和衰弱，且在身体、精神和社会上都呈现完满状态。并对老年人的健康标准提出了多维评价，具体包括五个方面，即精神健康、躯体健康、日常生活的能力、社会健康和经济状况。国家卫生健康委于2022年发布了《中国健康老年人标准2022》（见表2-2-1），并给出了简要的评分方法及正常值范围。该标准从九大方面定义了老年人健康，指出健康老年人是指60周岁及以上生活自理或基本自理的老年人，其躯体、心理、社会三方面都趋于相互协调与和谐状态。其内容体现了WHO“健康”的内涵，对影响老年人健康的各方面均予以了考量，为进一步细化老年健康评估提供了指导性原则。

表2-2-1　中国健康老年人标准

二、老年健康评价的维度

基于上述生理、心理及社会功能的多维度健康定义，对老年人群健康状况的评估也应该包含多维度的内容。老年人健康受损维度的不同，其对应的资源分配、慢性病防治、养老模式等也应有所不同。因此，多维健康评估结果可以反映老年人群各维度的健康状况，卫生相关部门还可根据评估结果对不同的老年人进行不同的卫生资源分配，选择不同的预防保健模式，全面的老年健康评估是老年卫生服务的核心。

健康状态显著影响个体生活质量，因此可以通过对生活质量的评估来反映个体健康状态。世界卫生组织（WHO）将生活质量定义为不同的文化、价值体系中的个体对与他们的目标、期望、标准及与关心事情有关的生活状态的综合满意程度及对个人健康的一般感觉。一般认为生活质量是对个人或群体所感受到躯体、心理、社会各方面良好适应状态的一个综合测量。生活质量是一种个体对其生活全综合的主观感受，与健康状态密切相关，其内容是多维且随时间变化的。按照这一定义，日常活动功能，对生活的满意程度，以及因为年龄增长所带来健康问题对个人经济状态和社会角色的负担，即疾病负担，都属于生活质量范畴。

因此，对于健康状态的评价，也就是采用可靠、可行的方法对上述各个维度进行量化。这个量化过程可以针对其中的某一个维度进行，也可以通过多维度量表获得每个维度的因子分，然后应用统计学和心理测量学方法进行汇总，得出一个反映个体健康状态的总体评分。

第二节　老年生活质量评价

一、生活质量的概念

生活质量可以分为客观生活、主观感受及价值观期望三个层面，包括在病伤、医疗干预、老化和社会环境改变的影响下个人的健康状态，以及与其经济、文化背景和价值取向相联系的主观满意度。对于老年人群，好的生活质量包括：没有生理症状的干扰，心理情绪的稳定，生理及认知功能正常，正常的人际关系（包括与家庭成员及朋友），积极参与并享受社会活动，对疾病相关医疗和经济状况的满意，以及亲密关系的维持。虽然学者们对生活质量所包含内容的定义并不完全一致，但均认为应包括4个主要维度：生理功能、情感及心理功能、社会功能及疾病相关症状及质量。

与传统的健康评价指标，如疾病的诊断和实验室检查相比，生活质量具有以下特征。

（1）生活质量是一个对健康状态的总体评估，由多个维度组成。

（2）生活质量既包含健康状况，也包含社会生活质量。

（3）生活质量不但测量健康的负向方面，也测量健康的正向方面。

（4）生活质量评价的主体是被测量者，着重于某种状态的人及其行为能力，更注重疾病造成的后果。

（5）生活质量评价常使用研究对象的自我报告，重视对主观感受的评估。

生活质量指标常常用于公共卫生及临床医学的多个方面，包括：健康状态和生活质量的测定评价；选择治疗方法；计算质量以调整生存年数；成本-效益分析。

二、生活质量评估方法

作为对主观感受的评估，生活质量指标的客观性和可靠性常常用心理测量学特征如可信度、有效性、区分度等指标来进行量化，具备合格心理测量学特征的生活质量量表在测量主观感受方面，其可靠性和可行性均优于传统的客观指标。

生活质量量表可以是多维度综合性的，也可以是单维度甚至单条目。按研究对象特征分，生活质量量表可以分为总体人群和特殊（老年人或疾病状态）人群两大类。老年人群受心脑血管疾病、认知受损及恶性肿瘤等慢性疾病困扰，相关研究可以采用针对这些疾病患者的量表对研究对象的生活质量进行评估，以获得较普适性量表更为特异性的数据。

本节将按维度-人群的顺序对量表进行梳理。由于老年人群专用量表较少，多数研究采用普通人群或疾病特异量表，本节内容也将集中在常用量表，并对其在老年人群中的应用情况进行介绍。对每个量表，我们将具体介绍测量内容、心理测量学特征、应用参数、分析方法及临床解读等量表质量和应用的基本特征。

（一）健康调查简表

健康调查量表36（Short Form 36，SF-36）是由医学结局研究（medical outcome study，MOS）开发的普适性健康调查量表，其设计目标是获得成年人对自身健康（健康）及幸福感（well-being）的感受。SF-36一共有36个条目，分为8个维度：生理功能、生理角色、躯体疼痛、一般健康状况、活力/疲乏、社会功能、情感职能以及心理健康。这8个维度可归纳为两个组分评分：生理组分评分（physical component summary，PCS）和心理组分评分（mental component summary，MCS）。另外，SF-36还包含一个健康变化（reported health transition，HT）指标，用于评价过去一年内健康状况的总体变化情况。SF-36是1992年由Ware和Sherbourne在Stewartse研制的医疗结局研究量表（medical outcomes study-short form，MOS SF）的基础上修订而来。中文版由浙江医科大学社会医学教研室翻译并进行了验证，除社会功能和精力两个维度外，其他维度均获得了与美国人群相似的信度、效度及反应度。值得一提的是，SF-36在传统的信度和效度验证基础上，首次进行了自我报告量表应用性能的验证，包括基于不同疾病严重程度的已知分组效度（knowngroup validity）以及对健康状态变化的反应度（responsiveness）。这两个测量学特征的引入，为量表的选择提供了更为实用的统计学依据。SF-36已广泛应用于普通人群的生存质量测定、临床试验效果评价以及卫生政策评估等领域。

SF-36采用语言分级评分法（verbal rating scale，VRS），不同的问题根据具体情况采用了2、3、5、6等4种选项数目。第一版SF-36除健康变化相关的两个问题外，其余问题采用的回顾时间（recall period）为过去4周，即请研究对象回忆过去4周的健康状态；后续研究验证了1周及24小时回顾时间段。整个量表可在5分钟内完成。评分越高，说明健康状态越好。数据分析按照评分手册进行，包括两个步骤：首先，每个条目评分进行0～100分转换，0分和100分别代表可能的最低和最高分；然后对每个维度的条目评分进行平均，得到8个维度评分（scale scores）用于进一步的统计分析，任何缺失条目不参与维度评分计算。SF-36在多个国家人群中进行了正常值研究，美国人群正常值范围可以从SF-36操作手册获得。

1996年，在SF-36的基础上，Ware等选择12个具有代表性的条目制定了更为简洁的SF-12。这12个条目可归纳出2个因子分，即生理组分评分（physical component summary，PCS）和心理组分评分（mental component summary，MCS），对36条目版本生理和心理评分的解释度R方分别达到0.911和0.918。多个研究表明，无论是PCS和MCS这两个组分评分还是8个维度评分，SF-12都与SF-36趋于一致，其心理测量学特征（信度、效度及反应度）也都满足量表应用所需。2018年，一项汇集了25项多国研究的Meta分析显示，纸质版和电子版本的SF-12在测量性能上均与SF-36等效，提示两个版本的量表均可用于多种疾病人群、多种文化背景及数据采集模式的研究设计。

对65岁以上人群使用SF-36的数据分析发现，84%的研究对象可以在10分钟内完成（中位时间8分钟），信效度满足临床应用要求。75岁以上的门诊患者人群中有32%表示无法自主完成量表，需要研究者协助。在所有65岁及以上患者中，有26%的填表者缺失了至少1个条目，缺失在高龄和自主填表者中更为常见，且多集中在工作和精力相关条目。这些结果提示在老年人群，特别是75岁以上人群中使用SF-36量表需考虑研究者访谈，而不是自我报告，对量表中与年龄相关的条目也需要考虑进行修订后使用。

在79～84岁日常生活自理的老年女性中，SF-36的PCS和MCS评分分别为37.5（37.2～37.9）及53.0（52.8～53.3），生理功能的正常值较普通人群显著降低。在更高的年龄组（85～90岁），PCS继续降低［34.9（34.5～35.4）］，MCS则未见显著变化。提示在解读老年人群SF-36评分时，需要考虑不同年龄段的状态，特别是生理功能状态。

（二）欧洲五维健康问卷

欧洲五维健康问卷（EQ-5D）是一套测量健康状态的患者报告结局测量（patientreported outcome measure，PROM）量表，由欧洲生活质量学会开发，其目标是通过简短的形式，从多个维度描述人群的健康状态。EQ-5D包含5个问题和1个视觉模拟表。5个问题分别代表5个健康相关维度：行动能力（mobility）、自我照顾（self-care）、日常活动（usual activities）、疼痛/不舒服（pain/discomfort）以及焦虑/沮丧（anxiety/depression）。这5个问题均采用语言分级评分法（VRS），原始版本为3级评分（EQ-5D-3L），之后开发了5级评分（EQ-5D-5L）以提高其分辨不同疾病状态的敏感度以及检测临床变化的反应度，还为儿童及青少年开发了专用的EQ-5D-Y。除这5个问题外，量表还包含1个总体健康状态评分，采用0～100分的视觉模拟评分方法（visual analog scale，VAS）。量表采用“今天”作为回顾时间，可在1分钟内完成。

EQ-5D-5L的分级评分编码为1、2、3、4、5，分数越高，表示健康状态越差。总体健康状态为5个维度评分组合，比如5个问题评分都为1，则总体健康状态为“11111”，缺失值编码为9。这5个问题不同水平的回答可组合成5 ⁵ =3 125个健康状态。对研究所获数据的基本描述包括每个条目内各级评分的比例以及总体健康状态评分的频数分布。

根据目标人群所在国家/地区普通人群标准EQ-5D-5L值（standard EQ-5D-5L value sets），总体评分可以被转换为一个健康效用指数（index value），从而反映某个人群健康状态。健康效用指数评分范围一般从小于0（死亡状态，如果有负值，则表示其状态比死亡更差）到1（完全健康），分数越高表明健康状态越好。效用指数可以用于计算质量调整生命年（quality-adjusted life year，QALY），作为疾病负担指标，为卫生经济学评价提供信息。在EuroQoL网站可以查询到目前已建立的各个国家或地区的标准EQ-5D-5L值，用以计算研究人群的健康效用指数。如果没有所在国家/地区的标准集，可以参考社会经济和人口统计学背景相似国家。如果只有EQ-5D-3L标准值，则需要进行“crosswalk”转换，生成EQ-5D-5L crosswalk标准值后再计算EQ-5D-5L测量所得的效用值。

EQ-5D-5L已在150多种语言人群进行了信效度验证，并有多种采集方式版本提供。电子版本包括智能手机、平板电脑、台式机/笔记本电脑、REDCap平台、LimeSurvey平台及Castor EDC平台等专用版本。根据访谈形式的不同还提供访谈者操作版、面对面访谈版以及电话访谈版。对于无法自主回答的研究对象，还提供了代理人版本，包括研究对象可以向代理人员描述自身状态（如有阅读困难的研究对象）以及完全由代理人根据自己判断描述研究对象健康（如认知功能受损的研究对象）两个版本。其交互式语音应答系统版本可以用于院外无法使用互联网及智能手机的高龄或者文化水平较低人群的长期随访。

EQ-5D在认知受损老年人群、老年抑郁症状人群以及老年康复人群均获得了较好的信度、效度以及对不同健康状态的区分度和探测随时间变化的反应度。在中国东部老年人群（60岁及以上）中进行的5年纵向队列研究显示EQ-5D的健康状态VAS评分可以预测全因死亡，基线VAS评分越高，死亡风险越低。结合其简短的量表形式和多样化的数据采集方式，提示EQ-5D是以老年人群为对象的研究评价生活质量及健康状态的较好选择。

（三）MacNew心脏病生活质量量表

MacNew是“心脏问题”特异性PROM量表，2004年由访谈式“心梗后生活质量问卷（QLMI）”修订而来。MacNew原版为英文，现有45种语言版本，在心肌梗死、冠心病和心力衰竭（心衰）等常见心血管疾病患者中得到广泛的测量验证。最新版本的MacNew包括27个条目，分别评估躯体受限、情感功能和社会功能等三个维度的生活质量，其中包括5个症状条目，分别为：胸痛/心绞痛、气短、疲乏、眩晕以及下肢痛。MacNew采用的回顾时间段为“过去两周”，可在10分钟内完成。

MacNew采用7个等级的语言分级评分法（VRS），赋值为1～7分，分数越高代表生活质量越好。每一个维度评分为该维度所有条目的平均值，缺失条目不参与计分。任何维度内超过50%条目缺失则判定无效。对所有有效条目评分进行平均后，可生成一个总体生活质量评分。按年龄、性别及疾病分层的英文版MacNew的参考值来自1 506名心脏病患者（缺血性心脏病、心衰及心肌梗死）出院后4个月的数据，MacNew的最小临床意义差别值为0.5，对三个维度评分和总体生活质量评分均适用。量表应用的最高年龄组为75～85岁，无认知功能障碍者均可顺利完成。

（四）帕金森病患者生活质量问卷

帕金森病患者生活质量问卷（the Parkinson's disease questionnaire-39，PDQ-39）是应用最广泛的帕金森病相关生活质量问卷，有患者报告和照护者报告（PDQ-39-Carer）两个版本。该问卷由39个条目组成，分别属于8个维度，包括：身体活动、日常生活行为、情感健康、屈辱感、社会支持、认知、交流以及身体不适。问卷回顾时间段为1个月，平均完成时间为10分钟。PDQ-39采用5级VRS评分，评价生理或心理状态发生的频率，分值范围为0～4分。除纸质版外，PDQ-39还提供了标准化的电子版。与普适性生活质量量表相比，PDQ-39对疾病的严重程度更为敏感，提示在研究中采用特异性量表的必要性。

PDQ-39维度评分是由该维度所有项目总分除以最大可能得分乘以100得到，即每个维度分都经转换为0～100格式，8个维度得分的平均值即为PDQ-39指数（PDQ-39-SI），用于评价患者的整体生活质量。为减轻测量负担，从PDQ-39的8个维度中各抽取1个条目形成简化版PDQ-8。比较发现，PDQ-8与PDQ-39在维度评分和总体生活质量指数分上高度相关（＞0.9）。PDQ-8适用于多个时间点测量设计的临床研究，PDQ-39更适用于探索疾病对患者生活质量的深度影响。

（五）轻度认知功能受损问卷

轻度认知功能受损问卷（mild cognitive impairment questionnaire，MCQ）是首个用于评价轻度认知功能受损（mild cognitive impairment，MCI）患者生活质量的PROM量表，严格遵循美国FDA对PROM的指导性原则制作而成。MCQ包含13个条目，构成情感效果（emotional effect）和实际问题（practical concerns）两个维度。MCQ采用4级语言分级评分法（VRS），回顾时间为过去4周，平均完成时间为5分钟。

（六）欧洲癌症研究与治疗中心制订的恶性肿瘤专用生活质量评价问卷

欧洲癌症研究与治疗中心制订的恶性肿瘤专用生活质量评价问卷（European organisation for research and treatment of cancer quality of life questionnaire core-30，EORTC-QLQ-C30）是欧洲癌症研究与治疗中心制订的恶性肿瘤专用生活质量评价系统，包括一个总表（30条目，c30），50余种癌症部位或治疗子表（module），超过150个语言版本。EORTCQLQ-C30是最常用的恶性肿瘤相关生活质量PROM量表，也是欧美医药管理部门认可的药物临床试验临床结局指标评价工具。EORTC-QLQ-C30总表包括30个条目，组成5个功能维度（躯体、角色、认知、情绪和社会功能）、3个症状维度（疲劳、疼痛、恶心呕吐）、1个总体健康状况/生活质量领域和6个单一条目，采用7天回顾时间段。

EORTC-QLQ-C30采用4级VRS评分，从没有、有一点、较多至很多分别记为1～4分；总体健康状况/生活质量问题采用1～7数字计分。每个维度内条目首先计算均分，然后经极差法转换为0～100标准维度分，不推荐计算总体生活质量评分。临床最小意义的差别值每个维度不同，多在5～14分的范围内。EORTC-QLQ-C30除纸质版外，还提供电子平台版、计算机自适应版以及电话脚本版。

EORTC-QLQ为70岁以上恶性肿瘤患者制作了EORTC-QLQ-ELD14，已经被国际多中心验证并广泛应用。EORTC-QLQ-ELD14有14个条目，组成5个维度及两个单条目。多数研究对象可在11分钟内完成EORTC-QLQ-ELD14，条目缺失小于1.5%。该老年特异性问卷可区分不同的疾病严重程度，但是对健康状态的变化不够敏感。

第三节　生活满意度评价

一、生活满意度概念

生活满意度（life satisfaction，LS）是个体根据自己设定的标准对自己某段时期生活状况的总体性认知评估，是衡量某一社会人们生活质量的重要参数，是衡量主观幸福感的重要指标。我国学者结合国情将生活满意度分为六个维度，分别是家庭满意度、友谊满意度、学校满意度、学业满意度、环境满意度和自由满意度。

生活满意度的评价类似于生活质量，以患者报告为主要形式，量表通常包括多个维度。国内开展的研究通常采用自制量表或单条目生活满意度测量。比如，在中国健康与养老追踪调查（China health and retirement longitudinal study，CHARLS）队列中，研究者采用了单条目询问老年人对生活的满意程度，答案设置为“非常满意”“比较满意”“不太满意”及“一点也不满意”。本节主要介绍目前国际学术研究中常用的生活满意度量表。

二、生活满意度评估方法

（一）生活满意度量表

生活满意度量表（life satisfaction scales，LSS）包括3个独立的分量表：一个是生活满意程度评定量表（life satisfaction rating scale，LSR），生活满意度指数A（life satisfaction index A，LSIA）及生活满意度指数B（life satisfaction index B，LSIB）。LSR是他评量表，含有5个子条目，均采用李克特5分法。分数越高，满意度越高，总分为5个条目得分总和，在5（满意度最低）和25（满意度最高）之间。在50岁及以上人群验证研究报告中，两位评分者评定LSR的一致性为0.78，提示有较好的调查者信度。LSR得分与临床心理学家和受试者访谈结果的一致性为0.64，提示中等强度的内容效度。

LSIA与LSIB都是自评量表，其中LSIA由与LSR相关程度最高的20项条目组成，每一个条目答案为满意、不满意和不能确定，得分从0（满意度最低）到20（满意度最高）。LSIB则是由12项与LSR高度相关的开放式、清单式条目组成，总分从0（满意度最低）到22（满意度最高）。LSIA与LSIB的一致性较强，为0.73。LSIA和LSIB与LSR的一致性中等，分别为0.55和0.58；与临床心理学家之评定的相关分别为0.39和0.47。65岁以上人群各指标间的一致性高于65岁以下者。

（二）生活满意度量表

生活满意度量表（the satisfaction with life scale，SWLS）是1985年由Emmons等编制，量表共有5个条目，用以评价个体对生活的总体满意度。SWLS采用李克特7级评分，分数越高表示对生活满意度越高，5个条目得分总和生成一个生活满意度总分，表示个体对其现在生活的整体主观评价。SWLS并不能用于评价生活满意度的某个具体维度，比如家庭满意度。研究者对SWLS总分进行了分段解读，见表2-2-2。

表2-2-2　SWLS总分分段解读

因为简短易行，SWLS也是老年人群研究常用的生活满意度评价工具，常用于老年人群医疗措施效果比较。其在测量学指标上经过了多个研究验证，被认为是具有较好的可信度和有效度，并且在跨文化使用时也具有测量学的一致性。其唯一受到质疑的地方是这5个条目是否能够反映个人对其生活状态的主观认知，见表2-2-3。

表2-2-3　SWLS量表条目

（三）中国老年人生活满意度量表

中国老年人生活满意度量表（lifestyle satisfaction scale-Chinese，LSS-C）是2008年Luo等专为中国老年人制作的生活满意度量表，该量表在参考了欧美人群多个生活满意度量表条目基础上，通过多轮专家意见，确定了6个中国文化背景下老年人群生活满意度的特殊维度，分别是：家庭责任、工作、尊重、娱乐活动、交通及精神。量表共有8个条目，每个条目答案有3个选项：“满意”“不满意”或“无可奉告”，满意评分为1，不满意为0，选“无可奉告”者为缺失，不纳入总分计算。总分为各条目分总和，分值越高，对生活满意度越高。

量表在1 500余名从北京、上海和广州随机抽取的老年人（60～94岁）中进行了测量学验证。LSS-C显示了较好的校标效度（与LSIA和单条目生活满意度评分的相关性均为中度相关）及内部一致效度（克朗巴哈系数＞0.7）；60～75岁组研究对象LSS-C得分高于75岁以上组，性别间没有显著差异。

综上，生活满意度的评价是基于个体对自身生活的主观认知，采用患者报告结局测量的方法更为合理。虽然现有量表在人群中获得了较好的信度和效度，但由于主观认知受文化、受教育程度及社会经济地位等因素影响，所以在研究中应避免直接选择欧美量表汉化版或其他研究所用测量工具。根据研究对象的人口统计学和社会经济状况进行深入的质性研究，获取人群对“生活满意度”的认知内容，形成特异性的维度尤为重要。

第四节　日常活动能力评价

一、日常活动能力概念

日常活动能力（activity of daily living，ADL）是指个体为了维持独立的日常生活而每天必须反复进行的、最基本的、具有共性的一系列活动，分为两类。

（1）基本或躯体性日常活动能力（basic ADL，BADL）：

即每日生活中穿衣、进食、保持个人卫生等自理活动和坐、站、行走等身体活动有关的基本活动。此类活动能力通常为基本的功能，反映的是个体日常活动能力，多在医疗机构对研究对象进行评价，并与研究对象的疾病或健康状态直接联系。

（2）工具性日常活动能力（instrumental ADL，IADL）：

指人们在社区中独立生活所需的关键性的较高级的技能，多需借助工具进行，如交流能力、安排生活能力及社会活动能力等，此类能力多在社区对普通人群进行评价，反映的是宏观的、精细的、复杂的功能。

对基本日常活动能力进行评价，目的是了解研究对象有无日常生活活动能力障碍，基于此制定及修改治疗训练计划，并评价治疗效果以及调配社会资源等。常见的评价方式包括观察者报告（或临床医护报告）、患者报告以及功能评估（performance-based）。对于老年人群，以观察者报告的方式最为常见，功能评估在健康状态较好的研究对象中普遍使用。

二、日常活动能力评估方法

（一）Katz指数

Katz指数又称ADL指数（the index of ADL），Katz于1959年提出，1976年修订。根据人体功能发育学的规律制定，分级简单。首先按照由难到易的顺序把6种最常见的日常活动进行排序（洗澡、穿着、如厕、床-轮椅转移、大小便控制、进餐），每种活动的完成情况设置“无需帮助”“部分帮助”或“需要帮助”，最终得到7种活动能力分级，标注为A到G（表2-2-4）。在7级的基础上，可归纳为3级：A与B合并为良；C与D合并为中；E、F与G合并为差。

表2-2-4　Katz指数功能等级

（二）Barthel指数

Barthel指数由Mahoney和Barthel设计，产生于20世纪50年代中期，是临床应用最广、研究最多的基本日常活动能力评估方法，其可信度和灵敏度均较高。使用广泛，而且可用于预测治疗效果、住院时间和预后。

Barthel指数是评价在无任何体力或智力帮助的情况下所获得的自理程度。患者自理的程度应通过直接观察及护士、亲属提供的最好信息和与病人交谈来确定。要求记录患者24小时内所完成的情况。

Barthel指数包括10项日常生活中用到的活动，将每项活动根据患者的完成能力分为：自理、较小帮助、较大帮助或完全依赖。每个项目赋分不同，最后计算10个项目总得分，得分越高，日常活动能力越强，＞60分者可以判定为“基本自理”，＜20分者为“残疾，生活完全依赖”，临床研究中，＞40分可定义为康复效果较好。

由于Barthel指数设定的评定等级比较少，大部分为2～3个等级，相邻等级之间的分值差距太大（5分），不能很好地反映等级之间的变化，特别是对治疗的效果评价敏感度不高，1989年加拿大学者对原有Barthel指数的等级进行加权，形成改良Barthel指数，对所有10个项目都进行5个等级（1～5级）评分，这5个等级的定义，见表2-2-5。改良Barthel指数总分为100分，分数解读与Barthel指数类似。

表2-2-5　改良Barthel指数评级

（三）PULSES评定

1957年由Moskowitz和Mccann提出，包括6个维度，分别是：躯体状况（physical condition，P）、上肢功能（upper limb function，U）、下肢功能（lower limb function，L）、感觉功能（sensory component，S）、排泄功能（excretory function，E）、精神和情感状况（status of patient-mental and emotional status，S）。PULSES评定不仅包括了基本的日常活动能力，还包括工具日常活动能力相关的言语、视听、心理等维度。

PULSES每一项分为4个功能等级，赋值为1～4分，分数越高，日常活动能力越差：正常（1分）、轻度异常（2分）、中度异常（3分）、重度异常（4分），最后计算每项得分之和。得分解读为：≤6分：功能最佳，各项功能均正常；＞12分：独立自理能力严重受限；＞16分：有严重残疾。

（四）功能独立性评定

功能独立性评定量表（functional independence measure）1983年由美国物理医学与康复学会制订，是其推荐功能状态的标准化测量方法。FIM包含18个条目，属于6大功能维度（自我照料、括约肌控制、体位转移、行走、交流及认知）。每个条目采用7级评分，评分越高，活动能力越强（1=完全依赖；7=完全独立）。18项得分总和为FIM评分，总分的临床解读，见表2-2-6。

表2-2-6　FIM临床解读

FIM可用于评价患者的住院效果：根据入院和出院时的FIM评定结果，可以计算患者的住院效率，公式如下：

住院效率=（出院时的FIM评分-入院时的FIM评分）/住院天数

（五）卡氏功能状态

卡氏功能状态（Karnofsky performance status，KPS）是临床医护对患者的总体功能状态评分，常用于临床评估患者是否能够接受激进的治疗，如癌症患者化疗、手术等。评分为0～100分，得分越高，健康状况越好，越能忍受治疗给身体带来的副作用。通常80分及以上为生活自理级（independent）；50～70分为生活半自理级（semi-independent）；50分以下为依赖级（dependent），即生活需要别人帮助。＞80分者术后状态较好，存活期较长（表2-2-7）。

表2-2-7　KPS评分

续表

（六）美国东部癌症协作组评分

与KPS类似，美国东部癌症协作组评分（eastern cooperative oncology group，ECOG）是恶性肿瘤临床常用的患者功能状态评分，是从患者的体力来了解其一般健康状况和对治疗耐受能力的指标，常用于判断患者是否可以接受激进的抗癌治疗。将患者的功能状态分为0～5共6级。一般认为功能状况高于2级的患者不适宜进行化疗（表2-2-8）。

表2-2-8　ECOG分级与KPS评分

（七）六分钟步行测试

六分钟步行测试（6-minute walking test，6MWT）是最常用的功能报告指标，常用于对中、重度疾病患者的全身功能状态进行综合评价，如心脏病患者临床指导。6MWT测量6分钟内用最快速度尽可能走的距离。测量要求在室内进行，轨道平直，距离最少要30m。它评价了运动过程中所有系统的全面完整反应，包括心肺功能、骨骼肌肉功能、营养水平等。该测试简单易行，较上下楼梯等测试耐受性好，安全性高，便于管理，能很好地反映日常活动能力。它适用于中重度心功能不全、年老体弱、肥胖或安装起搏器的患者。

（八）“起立-行走”计时测试

“起立-行走”计时测试（the timed get-up-and-go test，TGUGT）是一种快速定量评估功能性行走能力的方法，该评定方法简单，容易掌握，应用方便，可用于临床评价和科研。设计目的是评定普通老年人及老年患者功能性步行能力及预测摔倒的可能性。TGUGT记录研究对象从座椅中起立并向前走3m，再回到座椅坐下所花时间，同时对测试过程中的步态及可能会摔倒的危险性打分（1分：正常；2分：非常轻微异常；3分：轻度异常；4分：中度异常；5分：重度异常）。老年患者TGUGT时间超过13.5秒即认为功能性步行能力较差，有摔倒风险。

（九）患者报告结局测量日常活动能力

由于日常活动能力常通过功能测试或临床医护报告来进行，因此PROM的应用较少。但是，对于日常活动能力严重受限、功能测试无法完成的研究对象，或研究需要在多时间点测量，而研究对象周围没有医护的专业观察报告时，PROM可以作为一种替代的方式。研究显示，单条目PROM行走能力（0～10NRS）与6MWT高度相关。而患者术后3天内或干细胞移植1周内，30%～50%的患者无法完成功能测试（6MWT和TUGUT），但是可以报告行走功能评分，而且缺失功能测试患者通常日常活动能力更差，如果没有PROM作为替代，则可能导致选择偏倚，高估患者群体的功能状态。

第五节　疾病负担评价方法

一、疾病负担的概念

疾病负担（burden of disease）是指疾病（或伤害）、早死对患者、家庭、社会和国家所造成的在健康和/或经济、资源方面的损失。疾病负担是疾病的结局，即死亡、失能（暂时性失能和永久性失能及残疾）和康复。同时，还包括疾病过程的损失，其中包括个人（健康）损失、家庭（经济）损失和国家（资源）损失。疾病负担造成的影响包括疾病的过程所产生的生物、心理和社会危害。如：心理创伤、精神恐惧或忧郁、家庭的维系、社会生产力和人口质量，最终导致社会经济的发展和政治上的安定受影响。

疾病负担分为个人负担、家庭负担和社会负担3类。个人负担包括疾病造成的病人躯体损伤、身心残疾和死亡，并引起就业、入学、社会交往等障碍。家庭负担包括疾病对家庭成员（或照顾者）造成的困难、问题和不良影响。社会负担包括疾病对于社会各方面所造成的负面影响，不仅包括疾病造成的病人群体社会功能的下降，疾病对整个社会造成的经济压力，还包括疾病在社会人群心理、社会经济贸易和商业、政府形象、社会安定等方面造成的影响。

二、疾病负担的评价

（一）发病率、患病率、死亡率、死因顺位

1.发病率

发病率（incidence rate）：在一定期间内，一定人群中某病新病例出现的频率。用于描述疾病的分布，或比较不同人群的发病率以分析病因。

2.患病率

患病率（prevalence rate）：是指某特定时间内总人口中某病新老病例所占的比例。患病率受两种因素（发病率和病程）影响。患病率对于病程较长的慢性疾病，如老年人群常见病，心血管病和恶性肿瘤等，流行病学研究价值较大，对于病程短的疾病价值不大。

3.死亡率

死亡率（mortality rate）：表示在一定期间内，在一定人群中，死于某病（或死于所有原因）的频率。它是测量人群死亡风险最常用的指标，常用于探讨病因和评价防治措施的效果。

4.病死率

病死率（case fatality rate）：表示一定时期内，因患某种疾病死亡的人数占患病总数的比例。病死率表明疾病的严重程度，也反映医疗水平和诊断能力。通常多用于病程短的急性病，如急性传染病，较少用于慢性病。

5.死因顺位

死因顺位是将各类（或各种）死因构成比按大小排列顺位，可以反映主要死因及各类死因的重要性。

上述传统指标的资料易于掌握、计算简便并且结果直观。但缺点是：①不能反映伤残程度和持续时间；②不能反映社会价值。

（二）潜在减寿年数（years of potential life lost，YPLL）

某病某年龄组人群死亡者的期望寿命与实际死亡年龄之差的总和称为潜在减寿年数。通过量化疾病造成死亡而引起的个体或人群寿命的损失，在考虑死亡数量的基础上，以期望寿命为基准，进一步衡量死亡造成的生命损失，强调了过早死亡对健康的损害，赋予了疾病负担新的定义。

式中 e ：预期寿命（岁）；

i ：年龄组（通常计算其年龄组中值）；

a _i ：剩余年龄， a _i = e -（ i +0.5），其意义为：当死亡发生于某年龄（组）时，至活到 e 岁时，还剩余的年龄。由于死亡年龄通常以上一个生日计算，所以尚应加上一个平均值0.5岁；

d _i ：某年龄组的死亡人数。

YPLL考虑了死亡年龄的影响，以期望寿命与死亡年龄之差对不同年龄的死亡赋予了权重。该指标突出了疾病造成“过早死亡”的损失，定量估计了疾病引起早死的程度。YPLL可用于：①计算每个病因引起的寿命减少年数，并比较各种不同原因所致的寿命减少年数；②将某一地区和另一标准地区相比较；③在卫生事业管理中，筛选确定重点卫生问题或重点疾病时的指标，同时也适用于防治措施效果的评价和卫生政策的分析。

YPLL派生出两个指标：潜在工作损失年（working years of potential life lost，WYPLL）和潜在价值寿命损失年（valued years of potential life lost，VYPLL）。

潜在工作损失年：因死亡而损失的工作寿命年数来评估疾病造成的损失。

其中， RY ：期望工作年龄，GBD统一标准，65岁； Xi ：死亡年龄； Di ：死亡人数。

潜在价值寿命损失年：从死亡造成的社会贡献的损失评价疾病的危害。

其中： P ₀ 应贡献年数； P ₁ 已贡献年数； I ₀ 应投资年数； I ₁ 已投资年数； C ₀ 应消费年数； C ₁ 已消费年数。

YPLL系列指标是测量疾病负担的直接指标，也是评价人群健康水平的重要指标，是衡量某种死因对一定年龄组人群危害程度的指标。多用于综合估计导致某人群早死的各种死因的相对重要性，为确定不同年龄组重点疾病提供科学依据。

YPLL较传统指标更趋于准确、合理，计算简便、结果直观；注意到了生存年数的损失；并强调“早死”的危害性大于“晚死”，所以YPLL系列指标在衡量劳动力人口健康水平和评价各死因对劳动力人口的危害相对大小方面有很大优越性。但是，YPLL对于超过期望寿命的死亡难以评价负担；该指标应用的前提是相同年龄个体的社会、经济价值是等同的；而且只考虑了疾病负担的一种形式和结局（死亡）。

（三）伤残调整寿命年（disability-adjusted life year，DALY）

又称失能调整寿命年，失能调整的健康寿命年。指从发病到死亡所损失的全部健康寿命年。包括早死所致的寿命损失年（years of life lost，YLL）和疾病所致伤残引起的健康寿命损失年（years lived with disability，YLD）两部分。DALY可以更全面、准确地评价不同疾病的负担，客观地评价不同地区的卫生状况。

DALY赋予了疾病负担的定义，即疾病造成死亡而引起的人群寿命的减少和疾病造成残疾的程度。该指标综合考虑了死亡、发病、疾病的严重程度、年龄相对重要性以及贴现率等多种因素，可以定量地计算某个地区每种疾病对健康寿命所造成的损失，指明该地区危害健康严重的疾病和主要卫生问题，科学地对发病、失能、残疾和死亡进行综合分析。同时，DALY是一个标化的指标，具有广泛的可比性，可以直接测量比较不同地区、不同疾病间的疾病负担。

DALY指标的设计思想包括：①健康生命年的损失包括早逝和残疾（暂时性失能和永久性失能）两个方面。在计算非致死性疾病的健康生命年损失时，根据不同的疾病严重程度给予相应的权重；②不同性别、不同年龄的生命相对价值是不相等的；③在不同地区及不同人群，同一种疾病DALY损失的计算方法应相同，以增加可比性；④当前损失的健康生命年与将来损失的社会价值也是不等价的，采用适当的贴现率调整。

DALY指标构成的计算公式：

式中 A ：每千人口因某病早亡的减寿年数；

B ₁ ：每千人口因某病死亡前伴有残疾者所致的减寿年数；

B ₂ ：每千人口疾病死亡前因短暂残疾所致减寿年数；

C ：每千人口因疾病致永久性残疾所造成的减寿年数；

D ：每千人口因疾病急性发病时所致减寿年数。

式中： e 为根据某一理想标准估计的某一年龄组的期望寿命；

D 为残疾权重（从完全健康0到死亡1）；

γ 为贴现率，α为发病导致失能或死亡年龄；

L 为残疾期限或早逝的寿命损失；

β 为年龄函数参数， K 为年龄权重调节因子；

C 是常数。

不同年龄组人群中健康生命存活一年的相对价值不同：在多数社会中，中青年的生命每存活一年比儿童及老年人存活一年更受重视，即不同年龄组的生命价值是不相等的。对某一特定年龄给予较高的权重并不意味着这一年龄的生命年对个人更为重要，而是意味着这一段时间的社会价值可能更大。各个年龄组别中每一生命年的相对价值（即权重）可以用下列指数函数模型来表示：

公式中， RV 表示生命的相对价值， x 为年龄， β =0.04， C 为选用的常数。该函数由出生时的0急速上升至25岁时的峰值，然后又逐渐下降为0（直到死亡）。这样，社会投资多年的青年人的 RV 值就大于儿童和老年人。例如一个30岁的DALY值等于3个50岁的DALY值。

非致死性疾病的健康生命年损失：为了测量非致死性疾病的健康生命年损失，并使之与早逝所致的生命年损失具有可比性，将不同的疾病根据其严重程度（致残程度、持续时间等）由专家组确定相对于早逝的残疾权重，残疾权重介于0～1之间，0代表健康，1代表死亡。

贴现率：又称时间偏好，是一个经济学概念，个体喜欢现在而不是将来受益。今天的商品或服务的价值大于一年以后的价值。贴现率常用于：①通过比较不同疾病DALY损失情况，观察确定人群中主要健康问题，从而指导制定预防控制疾病的重点，以使有限的卫生资源得到合理配置；②对全球、一个国家或地区进行动态监测与评价，观察DALY的长期变动趋势及影响因素；③分析一个人群中具有不同特征亚群（如性别、年龄）的DALY，以帮助确定有针对性预防措施的高危人群；④进行成本效果分析。研究不同病种、不同干预措施挽回一个DALY所需的成本，以求采用最佳干预措施来防治重点疾病，使有限的资源发挥最大的挽回健康生命年的效果。

DALY指标也有其局限性，包括：①在DALY的设计思想上把疾病负担定义为用年龄、性别和患病时间来衡量不健康所导致的功能限制和早死；②在DALY指标的构成中，引入的贴现率、年龄权重、失能等级等指标只反映了研究者和世界银行专家的意见，不能反映所分析地区人群的意见。而且，这些指标本身也存在一定的局限性；③DALY在运算中也存在问题。WHO的一些专家认为，评估DALY仅仅用了一个数学公式，这在某种意义上掩盖了许多复杂的信息；④在DALY的构造框架中，没有涉及多发，即一人患多种疾病，这样会导致高估疾病负担。

（四）健康寿命年

与DALY的设计思想基本一致，在总人数为P的人群中，由某种疾病导致的健康寿命年（healthy life year，HeaLY）可由下式计算：

式中： L ₁ 为该人群中因患某种疾病死亡而损失的健康寿命年；

L ₂ 为该人群中因患某种疾病失能而损失的健康寿命年。

式中： I 为该人群中某种疾病每年每千人口的发病率； CFR 为该病的病死率； A _f 和 A ₀ 分别为因该病死亡和发病时平均年龄； E （ A ₀ ）为年龄为 A ₀ 时的期望寿命。

式中： I 的意义同上； CDR 为患此病人群因该病失能的比例； D _e 为失能权重，它是HeaLY计算中唯一的一个主观指标，它的意义与取值和DALY的计算相同。 D _t 为此病的平均病程。

HeaLY与DALY的设计思想基本上是一致的，从疾病的发病开始，根据疾病的自然史，考虑疾病引起死亡的情况以及不同年龄段死亡的影响，并更充分地考虑到发病期间失能对健康的影响，从而使疾病对健康影响的估计更接近实际，对于宏观地认识疾病有着重要的意义。

（五）伤残调整期望寿命

在健康条件下的期望寿命，即假设一代人在健康状态下的平均寿命。WHO发表的《2000年世界卫生报告》首次将伤残调整期望寿命（disability-adjusted life expectancy，DALE）作为评价不同国家或地区居民生存质量和卫生系统绩效的综合指标。计算DALE通常采用Sullivan法：在人口寿命表的基础上，利用某人群中各个年龄段在某一特定时间点上的伤残现患率，经过各种不同伤残状况的严重性权重调整后，将寿命表上各个年龄段的期望寿命分为两部分：相当于完全健康状况下的期望寿命（DALE）和相当于死亡状态而损失的期望寿命（DLE）。

三、疾病负担综合评价

疾病负担评价体系是多层次、多方面、多维度的。它以系统论的模式为基础，全面地分析疾病对个人、家庭和社区造成的生物、心理、社会负担。需要考虑到造成不健康的环境和个人的许多因素，比如，公共设施、个人收入、家庭和朋友等，而不仅仅是年龄和性别。同时强调疾病的心理社会负担，重视疾病的潜在危害。

第六节　常用生活质量评价的方法学问题

老年健康所包含的生活质量、生活满意度及日常活动能力等维度涉及研究对象主观判断和客观的功能测试内容，包括患者报告、观察者报告或代理人报告以及功能测量。与传统实验室或影像学指标相比，此类评估工具在其本身的质量及性能方面均有独特的评价方法学指标。本节将对这些指标进行简述，以方便读者在进行量表选择时参考。

一、患者报告结局测量

生活质量的评估通常采用自评（self-report）的方式，使用专业制作并经过心理测量学验证（psychometrical validation，也翻译为“信效度验证”）的量表（scale）。欧美医药管理部门将在患者中使用这种测量方法定义为“患者报告结局测量（patient-reported outcome measure，PROM）”，并对在研究中的应用进行了详细的规定。美国FDA推荐的PROM已被广泛应用于公共卫生研究，在临床医学中常作为首要结局指标评估药物或医疗器械的有效性。在研究设计选择量表时，需要根据多种测量学特征及临床应用参数进行综合考量。

（一）测量内容

公共卫生及临床实践中应用PROM评估老年人的生活质量首先要选择合适的量表，量表是否能够真实反映目标人群的情况是获得可靠有效结果的前提。美国FDA建议PROM的测量内容需要来自目标人群，并与人群经历的或关心的健康问题相关。在选择量表时，需要查询量表中条目的来源。推荐的条目生成方式为目标人群定性访谈获得条目初稿，经专家（包括目标人群，照护者及医护人员）对条目与健康状态的相关性进行打分后，形成二稿，然后用定量研究方式进行心理测量学验证。

其他替代来源包括：文献回顾提取研究中发现的健康相关问题，该方法适用于比较常见的健康问题。微信群组等社交媒体记录了自然状态下，目标人群的健康问题及需求。通过人工智能的自然语言识别这些非规范化的交流文本，抓取关键词形成PROM量表，关键词通常比研究项目的定性访谈更能反映人们的感受。但是由于老年人群特别是社会经济状态较差人群的社交媒体使用率较低，在使用社交媒体交流文本生成的PROM时需考虑选择偏倚，同时还需要考虑某些隐私问题不便在公共平台交流可能导致的信息偏倚。

（二）心理测量学特征-PROM量表信效度

信效度是评估一个量表是否能准确、可靠且有效地评估研究者希望评估的内容。在研究设计选择量表时，需要对其信效度验证的结果，验证的人群，以及曾经使用过的人群中及其表现进行考察。常见信效度指标见图2-2-1。

图2-2-1　PROM量表信效度评估指标

（三）回顾时间

回顾时间（recall period）是PROM量表的重要应用参数，它规定了被调查者需要提供过去多长时间的健康状况信息，常见回顾时间段有24小时、7天、2周、4周等。回顾时间越长，测量的回忆偏倚越大。在研究设计时，回顾时间与研究对象特征和测量频率显著相关。如果研究卫生政策或治疗对疾病的长期作用，测量时间间隔通常以月计，需要采用具有较长回顾时间的量表；而研究为手术期患者康复时，24小时或7天回顾时间则更为合适。常用PROM量表会有多个回顾时间段供选择。如果要修改现有回顾时间段，需经过标准化的信度和效度验证，提供新的回顾时间段的心理测量参数以备量表选择所需。

（四）量表的文化调适

现有常用PROM量表多为欧美原版，经标准的翻译、回译过程后形成中文版本。通常汉化版会在中国人群中进行信效度验证，以获得在中国人群适用的结论。虽然大部分汉化欧美量表均被证明在中国人群中使用能产生可靠可信的数据，但在公共卫生和临床研究及实践中，相当一部分量表的内容仍然难以为中国人群所理解，特别是在心理和社会功能方面，由于文化背景的差异，无论是测量学特征还是被调查者的反应，均难以满足PROM对量表的基本技术要求。因此，在选择汉化量表时，对量表的文化调整就显得尤为重要，如果前人研究未见相关报道，则需要在研究对象人群中进行小范围的量表认知情况调查（cognitive debriefing），如有不合适的条目，可联系量表版权所有者，探讨进行修订的可能。如果无法更改，则需考虑选择其他更为合适的量表。如果时间和资源允许，可考虑在目标人群中自行制作所需量表。

（五）数据采集

在使用PROM测量老年人口健康状况时，还需要考虑采用哪种数据采集模式。常见的采集方式包括纸质问卷、电话调查以及基于互联网的电子化采集（ePRO）。这3种方式各有优劣，随着互联网的普及，智能手机用户的增加，ePRO因其及时的数据传输交流特征越来越受到青睐，特别是在多时间点调查设计中可以节约资源并获得比纸质问卷更完整的数据。但是，最近的研究发现，在同时提供纸质问卷和ePRO的情况下，选择ePRO的研究对象多为年轻（＜55岁）且受教育程度较高人群。如何解决智能手机APP或小程序的ePRO模式在老年人群中的应用“适老化”问题，尚需人工智能、信息科学及医学多学科的合作攻关。

（六）结果的临床意义解读

PROM测量所获得的健康状态数据可作为有序分类或连续变量进行分析，分析方法通常需按照每种量表现有的操作指南进行。分析结果除统计学显著意义外，更重要的是对其进行有临床或公共卫生意义的解读。人群正常值（population norm）、阈值（cutpoint）及最小临床意义变化值（minimal clinically important difference，MCID）是PROM数据解读常用参数。如，WHO的三阶梯镇痛，疼痛评估常用0～10评分，0分为无痛，1～3分为轻度疼痛，不需要进行临床干预；4～6分为中度疼痛，需要采用非阿片类药物镇痛；7～10分为重度疼痛，需要使用阿片类药物干预。在癌症患者中，疼痛评分下降2分或30%常被判定为有临床意义的疼痛缓解。

二、代理人报告或观察者报告（observer-reported outcomes）

老年人群由于认知或生理功能障碍，不能进行自我报告评估时，可以选择代理人报告（proxy respondents）。代理人报告由熟悉研究对象现况的家庭成员或照护者等完成。代理人报告在实施的时候，需要区分代理人作为一个观察者还是作为研究对象，前者是描述研究对象的状态，后者是站在研究对象的立场回答问题。大部分研究采用了使用代理人作为观察者描述研究对象的状态。

PROM和代理人报告的一致性是影响评估质量的重要因素。Magaziner等对361名65岁以上髋骨骨折患者同时使用PROM和代理人报告进行了日常功能、心理状态及抑郁症状评估。与PROM比较，代理人评估的失能状态更严重。当代理人和研究对象生活在一起，或是研究对象的兄弟姐妹或配偶时，两种报告的一致性较高。

三、功能测试结局（performance outcome，PerfO）

活动能力可以通过功能测试结局（PerfO）来评价。PerfO也是FDA定义的临床结局指标之一，是通过让研究对象在指导下完成标准化的日常功能任务来评估其生理或认知功能。根据测量内容的难度，PerfO可以由经过训练的研究人员监督，也可以由研究对象独立完成。PerfO作为一个相对客观的指标，与PROM相比，一定程度上能减少对研究对象主观判断能力的依赖，在开展多中心研究时，通过标准化的操作手册较为容易地控制测量误差。在老年人群中，PerfO可以克服因为老化引起的回忆偏倚，同时还可以评价某些研究对象日常生活中可能不常进行的活动（如爬楼梯），而同样的问题在PROM中则无法获得可靠的评价结果。

与PROM类似，PerfO指标的选择也需要考虑信度、效度及反应度，包括：评价指标是否研究需要测量的内容？研究者和研究对象是否对PerfO操作指南的解读一致？评估分数的含义是什么？这些问题都可以从PerfO测量工具已经开发和使用的文献中获得答案。测量评分的临床意义解读也需要类似于PROM的临床解读参数（人群正常值、阈值和最小临床意义变化值），而不是简单地比较评分之间的统计学差异。老年人群使用PerfO还需要对现有测量方法进行“适老化”修订，包括测量方法、操作指南及正常值范围。在选择PerfO时，对研究对象、照护者以及研究人员的负担也需纳入考虑，测量花费时间、培训要求以及测试频率都是决定PerfO是否适用的关键指标。对于多时间点测量，过长的时间和复杂的操作流程均会影响其可行性和结果的完整性及可靠性。

随着信息技术的进步，PerfO测量方式也需要在研究设计中进行定义。可穿戴设备的使用，使得在多个时间点的院外长期随访成为可能。这些技术拓展了PerfO的内涵，使其不仅能对传统意义上的既定任务完成评估，还能对真实世界研究对象的日常活动状态进行定量采集。在研究中使用可穿戴设备同样需要考虑测量的可靠性，指标的相关性以及数据的完整性问题，且这些数据与传统PerfO指标数据在研究中如何联合分析及其临床解读也需要在研究设计中明确。

（石丘玲）

参考文献

［1］WHO.World report on aging and health.［R/OL］.（2022-02-21）［2022-07-21］. http：//apps.who.int/iris/bitstream/handle/10665/186468/WHO_FWC_ALC_15.01_eng.pdf；jsessionid=F1CDB06476589A3AA0F25 7B5716BC4FA？sequence=1.

［2］樊瑾，于普林，李小鹰.中国健康老年人标准（2013）解读2：健康评估方法［J］.中华老年医学杂志，2014，33（1）：1-3.

［3］SCOTTE F，BOSSI P，CAROLA E，et al.Addressing the quality of life needs of older patients with cancer：a SIOG consensus paper and practical guide［J］.Ann Oncol，2018，29（8）：1718-1726.

［4］RICHARDSON E，BURNELL J，ADAMS H R，et al.Developing and implementing performance outcome assessments：evidentiary，methodologic，and operational considerations［J］.Ther Innov Regul Sci，2019，53（1）：146-153.

［5］MARTEN O，BRAND L，GREINER W.Feasibility of the EQ-5D in the elderly population：a systematic review of the literature［J］.Qual Life Res，2021，31（6）：1621-1637.

［6］SUZUKI T.Health status of older adults living in the community in Japan：Recent changes and significance in the super-aged society［J］.Geriatr Gerontol Int，2018，18（5）：667-677.

［7］LEEGAARD M，UTNE I，HALVORSRUD L，et al.A review of self-rated generic quality of life instruments used among older patients receiving home care nursing［J］.Health Soc Care Community，2018，26（3）：e321-e328.

［8］POTTER R，ELLARD D，REES K，et al.A systematic review of the effects of physical activity on physical functioning，quality of life and depression in older people with dementia［J］.Int J Geriatr Psychiatry，2011，26（10）：1000-1011.

［9］BOGGATZ T.Quality of life in old age-a concept analysis［J］.Int J Older People Nurs，2016，11（1）：55-69.

［10］MCHORNEY C A.Measuring and monitoring general health status in elderly persons：practical and methodological issues in using the SF-36 Health Survey［J］.Gerontologist，1996，36（5）：571-583.

［11］RONDÓN GARCÍA L M，RAMÍREZ NAVARRRO J M.The impact of quality of life on the health of older people from a multidimensional perspective［J］.J Aging Res，2018：4086294.

［12］LEVASSEUR M，ST-CYR TRIBBLE D，DESROSIERS J.Meaning of quality of life for older adults：importance of human functioning components［J］.Arch Gerontol Geriatr，2009，49（2）：e91-e100.

［13］REIMAN M P，MANSKE R C.The assessment of function：how is it measured？ A clinical perspective［J］.J Man Manip Ther，2011，19（2）：91-99.

［14］HALVORSRUD L，KALFOSS M.The conceptualization and measurement of quality of life in older adults：a review of empirical studies published during 1994—2006［J］.Eur J Ageing，2007，4（4）：229-246.

［15］AGGARWAL B，XIONG Q，SCHROEDER-BUTTERFILL E.Impact of the use of the internet on quality of life in older adults：review of literature［J］.Prim Health Care Res Dev，2020，21（e55）：1-6.

第二章 老年健康与生活质量评价

第一节 老年健康概述