病证型结合研究的整体思路是以西医疾病为依托,以传统辨证结果为依据,采用循证医学方法,对所研究疾病的文献资料进行收集整理、归纳总结并进行假设证型的分类;利用临床流行病学方法对疾病辨证标准进行群体水平的研究;在收集了所研究的全部临床信息的基础上,引用多种现代数据统计分析方法对收集到的信息进行加工处理,最终形成研究病种的基础证、不同证候分型的诊断指标分类 [143] 。
病证型结合研究存在许多难以解决的问题,如西医的病与中医的证候之间存在着什么关系?一个病应当分为几个可能相关的证型?如何确定证型分类和证候要素的主要临床表现等。针对这些研究需回答的问题,应确定研究方法和步骤,并做到以下几点:①进行较大样本的临床流行病学横断面调查,全信息收集研究疾病的中医临床数据;②建立数据库进行数据预处理,确保数据质量;③根据变量的特性采用多种潜在变量模型对数据进行研究、分析和处理,获得可供中医临床使用的疾病证型分类和证候要素。
确定临床研究病种是整个研究工作带有方向性的关键决策。“治病必求其本”是中医辨证施治的基本原则。求本,是指治病要了解疾病的本质,了解疾病的主要矛盾。现代医学疾病能够回答《丹溪心法》中“有诸内者,必形诸外”有关“内”的问题。疾病有什么样的内在变化(本质),就必定会有与这种内在变化(本质)相对应的外在表现(症或证候)。在了解本质的基础上,对优势病种的中医病性、病位的外在临床四诊信息进行临床流行病学调查研究,形成该病种符合中医自身规律和特点的证型分类规范,有助于优化该病种中医诊疗规范,达到“病证型结合,方证药对应”的目的。
在选定病种时,可以优先考虑具有明确现代医学诊断依据且有中医优势的临床常见病,如高血压病、支气管哮喘等。在熟悉操作流程后再扩展到其他病种的研究。之所以选择西医疾病为依托,是因为其诊断标准更为明确,具有适应性高、操作性强、易形成共识的特性,可以弥补中医病名诊断过于宽泛的不足。在当前医疗实践过程中,病证结合的诊疗模式已经逐渐渗透到临床各科之中,运用西医辨病与中医辨证相结合的方法已日趋成熟。该方法既汲取了西医学诊断标准明确的优点,又可以避免单独运用中医辨证所存在的模糊、笼统之处,将更有利于中医辨证分型论治的临床实际操作。
社会是日新月异的,疾病的诊断标准自然也非一成不变。以高血压诊断标准为例,回顾近40年来高血压诊疗指南,自1977年JNC1指南中将160/95mmHg视为血压升高,以舒张压的值作为诊断与评估的主要依据,历经十余年的不断更新,到1993年JNC5才开始逐渐重视收缩压的临床价值,将其与舒张压同时作为高血压的诊断与分类依据,提出>140/90mmHg为高血压。2017年最新的ACC/ANA指南将高血压的诊断标准正式更新为≥130/80mmHg。高血压诊断标准的变迁史告诉我们,不断更新疾病诊断信息,对临床实践和科学研究均具有至关重要的作用。为明确疾病的最新诊断信息,研究者可以查找最新版权威教材、近年来相关文献、有关学会组织最新的指导原则及指南,详细、逐条罗列诊断标准,为后续研究的操作提供清晰的指引。
科学研究本质上是一种创新活动,创新是对现有研究不足的弥补或突破。任何研究的确立,都需充分考虑现有的研究基础、存在问题、研究趋势以及继续深入的可行性。只有通过文献检索才能全面掌握研究现状,寻找创新点和突破点,使自己的研究真正地“站在巨人的肩膀上”。
文献是记录已有知识的一切载体,文献检索则是以文献为对象,然后按一定要求进行查找、识别、收集、整理及排序的过程。“工欲善其事,必先利其器”,通过文献检索我们可以全面、准确地获取所研究疾病的知识,掌握最新研究进展,避免重复劳动,开拓研究思路。
目前文献数目繁多,载体形式多样,内容交叉重复,来源途径众多,知识老化迅速,给收集和利用文献带来了不少困难。文献检索需紧扣研究目的,病证型结合证型分类的研究是为了探索现代医学疾病证型分类标准。所以,在进行文献检索时,要求全面收集疾病的中西医病名沿革、诊断标准、病因病机、辨证论治、常见证型、四诊信息、体格检查及现代医学检测指标等。
检索策略是指在分析检索问题的基础上,确定检索的数据库、检索用词,并明确检索词之间的逻辑关系和查找步骤。
文献检索范围包括学科、时间范围。病证型研究属中西结合的研究,故检索学科需包括中西医两个方面,现代文献的时间跨度为近5~10年,也可根据要求适当调整。凡涉及该疾病的权威教材、相关诊疗规范、指导原则如《中药新药临床研究指导原则》、ICD-11等均需囊括到检索范围中来,由于中医还涉及五千年的文化传承,所以中医古代医籍也是不可或缺的收集内容。
根据存储形式的不同,文献类型有纸质与电子之分。通常纸质文献采用手工检索,电子文献选用电脑检索。
手工检索就是传统文献检索,是利用各种印刷型检索工具来查找文献的一种方法。纸质文献是目前学术参考和引证的主要的信息来源,是构成评价数据库检索效果的主要依据;许多有价值的中医古籍尚未电子化,研究者可根据研究内容,通过目录索引进行手工检索,并记录检索结果。
电脑检索就是现代文献检索,是指利用计算机和网络来处理和查找文献信息的检索方式。通常使用文献资料数据库进行检索,常用的数据库有中国知网、万方数据库、维普中文期刊数据库、中国生物医学期刊数据库、中国科技期刊全文数据库、国家卫生健康委员会有关疾病的科技成果目录、各类图书馆资源系统以及PubMed、Embase、Ovid、Cochrane library、Clinical trials等。
检索词是能概括检索内容的相关词汇,是表达信息需求和研究内容的基本单元。检索词选择恰当与否,直接影响检索结果,一般选择较为规范的检索词。如①各学科在国际上通用的、国外文献中出现过的术语;②研究项目涉及的隐性主题概念;③研究项目的核心概念;④注意检索词的缩写词、词形变化以及英美的不同拼法;⑤联机方式确定检索词。在病证型结合研究中常用的检索词包括疾病的中西医病名、病因病机、诊断标准、辨证论治、常见证型、四诊信息、体格检查及现代医学检测指标。
把检索到的疾病中西医病名沿革、病因病机、辨证论治、四诊信息、体格检查、现代医学检测指标进行整理归纳、分析总结,并撰写成综述报告,既可为临床研究提供理论上的指导,也可为临床流行病学观察表的设计提供参考依据。
流行病学调查是临床流行病学中的一种重要研究方法,其特点是指采用自填式问卷或结构式访问的方法。系统直接地从特定群体中收集数据,并通过对数据的统计分析来认识或证实某种现象及其规律,可用于描述性、解释性或探索性的研究。作为受访者或数据的直接提供者必须以个体为单位。简而言之,就是用设计好的临床观察表,收集质量、数量均符合要求的临床数据。它以患者为研究对象并扩大到相应的患病群体,应用现代临床科研方法学,以探求疾病的病因病理、危险因素、早期诊断、防治方法及转归预后等规律,为循证医学的实践提供最佳资源,使研究的成果建立在充分的科学调查上。
临床流行病学观察表(CRF表)设计是否合理,直接关系到科研数据的收集质量,因此需要在明确研究目标、理清研究思路的基础上,严格按照CRF表的设计原则进行制定。观察表中出现的问题和提示语必须简洁明了,以免引起误导;采集的数据避免重复、累赘;每个问题都应该有独立的操作说明,避免添补附加文档进行解释。
调查表设计是调查设计中的一个重要环节。通过相关文献检索,我们对研究疾病诊断的各方信息有了清晰的认识。根据掌握到的资料,制订该疾病临床常见的主要症状、可现症状、兼有症状、证候类型和各症状的量化分级。对于证候要素的专家调查问卷,应选取全国范围内该疾病研究领域具有丰富临床经验的副主任医师及以上的专家(不少于30名),进行问卷调查。对调查结果进行整理归纳,结合CRF表制订要求,进行观察表的初步设计,设计中尽可能地囊括研究疾病的所有临床信息。
在开始设计一个调查表前,我们对一份合格的调查表由哪些元素构成,需要有清晰的了解。一份调查表短则七八个问题,多则数十个问题,它们一起组成了这份调查表的调查项目。不能将它们杂乱无章地堆砌,应按照一定规则将它们分门别类。一方面便于自己设置问题条目,另一方面也利于建立清晰的逻辑关系,方便调查对象作答。一般而言,我们可以将其分为以下3个部分。①背景资料:主要是一些人口学项目信息,如年龄、性别、民族、婚姻状况、文化程度、职业等。②研究项目变量:与研究目的有关的调查项目,通常既包括原因变量也包括结果变量,这部分素材是调查表中最实质的内容。就本研究而言,通常在文献检索的基础上,清晰地掌握研究疾病诊断的各方信息,如该疾病临床常见的主要症状、可现症状、兼有症状、证候类型、各症状的量化分级、证候要素等内容。③核查项目:调查对象的姓名、现住址、电话、工作单位等,调查员的姓名、调查时间等,主要用于检查资料及进一步追踪。
研究的调查表中内容需包括:①编码;②详细的填表说明;③权威的、最新的中西医诊断标准;④公认的病例纳入、排除标准;⑤临床观察时点;⑥患者的一般情况;⑦量化分级的四诊信息,若已有四诊信息量化表,可根据该表进行四诊信息量化分级的完善;若无则结合专家咨询结果拟定量化分级标准;⑧体格检查;⑨现代医学检测指标;⑩中西医治疗方法。
即用一个数字代表一个答案选项,便于用计算机进行统计分析。为了大数据处理的科学性,研究常需对四诊信息进行相应编码,即按望、闻、问、切的顺序进行了详细的分类编排。各四诊信息均设有计算机软件编码,因为只有对这些四诊信息进行统一标准化的编码,使其成为数字化形式,才能更准确地识别与记录,更迅速地处理和传递,更系统地储存及查询,更有效地发挥信息的特性和作用,为我们日常数据的分析、交流提供便捷。
例如四诊信息的编码采用8位数编制,分为两位英文字母和六位数字两部分,其中两位英文字母是固定的,为SZ,即表示“四诊”二字拼音首字母组合;六位数字则随内容不同根据相应规则确定。其中,第一位数字仅由1、2、3、4组成,分别表示四诊内容:望、闻、问、切。第二位数字表示四诊具体部位,在望诊中表示人体生命活动的整体外在表现和精神状态等;在闻诊中表示声音、气味;在问诊中表示疾病的发生、发展、治疗经过、现在症状和其他与疾病有关的情况;在切诊中表示脉诊、按诊。第三、四个数字:表示对四诊信息具体的描述,另外在疼痛中表示具体部位,如需进一步分级,则使用第五、第六位数字。即第五个数字表示对第三、四个数字所表示内容的进一步分级,即性质、颜色、种类等,第六个数字表示对第五个数字所表示内容的再进一步分级,即性质、颜色的细化等。
编码表采用8位数的具体说明如下。
前两位英文字母字母,即SZ表示四诊信息;如:SZ000000 四诊;第一个数字表示四诊的内容,即1表示望,2表示闻,3表示问,4表示切,如:SZ100000 望诊,SZ200000 闻诊,SZ300000 问诊,SZ400000 切诊;第二个数字在望诊中表示精神、面色、形体、头面官窍、皮毛、排出物、舌等,如:SZ110000 望神,SZ120000 望面色,SZ130000 望形体,等等;在闻诊中表示声音、气味,如:SZ210000 闻声音,SZ220000 闻气味;在问诊中表示寒热、汗出、其他不适、饮食、二便二阴、睡眠、月经、带下,如:SZ310000 问寒热,SZ320000 问汗出……SZ340000 问其他不适,SZ350000 问饮食,等等;在切诊中表示脉诊、按诊,如:SZ410000 脉诊,SZ420000按诊;第三、四个数字表示具体的四诊信息,如SZ110400 望诊-望神-精神忧郁,SZ160100 望诊-望排出物-咳痰,SZ170100 望诊-望舌-望舌体;SZ310200 问诊-问寒热-畏寒,SZ331000 问诊-问疼痛-胁痛,SZ340200 问诊-问其他不适-健忘,SZ350600 问诊-问饮食-口苦;如需再具体分级,则使用第五、六个数字;第五个数字表示对第三、四个数字所表示内容的进一步分级,即颜色、种类等,如:SZ160110望诊-望排出物-咳痰-白痰,SZ160320 望诊-望排出物-望鼻涕-鼻流黄涕,SZ170120望诊-望舌-望舌体-舌形;第六个数字表示对第五个数字所表示内容的进一步分级,即性质,颜色等,如:SZ160111 望诊-望排出物-望咳痰-白痰-白色黏痰,SZ170123 望诊-望舌-望舌体-舌形-齿痕舌。
即调查表内容的具体说明。它是对调查项目及有关变量的填写给出明确解释和定义,使调查人员和调查对象清楚如何回应调查表中的问题或给出答案。现举《国家重点基础研究发展计划(973计划)证候规范与辨证方法体系》项目中高血压病中医证候要素研究为例。
(1)封面
1)单位编号按照制定的统一单位编码填写;病例编号请按照“病种编号+单位编号+患者的序号”填写。如:南京中医药大学附属常州中医院调查的第10例高血压患者,患者序号为1+01+0010=1010010,即1010010。病种编码和单位编码详见编码表。
2)病例编号指被调查患者是参加本调查单位病种的第几例病例。
3)患者的姓名缩写按填写说明填写;并请如实填写调查医师的姓名、调查单位名称、病例调查时间,并请调查单位加盖单位公章。
(2)筛选病例标准
1)严格按照诊断标准、纳入标准、排除标准筛选病例。
2)根据被调查患者的实际情况,在诊断标准、纳入标准、排除标准相应“是”或“否”的选择项□内打“√”。
3)纳入时需向患者说明本研究的目的,消除患者顾虑,取得配合。
(3)一般资料
1)请在姓名、家庭月总收入、月伙食费用、住房使用面积、联系地址相应的栏目处填写具体内容。
2)请在出生年/月、家庭总人口的□中填写具体数字。如:总收入5 000元则填为05 000。
3)请在民族、性别、婚姻状况、职业、教育程度、相应的选择项□内打“√”。
(4)病史及危险因素
1)根据被调查患者的具体情况,对其高血压诊治情况(包括病程及确诊时间、病程中最高血压、服药治疗情况等)、目前及过去患病和治疗情况,按表中要求进行填写,或打“√”。
2)家族史:询问患者有无高血压的家族史;具体填写父、母的发病年龄。直系亲属指父母、祖父母、外祖父母;旁系亲属指叔叔、姑姑、舅舅、阿姨等。
3)对高血压危险因素请在调查表中相应的□内打“√”,如身高、体重等需在□中填写数字。吸烟、饮酒请先问有无,若“无”则须填写被动吸烟情况,其他项目无须填写。
(5)四诊信息
1)参照工作手册后面的相关四诊信息概念及分级标准,采集被调查患者入选时信息及回顾性填写既往确诊时信息,两周后填写治疗后信息,并进行其轻重程度的等级评定,在相应选择项□内打“√”。
2)对于“头痛、胁痛、胸痛”三种疼痛,请针对其“性质”及“特点”进行询问与填写,可进行多项选择,疼痛性质可参考分级标准,疼痛特点不再分级。
3)非心血管疾病对照组四诊信息只需填写入选时情况,即中间一列即可。
4)对于自觉症状,医生要适度地引导患者进行较为形象的描述,将患者的自述性描述准确地记录下来,按照工作手册之分级标准,判断症状的程度和性质,若无采集表中描述的信息出现,在“□1无”的□中打“√”。
5)对于患者各项四诊信息要如实根据分级标准记录。如采集表中信息缺如,可记录于备注栏中,只需将信息进行详细描述,具体分级及编码由项目主持单位统一拟定。
6)女性患者询问是否绝经,若已绝经则无须询问月经史。月经情况是指近3个月内的信息,请患者自己描述“月经周期”的时间(由医师评定“先期、后期、先后不定期”),患者自己描述目前月经的“量、色、质”,由医师具体评定。
7)根据您所采集的被调查患者的具体舌、脉象情况,请按照临床信息采集表中提供的调查项目,逐项进行填写,在选择项相应的□内打“√”,并可进行多项选择;若无列项中表现,需在“□1无”的□中打“√”。如采集表中信息缺如,可记录于备注栏中,只需将舌脉进行详细描述,具体分级及编码由项目主持单位统一拟定。
(6)体格检查:
由医护人员在标准条件下按统一的规范进行测量。并将相应数值录入相应□中。血压测量的具体要求:
1)被测量者至少安静休息5分钟,在测量前30分钟内禁止吸烟和饮咖啡,排空膀胱。
2)被测量者取坐位,最好坐靠背椅;裸露右上臂,肘部置于与心脏同一水平。若疑有外周血管病,首次就诊时应测双臂血压。特殊情况下测量血压时可以取卧位或站立位,老人及常出现体位性低血压情况者,应测立位血压。立位血压测量应在卧位改为站立位后1分钟和5分钟时测量。不论被测者体位如何,血压计应放在心脏水平。
3)使用大小合适的袖带,袖带内气囊至少应包裹80%上臂。大多数人的臂围25~35cm,宜使用宽13~15cm、长30~35cm规格的气囊袖带,肥胖者或臂围大者应使用大规格袖带。
4)将袖带紧贴缚在被测者上臂,袖带下缘应在肘弯上2~3cm。将听诊器的胸件置于肘窝肱动脉处。
5)选择符合计量标准的水银柱式血压计进行测量。若使用机械式气压表或符合国际标准(BHS和AAMI)的电子血压计,需与水银柱式血压计同时测值校正。
6)测量时快速充气,气囊内压力应达到桡动脉搏动消失并再升高30mmHg(4.0kPa),然后以恒定速率(2~6mmHg/s)缓慢放气。心率较慢时放气速率也较慢。获取舒张压读数后快速放气至零。
7)在放气过程中仔细听取柯氏音,观察柯氏音第Ⅰ时相与第Ⅴ时相水银柱凸面的垂直高度。收缩压读数取柯氏音第Ⅰ时相,舒张压读数取柯氏音第Ⅴ时相(消失音)。严重贫血、主动脉瓣关闭不全或柯氏音不消失者,以柯氏音第Ⅳ时相(变音)定为舒张压。
8)血压单位用毫米汞柱(mmHg),在正式出版物中注明毫米汞柱与千帕(kPa)的换算关系,1mmHg=0.133kPa。
9)应相隔2分钟重复测量,取两次读数的平均值记录。如果两次测量的收缩压或舒张压读数相差>5mmHg,则相隔2分钟后再次测量,然后取3次读数的平均值。
(7)实验室检查
1)请在患者入选时进行必查项目的实验室检查。将各项检查结果按表中要求填好。根据具体数值所在范围或具体描述,在相应分级□中打“√”,属正常范围者,在正常一档□中打“√”。
2)以近期检查的结果为准,所测项目与检查时点相差不超过2周。
3)黑色加粗线以上为必查项目,线以下为选查项目,根据对各单位检查数量要求进行检查并录入。动态血压要求在2级、3级高血压患者中进行。
(8)临床调查者的经验辨证
1)请根据调查者的知识和经验对患者进行传统辨证,在“中医病名”和“中医证候”相应的□处打“√”。本研究是对高血压病进行全信息的收集,将对资料进行盲态下统计分析,临床研究者的辨证仅作为研究结果的对比分析。不影响提取的证候要素结果。
2)“中医病名”和“中医证候”可以按照主次顺序填写多个。与高血压密切相关者做第一诊断。如您认为所列病名或中医证候不能反映疾病本质,可将最能反映疾病本质的病名、证候写于备注栏中。
3)临床调查者须在中医诊断之后提供相应中药处方的主要中药5~7味,以供处方用药和证候分类进行关联规则的研究。
(9)质量审核:
病种负责人将严格按照调查流程图的时间顺序,监察临床信息采集表,对信息采集表的质量进行审核,尤其注重病人的两次信息采集质量,并签署姓名和时间。
回顾性调查是为取得某种研究现象在过去某一段时期内发生、发展和变化过程的具体事实和资料的调查活动。回顾性调查是一种特殊的调查形式,其目的是为了了解历史上曾经发生过,但由于种种原因没有进行登记和记录的现象和过程。它是通过被调查者或他人的回忆,或历史数据的挖掘,来获得必要的情况和资料的。通过回顾性调查,一方面可以为研究某一专门现象和过程提供历史事实和资料;另一方面可填补调查资料的缺口或空白,为全面研究问题提供条件。
病证型结合研究的回顾性调查是收集在过去一段时间内,一家或多家医院病案室中一定数量的符合研究病种中西医诊断标准的病例。病案资料是一个大宝库,是患者在医院诊治全程的原始记录,能真实反映疾病的临床信息与治疗经过。“温故而知新”,通过回顾性病例采集和分析,能够较详尽地把握该病目前的发病率、发病情况、临床表现、现代医学检测指标及治疗方案。
在回顾性调查中我们需注意:①病例来源以医院为主,收集一家或多家医院一定时间内符合入选标准的所有患者,也可收集社区内通过常规登记或调查获得的全部病例。病例数量根据统计学原理计算而定;②收集的病例资料尽可能有详尽和齐全的指标,有助于发现临床真相,便于后续的分析。
回顾性调查是在真实条件下收集相关数据。不仅能反映临床的真实世界,还能结合文献检索结论进行CRF表的修正与完善,为后续的(前瞻性)研究提供依据,有利于构成学术“链条”成为研究系列。
横断面调查研究又称横断面研究,因其所用的指标主要是患病率,又称患病率调查。研究获得的描述性资料是在收集某一时点或一个特定的时间内的病例资料,能客观地反映这一时点的疾病分布以及人群的某些特征与疾病之间的关联。由于收集的资料是调查当时所得到的情况资料,故又称现况研究或现况调查。横断面调查研究的目的是:①描述疾病或健康状况的时间、地点和人群间分布情况,通过对某一地区或人群的调查,获得某种疾病在时间、地区和人群中的分布,从而发现高危人群或发现有关的病因线索,为疾病的防治提供依据。②描述某些因素或特征与疾病的关联,确定危险因素。如通过对高血压及其危险因素的调查,发现高血脂、超重、情绪、吸烟及有关职业与高血压病的关系,从而为降低危险因素、减少高血压病发生提供依据。③为评价防治措施及效果提供有价值的信息。如在采取干预措施后,重复进行横断面研究,根据患病率差别的比较,可以考核前段时期所施行措施的效果。④为疾病监测或其他流行病学研究提供基础资料。
横断面调查研究是在特定时间对一定范围内的人群,以个人为单位收集和描述人群的特征以及疾病或健康状况,是描述流行病学中应用最为广泛的方法。其步骤根据不同研究的目的而定,一般可为:①根据CRF表中的纳入标准界定调查总体;②利用统计学原理,计算调查所需的最少样本量;③组织专业人员全面开展多中心的现场调查。在收集病例时,务必要做到客观、详细和准确,现场遇到CRF表以外的疾病信息也要客观收入、准确描述。
横断面调查研究的特点:①一般不设置对照组;②由于资料是在某一时点或在一个较短时间区间内收集的,所以它客观地反映了这一时点的疾病分布以及人们的某些特征与疾病之间的关联;③用现在的特征来替代或估计过去情况是有条件的;④定期重复进行可获得发病率资料。
数据库是按照一定的数据结构来组织、存储和管理数据的仓库。它就像一个大型的记录保存系统,可将对临床流调过程中采集的繁多的疾病信息,进行集中存储和管理。有利于数据的保存、方便数据的管理、推动统计分析的开展。
临床流调中采集到的数据大多以纸质的CRF表进行保存,只能翻阅查看。为方便数据的保存和分析,需将其数字化,录入指定数据库。
目前比较流行的临床数据库管理系统主要有Excel和EpiData。EpiData主要用于数据输入,它可以将临床流调中的CRF表“计算机化”,使计算机上的表格和CRF表完全一样,简化录入程序。
变量编码是指把需要加工处理的原始信息,用特定的数值来表示的一种技术。根据一定的数据结构和目标的定性特征,将变量转换为代码或编码字符,以数据的组合形式作为传送、接受和处理的一组规则和约定。变量编码的标准可以重新修编,也可以参考国际标准中有关变量命名的规则,比如对于提交FDA的临床试验都会使用临床数据交换标准协会(CDISC)提出的Study Data Tabulation Model(SDTM)来统一编码变量。这些标准把相对应的项目和变量名联系起来,变量编码后建立该数据库的变量词典,任何允许使用数据库的用户都可以进行编码查询与使用。
在进行数据录入之前应制订好录入规则,明确哪些信息是缺失状态,哪些信息是不必录入等。制订好录入数据人员手册,内容主要针对研究内容的业务培训和计算机操作培训,并开展数据录入人员培训。数据录入方式主要有2次录入、校对录入和自动扫描录入。目前临床研究多采用的是双人双机录入方法。
检查核对资料的完整性和准确性,是保证数据质量的重要环节。
首先编写程序对数据库中的数据进行一致性检查,包括各变量的可能取值范围。然后做简单的描述性统计,分析变量的频数分布表、最大值、最小值、百分位数、茎叶图、盒形图以发现异常值。
有时双机录入的结果不一定完全正确,比如CRF表中填写有误,则此时逻辑检查会发现特别大或特别小的数据,提示需进一步核对,此时需返还研究者进行修改或重新采集。
为进一步确保数据的准确性,采用随机抽样的方式抽查,对数据库录入的资料进行人工检查核对,抽样调查虽然是非全面调查,但它的目的却在于取得反映总体情况的信息资料,因而,也可起到全面调查的作用。
为防止误操作,在检查核对确认数据无误后对数据库进行锁定,锁定后的数据库用于统计分析,未经授权不能擅自修改。
本质规律不是浮现在表面的现象性事物,而是隐藏在事物现象之中的必然联系。我们需要通过一定的方式或手段揭示这种本质或规律。疾病的证候分型就是潜藏在复杂临床信息背后的本质规律。为探索中医证候分类与临床信息之间的关联性,利用这些关联的信息对疾病进行证候分型研究,可以引用多种统计学方法进行分析研究。
单因素分析是以描述事实为目的,在一个时间点上对某一个变量的分析。录入到数据库中的临床信息并非全都有效,在统计分析前,我们需用单因素分析法对收集到的各组指标根据阳性率的大小进行初步筛选。首先排除阳性率小于10%的临床四诊信息和检测指标,然后对剩下的指标进行组间卡方或精确度概率检验,对阳性率达到10%以上,并且卡方或精确度概率检验有统计学差异的指标直接纳入下一步分析,最后对阳性率小于10%,或者阳性率虽然达到10%但是卡方或精确概率检验无统计学意义的临床指标,应该征求中医专家学者意见做进一步取舍,以供数据分析使用。
疾病的四诊信息看似复杂繁多,其实却关系密切。因子分析就是从这些通过横断面调查获得的原始临床信息入手,寻找出支配这些信息之间关系的有限的不可直接观测的潜在变量,即证候分型,同时进行不同分型与四诊信息之间关系的探索。
因子分析应注意样本量不能太小,因为各变量之间可能存在相关性,为检验原始数据间是否存在相关性,在因子分析之前需要进行数据的KMO和Bartlett球形检验,一般KMO≥0.7;Bartlett球形检验的 P 值小于0.05可做因子分析。
探索性因子分析法是一项用来找出多元观测变量的本质结构并进行降维处理的技术。因而,此方法能够将具有错综复杂关系的变量综合为少数几个核心因子。
探索性因子分析主要有以下7个步骤。①收集观测变量:通常采用抽样的方法,按照实际情况收集观测变量数据。②构造相关矩阵:根据相关矩阵可以确定是否适合进行因子分析。③确定因子个数:可根据实际情况事先假定因子个数,也可以按照特征根大于1的准则或碎石图的变化准则来确定因子个数。④提取因子:可以根据需要选择合适的因子提取方法,如主成分方法、加权最小平方法、极大似然法等。⑤因子旋转:由于初始因子综合性太强,难以找出实际意义,因此一般都需要对因子进行旋转(常用的旋转方法有正交旋转、斜交旋转等),以便于对因子结构进行合理解释。⑥解释因子结构:可以根据实际情况及负载大小对因子进行具体解释。⑦计算因子得分:可以利用公共因子来做进一步的研究,如评价等。
病证型结合证候分类研究中的探索性因子分析实际上就是将临床信息指标(如四诊信息、体征指标、实验室指标等)作为显变量,证候分型(因子)作为潜变量,根据指标间相关性大小不同进行分组,使得同组内的指标相关性(共性)较高,而不同组内的指标相关性较低。每一组就代表一个基本结构,即公因子,也就是证候分类。在成功建立了疾病探索性因子分析模型后,根据结果中因子的特征值大小,或观察碎石图的变化决定疾病证候分型的初分类,一般选取特征值大于1的公因子,或碎石图开始出现平坦趋势的第一个点对应的因子数。
在实际科研工作中,探索性因子分析主要是为了找出影响观测变量的因子个数,以及各个因子和各个观测变量之间的相关程度;而验证性因子分析的主要目的是决定事前定义因子的模型拟合实际数据的能力。验证性因子分析要求事先假设因子结构,我们要做的是检验它是否与观测数据一致。探索性因子分析是在一张白纸上作图,而验证性因子分析是在一张有框架的图上完善和修改。
探索性因子分析的证型初分类并不是最终结果,采用证实性因子分析将中医临床实践经验放入模型验证,根据模型主要的拟合指数都达到要求时的因子数,最终确定病种的证型分类数。通常拟合优度(GFI)≥0.85时模型的拟合程度最好,其对应的因子数最符合模型要求,此时的因子数就是我们需要的证型分类数。
研究中因为测量误差的存在,研究者需要使用多个测度项。当使用多个测度项之后,我们就有测度项的“质量”问题,即效度检验。而效度检验就是要看一个测度项是否与其所设计的因子有显著的载荷,并与其不相干的因子没有显著的载荷。
证实性因子分析模型不仅能验证探索性因子分析初分类的结果,还能根据载荷系数的大小定量地估计某一临床信息与分型之间的关联程度。载荷系数的取值没有统一标准,《结构方程模型及其应用》 [144] 指出载荷系数在0.45以下的因子可不计入统计范畴。但实际应用中,研究者可灵活取舍,通常载荷系数取舍标准是0.45或0.4,最低的标准是0.3,严格一点也可采用0.5为标准。在实际应用中,证实性因子分析时可将载荷系数0.3~0.4以上的四诊信息作为诊断该型的主要症状,0~0.3或0~0.4的四诊信息作为临床可现症状。
证候分型与四诊信息间存在一定的联系,那证候的型别之间肯定也普遍存在某种联系。为了揭示这种联系,我们运用结构方程模型,将四诊信息作为显变量,证型分类看成隐变量,将疾病与证候分型的关系描述为病可分为若干个证型分类,而病又可由若干个共同临床症状体现,共同症状所构成的基础信息是各证候分型的共性部分,反应疾病发生的基础信息,体现疾病的核心病机,是这个疾病的基础证。证候分型为该疾病的基础证在各种内外干预条件下反映临床表现的不同分类。
通过模型拟合与修正,找出最佳的结构方程模型,计算证候分型中的共同症状的载荷系数,并进行排序,根据中医学理论或专家经验选取排名靠前的四诊信息作为诊断该疾病的基础信息,即基本证,又称基础证。
证候要素实质上是对证候的分解,证候分型、证候要素、四诊信息指标间的关系就是证实性因子分析中的一阶因子、二阶因子和观测变量间的关系。基于此,我们采用二阶证实性因子分析方法对中医证候要素进行提取,首先将在证实性因子分析中,每个因子(证候分型)载荷系数为正值的指标选取出来,然后再次进行探索性因子分析,根据分析结果构造该因子证候要素分析的二阶证实性因子分析模型,提取证候要素。
证候分型名称是中医临床诊断的最终表述形式,是确立治疗原则和方法的根本依据。1990年6月在长沙召开的全国中医病名与证候规范研讨会上,提出证名是证候的诊断名称,是反映疾病全过程中某一阶段的本质或内部联系,它由病因、病位、病势、病性、病机等因素综合和抽象而成 [145] 。目前证候分型的命名方式多样,有以病邪命名的,有以病变性质命名的,有以病位命名的,有以主治方剂命名的,有从脏腑经络气血津液失调命名的。王永炎院士提出一个证候分型可由若干个病性或病位的证候要素组成;证候要素是组成证候分型的最小单元。这种提取运用证候要素命名的方法,有助于执简驭繁,通过现象看本质,直达病证根本,使分型有章可循。研究方法可以在使用二阶证实性因子分析提取病性、病位证候要素的基础上,结合专家经验咨询结果,主客观结合,对证候分型进行科学规范地命名。
中医证候不可以直接观测,称为潜变量,但四诊信息是可以通过测量来反映证候的,称为显变量。上面介绍了对中医证候研究常用的因子分析、结构方程模型均要求可测变量为服从正态分布的连续性变量,而中医领域中收集的中医四诊信息项目经常为二分类或有序分类变量,这里需要采用潜在类别分析(LCA)模型,因为潜在类别分析在处理分类资料中,兼具因子分析与聚类分析的功能,弥补了传统方法仅能处理连续潜变量的不足,使得研究者能够透过概率深入地了解分类变量背后的潜在影响因素,更加适合解释中医症状对证候的影响。同时它是基于潜在类别模型并引入多因素变量进行统计分析,可以用最少的潜在类别数目来解释可观察变量间的关联,参数估计更为合理,结果更为准确。
中医传统用药是建立在四诊合参的基础上,具有直观、针对性强的优点,但从较大范围的流行病学调查中审视这些个体病例,尚缺乏规范性。关联规则分析方法主要用于大量的中医数据中隐藏的有意义的联系,即查找存在于中医病、证、方剂、用药等之间出现的频繁模式、关联、相关性或因果结构,其所发现的联系以频繁项集的形式表示,是目前应用较为成熟的数据挖掘技术。
Apriori算法是最常用、最经典的挖掘频繁项集的算法,核心思想是通过连接产生候选项及其支持度,然后通过剪枝生成频繁项集。其中项集指的是项的集合,如使用中药的组合、病位与四诊信息的组合,支持度指的是项集A、B同时发生的概率,置信度指的是项集A发生则项集B发生的概率,最小支持度指的是中医专家定义的衡量支持度的一个阈值,表示项集在统计意义上的最低重要性,一般取≥0.1,最小置信度指的是中医专家定义的衡量置信度的一个阈值,表示关联规则的最低可靠性。同时满足最小支持度阈值和最小置信度阈值的规则成为强规则。
第一阶段必须从收集原始中医资料集合中,找出所有高频项目组,如中药的使用、四诊信息出现的频率集合,得到项集同时发生的概率,即支持度。从一元集合入手,根据支持度大小删掉一部分一元集合,同理,进一步增加集合元素数,得到最好的频繁项集。
第二阶段找关联规则,即蕴含式X->Y(若X即Y),且X、Y同属于一个集合,X、Y无交集,其关联规则是通过频繁项集的子集得到的,计算标准利用的评价指标是置信度,将小于置信度阈值的规则舍去,最终找到相应的结果。
使用关联规则分析方法,对临床流调中众多临床医师的诸多辨治经验进行数据挖掘,披沙拣金,对疾病各证候分型中药处方进行频数统计,找出各分型中出现频率最高的前几味中药。根据置信度和支持度阈值挖掘常用中药组合,发掘证候分型与中药的对应关系,分型与西药的相关关系,为疾病基础证、证候分型提供基本方药和加减方药,方便临床医师清晰精确地临床施治用药。
中医学不仅是一门博大精深的医学,也是富有智慧的哲学,它注重临床实践的积累,具有经验性强的特性。在中医临床科研中使用现代数理统计学方法,虽可增强研究的科学性及客观性,但不可避免地会出现忽略临床经验的弊端。为了实现病证型结合研究中客观真实与主观经验的完美融合,可以用多指标评价的方法将统计学结果与专家经验结论进行一致性评价。
多指标综合评价可以根据不同的评价对象和目的,从不同侧面选取刻画系统某种特征的评价指标,建立指标体系,并用一定的数学模型(或算法)将多个指标值合成一个整体性的综合评价值。多指标综合评价的过程,实际上就是系统组成要素之间指标信息交换、流动和组合的过程,是一个集成了主客观信息的复杂过程 [146] 。
在进行综合评价之前,我们需要明确评价对象。参与综合评价的资料应是临床流调且经统计学数据处理分析所得的,据此在分析资料的基础上使用德尔菲法设计进行专家咨询。前者属于统计方法分析,得到的结果会相对客观;后者根据专家经验,结论相对主观,对两种资料进行比对和综合分析。运用多指标综合评价方法,既能避免统计分析脱离临床的弊端,又能解决专家经验过于主观的不足,将统计分析结论和专家经验进行有机结合,可获得科学而客观的研究结果。
明确了评价对象,在一定程度上也就确定了评价方法与体系。评价体系的选取需遵循5个基本原则,即目的性、全面性、可行性、稳定性和与评价方法的协调性,如何采用德尔菲法构建评价体系是多指标综合评价的主要内容。
德尔菲法又称专家函询调查法,是一种匿名专家评分法或专家咨询法。1946年美国兰德公司为了避免集体讨论中存在的盲目服从或屈服权威的情况,首次运用了这种方法,目前世界上有200余种预测决策方法,德尔菲法使用频率最高,占所有方法使用总数的24.3% [147] ,可以称之为权威的预测方法。
德尔菲法的核心是通过几轮背对背的通信方式,征询专家意见并反馈给专家,最终得到趋于一致的意见,因此,专家的选择是德尔菲法的一个关键环节,专家选择是否合适是预测成败的关键 [148] 。一般选择在所研究的领域有一定造诣,拥有丰富临床经验且对研究感兴趣的,具有中级及以上职称的专家,理论上专家咨询人数不少于30名,专家分布区域不要太过集中,在具体实施时也可根据实际情况确定。
专家咨询根据统计建模分析的结果,在对专家的基本情况和其对指标熟悉程度进行调查的同时,针对研究疾病一个基础证,n个证候分型,共设置n+1个项目,在每个项目下,再根据其相关的四诊信息分设不同指标,请专家对各指标进行是否重要的选择,并对其重要程度打分。
研究者可根据德尔菲法的咨询程序,采用当面咨询、电子邮件咨询等多种方式,全面开展专家调查,可将编制好的咨询表进行两轮或以上的专家咨询。
采用Kendall’s W检验法对专家评分的一致性进行分析,以SPSS中非参数检验中的Kruskal-Wallis H检验,得出 P 值以及专家间的协调系数W值。若 P <0.05则可认为协调系数经检验后有显著性,说明专家对基础证和各证候分型指标的评价结果具有一致性,表明研究结论可信。
综合评价体系作为评价的参照准则,其指标权重确定的合理性直接影响评价结果的准确性和可信度。因此,科学、合理地确定指标权重是综合评价的关键环节。研究者可以选用专家对证候分型及其证候要素命名的同意率来确定指标权重。若所有专家对基础证及证候分型命名的同意率≥90%而<100%,那么流调中四诊信息的权重为0.9,而专家咨询表中的四诊信息权重为0.1;若10%≤同意率<90%,那么流调中四诊信息的权重0.1,而专家咨询表中四诊信息的权重为0.9;若同意率为100%,则综合评价结果与流调结果一致;若同意率小于10%,则综合评价与专家咨询结果一致 [149] 。
评价指标是指能够确切地反映研究对象某一方面情况的特征依据,每一个评价指标都能从不同侧面刻画对象所具有的某种特征。临床流行病学中的四诊信息重要程度的评价指标为载荷系数的大小,国外学者曾用模拟数据对证实性因子模型进行研究,认为主要因子载荷和次要因子载荷需在0.7~0.8之间,但在中医证候分型的研究过程中,主要的因子载荷很难达到这个水平,通常在0.3~0.6之间,经专家研究决定,为纳入更多的研究指标,特选择载荷系数在0.3以上的观察指标及其相应的载荷系数。德尔菲法专家咨询的四诊信息重要性的评价指标为专家打分的平均值。两个评价指标所代表的含义不同,存在量纲上的差异,不能直接比较,为了消除此差异,必须进行归一化处理。指标归一化的方法主要有统计标准化、极值标准化、定基与环比转换、指数法。研究中所涉及指标均属效益型指标,故采用效益型指标的平均极值法的计算方法对数据进行归一化处理。
结果可期,综上所述,将两类方法得到的指标归一化后乘以相应的权重,得到加权后各指标值相加后的综合值,再进行排序。若专家对证候分型1命名的同意率≥90%而<100%,那么流调中四诊信息的权重为0.9,而专家咨询表中的四诊信息权重为0.1,流调中指标经归一化后的值记为R1,专家咨询中指标经归一化后的值记为R2,则该指标的综合值为0.9R1+0.1R2。
评价过程不是逐个指标顺次完成的,而是通过一些综合方法将多个指标评价同时完成的,通常给每个评价对象赋予一个评价值进行排序,根据排序的变化来判断各指标之间一致性程度。在实际运用时,根据载荷系数大小、专家打分的平均值以及综合值的大小,对四诊信息指标分别进行排序,观察排序的变化,若排序未变或变动细微,则统计学方法与专家咨询方法对证候分型结果的一致性较好;若排序变动变化不大,则两种方法的一致性一般;若排序变化较大,则两种方法结果不一致。
以上描述的技术流程是病证型结合研究的普遍适用方法,研究者可按流程一步一步操作。为使流程更加清晰具体,第八章将按此程序进行的常见病种病证型结合分类研究的具体操作步骤分享给各位读者,以便研究者更加全面、深入地了解病证型诊疗模式的研究方法和具体流程。