购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第一节
资料预处理

进行科学研究时,根据研究目的和要求,通过查阅文献、现场调查、组织实验等途径可以搜集到所需的原始资料。但在对杂乱无章的原始资料进行统计分析之前,往往需要先对其进行适当的处理,使之系统化、条理化,即资料的预处理。资料的预处理直接决定了分析资料的质量与效率,影响统计分析结果的可靠性和最终决策的科学性。一般来讲,资料的预处理包括数据的审核、筛选和整理。

一、数据审核

(一)数据审核的内容

1.完整性 即研究所需的资料是否全部得到,有无缺项、漏项等现象。完整性是保证资料质量的基础,主要检查原始资料有无遗漏或重复,内容是否齐全。

2.真实性 即判断原始资料有无伪造、篡改数据等现象。真实性是对资料最基本的要求。

3.准确性 即原始资料是否准确、可靠。准确性是资料质量的核心,资料不准确将导致错误的结论。

4.及时性 即是否按时获取资料,有无拖延。及时是保证资料完整性的先决条件,若未能在规定期限内完成资料的搜集,应检查其原因,并提出改进和解决的办法。

5.可比性 即资料的信息来源、抽样方法、样本含量、基线资料、选择条件、观测或试验条件、相关标准等方面是否相同或相似,是否具有可比性。

(二)数据审核的方法

1.缺项检查 缺项指对调查表中某些项目未予回答。若所缺项目对于研究来说必不可少,那么这部分调查表就成了废表,需予以剔除,如儿童生长发育调查中的儿童性别、年龄。有时,虽然所缺项目的内容也非常重要,但为了避免因剔除过多而导致的调查表回收率过低,就对缺项作为单项缺失进行处理。如调查1500名正常成年人的血液红细胞、白细胞、血小板正常值范围,其中有3人血小板数未填入,那么在统计红细胞和白细胞时可按1500人计算,而统计血小板时以1497人计算。

2.范围检查 包括两方面:①已调查或研究的个体是否属于规定的研究对象范围:如在胃癌流行病学调查的病例-对照研究中,对病例组首先要确认胃癌患者的诊断无误。如果有慢性胃炎、胃溃疡等患者混入,则调查结果易出现假象。②是否存在调查或研究对象的漏失问题:应调查对象的调查率当然越高越好,但实际工作中很难做到100%。为了避免和减少因调查率太低而引起的资料偏性,对调查对象一般除了出差、病危等特殊情况外都应调查到。

3.专业检查 即从专业的角度来发现和纠正错误,如在某些调查表中出现女性病人患阴茎癌、6岁孩子患中风等明显错误的情况,对于这种调查表应予以作废。

4.统计检查 即按统计学要求发现和纠正错误。许多数据都有统计规律,如事物内部各部分构成比之和必须等于100%,符合正态分布的指标数值在均数加减2.58倍标准差范围内的应占99%。

5.逻辑检查 即根据指标本身或指标间的内在联系,利用逻辑关系检查指标之间或数据之间有无矛盾。如统计表中,横向、纵向的合计和总合计是否吻合,对不合理或错误的项目必须复查、纠正或舍弃。

6.计算机检查 传统的资料检查方法是以人工方式逐份对调查表作检查,虽然检查全面,但工作量大、易出现遗漏。而借助计算机,把资料内容编写为程序,进行独立双份双机录入,计算机程序就会对数据库中的数据进行一致性检查,准确无误地判断出两次录入的不吻合之处,并生成数据校正表,便于研究者校对、修改直至两个库完全一致。但计算机一般只能检查出逻辑性错误和录入错误,或者进行简单的专业检查。实际应用中,可把人工检查和计算机检查结合起来,以保证数据的质量。

二、数据筛选与处理

(一)数据筛选

数据筛选通常包括两方面:

1.纠错或剔除 一般经数据审核中的专业检查、统计检查、逻辑检查和计算机检查等可以发现数据中的错误,然后通过核对,对错误数据进行纠正,无法纠正者予以剔除。

2.筛选数据 通过资料搜集可得到大量数据,但有时并非所有数据都与研究目的有关。此时,需要根据研究目的或要求,从所有数据中选择研究所需资料。

(二)数据处理

1.变量设置 统计资料一般分为数值型和分类型两种。数值型资料有确切的观测值,可直接录入计算机,如人的身高、体重等。分类型资料则需要进行数量化处理之后,计算机才能识别和运算。总之,变量的设置方式比较灵活,应综合考虑资料的类型、研究目的、变量的分布以及统计分析方法的应用条件。

2.离群值的处理 离群值(outlier)即个别离群较远的数据。一般认为在平均数±3倍标准差以外区域出现的点所对应的原始数据为离群值;在平均数±2倍标准差以外、平均数±3倍标准差以内区域出现的点对应的原始数据可能为离群值。在离群值产生原因未明之前,不能简单决定其取舍,尤其是观测值个数较少时,离群值的取舍对分析结果会产生很大影响,须慎重对待。其处理分两种情况:①若确认数据有逻辑错误,又无法纠正,可把数据直接删除。②若数据并无明显的逻辑错误,可将该数据剔除前后各做一次分析,若两次结果不矛盾,则不剔除;若结果矛盾,并需要剔除,须给出充分合理的解释。

3.缺失值的处理 缺失值(missing data)即在统计资料构成的行列表中,行列相交的单元格中未能记录应有的数据。数据缺失是统计资料中常见的问题,其危害大小取决于缺失的方式、缺失数据的数量和缺失的原因,其中最重要的是缺失方式。缺失值的处理常见的有删除存在缺失值的记录或变量,估计缺失值和建立哑变量等,应根据具体情况选择适当的处理方法。

4.数据分组 数据分组的方法很多,最常用的是:①数量分组:即按照研究对象某项指标数量的大小进行分组,如按照年龄的大小、血压的高低等分组,适用于数值型资料。②性质分组:即按照研究对象的性质、特征或类型等分组,如按照性别、血型等分组,适用于分类型资料。

5.数据排序 有时需要对数据进行排序,常见的排序方法有升序、降序和按习惯排序等。

三、统计表与统计图的绘制

进行统计描述时,统计表(statistical table)和统计图(statistical graph)可以揭示资料的特征和分布规律,是展示资料分析结果的重要工具。好的统计表可代替冗长的文字叙述,简明扼要的表达分析结果。而合适的统计图能够直观形象地展示资料特征,给读者留下深刻印象。统计图表的选择应根据研究目的而定,若强调数值的精确,往往采用表格形式;若强调数据的分布特征或变化趋势,则采用图示方法。在实际应用中,往往将二者结合起来使用。

(一)统计表

统计表有广义统计表和狭义统计表之分。广义统计表指统计工作中使用的所有表格,包括统计调查表、统计整理表、统计计算表、统计分析表、统计工具表等;狭义统计表指统计分析表,即将观测指标及其取值按照一定的顺序排列起来所制成的特定表格。通常所说的统计表指狭义统计表。统计表是研究报告和科研论文中表达统计分析结果的常用方式,不仅简明扼要、层次清楚,而且便于进一步的计算、分析和比较。

1.统计表的基本结构 统计表一般由表号和标题、标目、线条、数字、备注五部分构成。

(1)表号和标题 表号按照表格在文中出现的顺序列出,以便查找和引用。表号以阿拉伯数字表示,其后留空格,然后是标题。标题需简明扼要的表达统计表的主要内容,流行病学调查须注明时间和地点。表号和标题位于统计表的上方中央。

(2)标目 通常分为横标目和纵标目。横标目位于表格的左侧,用于说明每行数字或内容的含义;纵标目位于表格的上方,用来说明每列数字或内容的含义。一般要求标目须文字简洁,层次清楚,一张表格内不要安排过多的标目,有单位的标目还应标明度量单位。

(3)线条 统计表内线条不宜过多,常用“三线表”,包括顶线、底线和标目分隔线三条等长的横线。部分表格可再用短横线将合计栏分隔开(一般主张省略),或用短横线将两重纵标目分隔开,见表3-2。其他竖线和斜线一律省去。

(4)数字 用阿拉伯数字表示。表格内的数字必须准确无误,同一指标的小数位数要一致,上下以个位对齐。表格内不留空格,无数字用“—”表示,缺失数字用“…”表示,数字为0则记为“0”。

(5)备注 是对表格内容的补充说明,根据实际需要添加。一般不列入表内,必要时用“*”等符号标出,放在表格的下方。

2.统计表的种类 统计表包括简单表、组合表、频数分布表和列联表等,这里主要介绍简单表和组合表。

(1)简单表 统计表的主语只有一个层次,称简单表(simple table)。

【例3-1】 2013版《中国统计年鉴》给出了2012年北京和天津地区村卫生室的构成情况,具体见表3-1。该表只有地区分组一个层次,即只有一个分组标志,属于简单表。

表3-1 2012年北京和天津地区村卫生室的构成

(2)组合表 统计表的主语有两个及以上层次,称为组合表(combinative table)。

【例3-2】 2013版《中国统计年鉴》给出了2012年北京和天津两地城镇和农村居民的消费支出情况,具体见表3-2。该表有地区和城乡分组两个层次,属于组合表。

表3-2 2012年北京和天津两地城乡居民消费支出情况

3.统计表的制表原则

(1)重点突出 一张表格只表达一个中心内容。与其把过多的内容放在一个庞杂的表格里,不如用多个表格表达不同的指标和内容。

(2)层次清楚 统计表由左向右阅读时能构成一个完整的语句,有其描述对象(主语)和内容(宾语)。通常主语放在表格的左侧,作为横标目;宾语放在表格的上方,作为纵标目。

(3)简单明了 表格中文字、数字和线条都应尽量从简,使人一目了然。

(二)统计图

统计图是用“点、线、面、体”等几何图形来形象地表达资料的数量特征、数量关系或动态变化。主要用于揭示各种现象间的数量差别和相互关系,说明研究对象的内部构成和动态变化等,具有形象直观、易于理解等优点。但统计图一般只能提供资料的概略情况,而不能获得确切数值,因此不能完全取代统计表,常需同时列出统计表作为统计图的数值依据。

1.统计图的种类 统计图的种类很多。常用的统计图有直方图、直条图、散点图、百分条图、圆图、线图、半对数线图等。

2.统计图的制图原则

(1)图形 根据资料性质和分析目的选择适当的统计图。

(2)图号和标题 每一张统计图都有图号和标题。图号应按统计图在文中出现的顺序排列,以便查找和引用。标题要简明扼要地说明图形表达的主要内容,流行病学调查应注明时间和地点。图号和标题一般位于统计图的下方中央。

(3)坐标 统计图一般有横轴和纵轴,并分别用横标目和纵标目说明横轴和纵轴代表的指标和单位。两轴要标明尺度,横轴尺度自左向右,纵轴尺度自下而上,数量一律由小到大,并等距标明。直方图和直条图的纵坐标应从0开始,而横轴刻度只需标出指标的实测范围即可。

(4)长宽比例 统计图的纵横比例一般以5∶7左右比较美观,但为了说明问题也可灵活掌握。

(5)图例 比较不同事物时,常选用不同线条或颜色表示,并附图例加以说明。图例可放在图的右上角空隙处或下方的适当位置。 gkjtX9841kETP/CGUQ61FLIW0F0qQBEaCKHxxNnUAS/d0DbXL48iItMNN02OP2r0

点击中间区域
呼出菜单
上一章
目录
下一章
×