1.数据的审核
收集完数据资料并完成数据录入之后,接下来的工作就是审核。数据审核就是对调查取得的原始数据进行审查和核实。其目的在于保证资料的完整性、准确性和客观性,为进一步的资料整理打下基础。在调查过程中,由于所研究的问题和采取的调查方法不同,所取得的数据资料也是各种各样的。对于不同类型的数据资料,审核的内容、方法和侧重点会有所不同。一般而言,数据资料审核的内容主要包括完整性、准确性和及时性三个方面。
(1)完整性:检查所有的调查表或调查问卷是否已经全部回收并完整录入,调查的所有问题是否都填写齐全。无法补齐时,应当制定相应的解决对策,以便于以后的深入分析。
(2)准确性:检查数据资料是否真实地反映了调查对象的客观情况,内容是否符合常理;检查数据资料是否错误,计算是否正确。
(3)及时性:检查资料与实际发生的时间间隔长短,一般来说间隔越短越好。检查所填项目所属时间与调查要求的项目所属时间是否一致,若二者不一致,则不能用来分析所研究的问题。
2.数据的分组
数据资料整理过程中的分组,就是根据研究的目的,按照有关变量的各个不同取值将数据资料区分为若干不同的部分。其目的是便于以后的对比分析,以揭示研究对象内在的结构特征。
数据的分组分三种情况:按定类变量的不同取值进行分组,按定序变量的不同取值进行分组和按数值型变量的不同取值进行分组。
(1)定类变量是离散取值的,因此一般情况下可以把数据区分成有限的组别。定类变量的取值没有顺序性,因此,组与组之间的排列也没有顺序上的要求。
(2)定序变量也是离散取值的,但具有顺序性,因此,组与组之间的排列也要讲求顺序性。
(3)数值型变量通常都是连续取值的,分组时需要做进一步的技术处理。例如,将数值型变量定类化,即重新编码。这些工作都要在数据的预处理过程中完成。
总而言之,由于种种原因,已经录入数据集的样本数据经常需要进行审核、修改、分组、合并、排序、初步加工计算、重新编码、个案观测的寻找、插入和删除等必要的预处理工作。