1.在数据挖掘之前为什么要对原始数据进行预处理?
2.简述数据清洗的基本内容。
3.简述数据预处理的方法和内容。
4.简述数据空缺值的处理方法。
5.数据约简的方法有哪些?
6.什么是数据规范化?规范化的常用方法有哪些?写出对应的变换公式。
7.对于例2-10中的数据[3,22,8,22,9,11,32,93,12],试用等宽分箱法完成数据平滑。
8.下列数据是对鸢尾花进行频率统计后的部分数据,在此基础上,用ChiMerge方法完成数据离散化。
续表
9.计算数据对象 X =(3,5,2,7)和 Y =(6,8,2,3)之间的欧几里得距离、曼哈顿距离及闵可夫斯基距离,其中闵可夫斯距离中 p 值取为3。