AI制胜：机器学习极简入门最新章节_宋立桓著

2.1　数据预处理的重要性和原则

机器学习人工智能的爱好者，往往在获得数据后，就开始疯狂地想套用一个算法模型，迫不及待地把数据往里面“喂”。当你信心满满地开始运行后，你会看到下面显示一行一行的红色字体，大体意思是这里数字无效，这时候心态就崩溃了。数据科学家在他们的工作中有50%到80%的时间花费在收集和准备不规则数据的这种更为平凡的任务中，然后才能探索有用的价值。

在机器学习中数据是王道，较好的数据经过不同的模型训练后，其预测结果差距不是太大。在真实数据中，我们拿到的数据可能包含了大量的缺失值，可能包含大量的噪音，也可能因为人工录入错误（如医生的诊断记录）导致有异常点存在，对我们挖掘出有效信息造成了一定的困扰，所以我们需要通过一些方法，尽量提高数据的质量。在机器学习中，数据的质量关乎机器学习任务的成败、直接影响着预测的结果。

那么对于数据的预处理，有如下常用的处理原则和方法。

（1）针对数据缺失的问题，我们虽然可以将存在缺失的行直接删除，但这不是一个好办法，还很容易引发问题。因此需要一个更好的解决方案。最常用的方法是，用其所在列的均值来填充缺失。

（2）不属于同一量纲，即数据的规格不一样，不能够放在一起比较。

（3）对于某些定量数据，其包含的有效信息为区间划分，例如学习成绩，假如只关心“及格”或“不及格”，那么需要将定量的考分，转换成“1”和“0”表示及格和不及格。二值化可以解决这一问题。

（4）大部分机器学习算法要求输入的数据必须是数字，不能是字符串。需要将描述变量转化为数字型变量，因为大部分算法无法直接处理描述变量。

（5）某些算法对数据归一化敏感，标准化可大大提高模型的精度。标准化即将样本缩放到指定的范围，标准化可消除样本间不同量级带来的影响（大数量级的特征占据主导地位；量级的差异将导致迭代收敛速度减慢；所有依赖于样本距离的算法对于数据的量级都非常敏感）。

（6）在数据集中，样本往往会有很多特征，并不是所有特征都有用，只有一些关键的特征对预测结果起决定性作用。

2.1 数据预处理的重要性和原则

2.1　数据预处理的重要性和原则