购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

4.1 详解数据规范化处理的目的

有很多新手可能只是知道要对数据进行规范化处理,但是对规范化处理的目的并不是非常了解,这就导致了他们在处理的时候可能会忽略掉一些重要的地方。数据规范化处理的目的其实是指要将数据处理成分析者想要的状态。一般来说,分析人员通过纠正数据的错误与异常、使数据标准化、对数据进行分类等方式,来保证数据的正确性、一致性、有效性、完整性和相似性,确保数据分析达到预期目的,如下所示。

✧ 正确性:通过纠正数据中的错误来保证,主要针对数据中的错误值、#N/A、空白数据等。

✧ 一致性:使数据符合标准化格式,主要针对长度不一致、名称不一致、数据类型不一致、数据中间有无效空格等情况。

✧ 有效性:通过清理异常数据来保证,主要针对数据超大、超小、重复、不符合逻辑等情况,例如产品的净重数据比毛重数据还大,这就是典型的不符合逻辑的情况。

✧ 完整性:有些数据存在缺失的情况,应进行处理,以保证数据完整性。很多时候,对于缺失而且无法补充的数据,宁可删掉也不能让它参与分析,否则很容易扭曲结果。

✧ 相似性:按同属性、同类别、同周期等对数据进行分类,以确保数据的相似性。如果数据没有分类,分析对象太分散,分析起来就会非常困难。

在了解数据规范化处理需要达到的目的之后,处理起数据来才会有的放矢。 W6+BrEqI0cQIBLF2Oo7BPHUFN6uUashsN6SUHame15v8dioOVDXg/K9rItEUK7tp

点击中间区域
呼出菜单
上一章
目录
下一章
×