购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.4 小结

本章从应用的角度出发,从数据质量分析和数据特征分析两个方面对数据进行探索分析,最后介绍了Python常用的数据探索函数及案例。数据质量分析要求我们拿到数据后要先检测是否存在缺失值和异常值;数据特征分析要求我们在数据挖掘建模前,通过频率分布分析、对比分析、帕累托分析、周期性分析、相关性分析等方法,对采集的样本数据的特征规律进行分析,以了解数据的规律和趋势,为数据挖掘的后续环节提供支持。

需要特别说明的是,在数据可视化中,由于我们主要使用pandas作为数据探索和分析工具,因此介绍的绘图工具都是Matplotlib和pandas结合使用。一方面,Matplotlib是绘图工具的基础,pandas绘图依赖于它;另一方面,pandas绘图有着简单直接的优势,因此,两者互结合,往往能够以最高的效率做出符合我们需要的图。 9f3V4CGZm3b9KXwsGsdqZLXklYy+754/HzEdM54Y63PqBRGS1eJVXFN1iQX0pE2D

点击中间区域
呼出菜单
上一章
目录
下一章
×