购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.3
探索型数据分析(EDA)

2.3.1 引言

探索型数据分析(Exploratory Data Analysis,EDA)的目的是对数据的分布、数据质量、数据关系有个直观的了解。通用的EDA工具主要是从Data Schema层面的角度去审视数据,而数据分析师还通常从业务的角度去看数据。本节讨论通用的R语言中EDA工具。

在CRISP-DM方法框架中 [12] ,EDA主要涉及数据理解(Data Understanding)、数据准备(Data Preparation)这2个阶段,具体包括的任务见表2-2。数据理解也常常称为信息型(Informative)探索,数据准备称为操作型(Operative)探索。信息型探索不会改变数据,只是通过描述性统计、图形化等手段了解数据量、数据质量、数据分布和多变量间的关系。操作型探索则根据信息型探索的结果和课题目标,对数据进行过滤、填补、修正、转换、加工等操作。

表2-2 EDA的内容

(续)

2.3.2 R语言EDA包

R语言中的12个常见的EDA包见表2-3 [13] ,其中简写 D.代表DataExplorer包;dM.代表dataMaid;fM.代表funModeling;v.代表visdat;a.代表arsenal;x.代表xray;aE.代表autoEDA;d.代表dlookr;SE.代表SmartEDA;s.代表summarytools;e.代表exploreR;R.代表RtutoR。

表2-3 R语言里EDA包的功能对比

(续)

从表2-3中可以看出,不同包各有特色。在EDA报告生成上,dlookr、dataMaid、DataExplorer、SmartEDA做得比较好。例如,dlookr包eda_report()生成EDA分析报告,如图2-1所示。

DataExplorer包的plot_str()可以对多个dataframe结构进行交互式树状结构可视化。dlookr包提供了数据诊断、探索与转换。find_skewness()函数自动识别有偏(skewed)变量,并提供转换建议。dataMaid包提供了check()、summarize()函数,DataExplorer、funModeling、dlookr和SmartEDA对变量间的联合分布和关系提供了很好的支撑。martEDA包采用平行坐标图(parallel coordinate plot)表示多变量间的关系。exploreR包在评估双变量关系的时候提供了线性回归。

图2-1 dlookr生成的报告

2.3.3 其他工具包

除了上面体系化的EDA软件包,还有很多其他软件包提供了有用的数据探索函数,见表2-4。

表2-4 其他工具包

图2-2所示为summarytools包中dfSummary()的输出结果。

图2-2 dfSummary()的输出示例

2.3.4 小结

关于R语言的EDA的系统介绍可以阅读Person公司出版的相关图书 [14] ,除了数据探索,还有很多数据质量和预测性模型的内容。Python里面有toad包(主要针对风险评分),包括了EDA的部分功能。 bJtuYbo2B6r5R7PzapnCUOWVLbV8aUgutKOazhYI3Fo70NR+bCTQ4mgWZzE5Z6T8

点击中间区域
呼出菜单
上一章
目录
下一章
×