购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.2 数据分析工作流程与案例赏析

1.2.1 数据分析的工作流程

1.提出问题

任何时候,包括在人工智能时代,提出问题更加重要,特别在评估所研究问题的重要性和创新度时。例如,如何有效地评估中国GDP增长量?

数据分析工作不是一个单向的流程,而是一个有回路的过程,例如:在结果分析与应用环节,可以获取各个利益相关者的反馈,从而修正、改进模型,或者提出新的数据分析问题。此外,在数据探索性阶段,也可能发现有趣的问题和假说,从而修正原有的研究问题。

2.收集数据

根据提出的问题,通过多种方式获取数据,例如:编程抓取数据、购买第三方数据服务商的数据、使用国家统计局数据库等。为了评估GDP增长量,李克强在2007年任职辽宁省委书记时,喜欢通过用电量、铁路货运量和银行贷款发放量三个指标分析当时的辽宁省经济状况。英国《经济学人》杂志在2010年推出用于评估中国GDP增长量的指标,即“克强指数”(Li Keqiang Index),该指数是三种经济指标“工业用电量新增”“铁路货运量新增”“银行中长期贷款新增”的结合。

3.数据预处理

对收集到的数据进行预处理,包括数据清洗(如处理缺失值、重复项、异常值)、新变量的计算(也称为特征工程)、数据合并、数据标准化等。

数据收集和预处理环节可能会占用大量的时间,因此要重视数据资产的价值。此外,构建并开源独特的数据集也会受到业界认可。例如,Fei-Fei Li(李飞飞)使用亚马逊的Mechanical Turk众包平台协助构建的ImageNet数据集,极大地推动了计算机视觉研究的进展。

4.建模分析

数据分析人员应做探索性分析,即使用汇总统计信息、数据可视化工具和相关性分析数据的初步规律;然后选择合适的模型做预测或者进行假设检验。预测类型的建模强调模型的预测能力,而计量经济模型强调模型的因果关系解释(Shmueli and Koppius,2011)。数据分析人员不仅应注重理论价值(例如假设检验显著性),而且要评估模型的实际影响(例如模型的预测能力),同时要评估模型的稳健性、外推能力和参数敏感性。

5.结果报告与应用

报告数据分析结果,模型部署与应用。这个环节需要注意使用合适的可视化工具来讲述数据分析故事。

为了更好地理解数据分析的步骤,读者可以在金融或管理学高水平期刊上阅读一篇使用实证分析或者机器学习模型的论文,结合本小节内容,学习论文中的数据分析步骤。 Gwc09TrC1T7AeZ9C1Rdlub1DherlIykk7ztChtMWZrnWSLIlx2KQut+rNwyW05lz

点击中间区域
呼出菜单
上一章
目录
下一章
×