购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.1 用数据讲述更好的故事

“关于抛弃废话的重要性,人们说得还不够。”

——美国公共电台主持人伊拉·格拉斯(Ira Glass)谈讲故事

我们或许都见过那些令人生畏的演示文档,屏幕上布满了大量的项目符号。演讲者通常会为杂乱的幻灯片道歉,然后继续演示,把幻灯片上的文字一字不落地读出来。这样的演示毫无吸引力,你甚至开始怀疑昨晚是否忘记关掉烤箱了。我们都喜欢故事,以电影、图书、电视节目或播客等形式精心构建的故事,像温暖的毯子一样围绕着你,总能吸引你的注意力。充满项目符号的幻灯片肯定不是这样的好故事。随着互联网和物联网的发展,出现了海量的数据,我们很想在演示中展示这些发现,潇洒地挥手一指,然后说“就是这样”。然而,作为数据专业人员,我们不能只给听众灌输数据发现。我们通常建议用数据来讲述故事,确保它是大家想听的引人入胜的故事。因此,不要拒绝讲故事给你带来的快乐。

要讲一个引人入胜的故事,首先要确定故事的内容。我们对数据有什么要求?用户想从数据中得到什么见解?专门提供服务和设备的公司可能会问:“哪些设备最需要维修?哪些设备又最不需要?设备类型与零件更换之间是否存在某种关联?”公司中的财务人员可能会问:“怎样才能更准确地预测库存现金?”而销售人员的问题可能是:“我会流失哪种类型的客户?”

确定了故事内容之后,就需要找准你的听众。给听众分组的方法有多种,一般来说你的听众包括管理人员、业务人员和技术人员。虽然管理人员可能管理或指导许多业务,但通常对这些业务的日常运作知之甚少。细节与他们无关或者让他们困惑,管理人员只想粗略地了解故事。业务人员是业务过程的日常管理员,例如超级用户和业务分析师。他们对业务过程了如指掌,能够理解原始的表格数据。技术人员在你的听众中占比最少,他们通常是数据分析和数据科学团队中的同事。技术人员不需要太多的业务和过程背景,而想得到更多的技术细节,比如回归中的均方根误差或神经网络架构。

设定好故事和听众之后,就来到了旅程中最困难和最精细的部分:寻找数据。如果没有数据来支持你的故事,这个旅程将很快结束。假如你想讲述太阳黑子与北半球帽子和手套销售之间的关系的故事。令人意外的是太阳黑子数据很容易获得,但是,详细的销售信息只有帽子的数据,而没有手套的数据,你没办法找到手套的销售数据。这里就需要小心了。你该怎么办?为了适应现有数据而修改故事,还是舍弃数据而另起炉灶设计新的故事呢?这个过程反过来也可以,但这是一种倒退。通常的规则是,不要为了匹配数据而改变你的假设。

在完全信任数据之前,你需要提出很多问题,对数据进行审查。

数据的来源可靠吗?数据是从网站表格中抓取的吗?网站所用数据的来源是什么,又是怎样采集的?像Data.gov、ProPublica、美国人口普查局(US Census Bureau)和GapMinder这些网站的数据源是比较可信的,其他的数据源就需要谨慎使用了。

你的数据是否太多?数据中是否包含容易识别、没有价值的特征呢?要寻找那些明显相关的特征。前面提到的太阳黑子数据,也许具有UTC时间戳特征,以及表示日期和时间的其他两个特征。这些特征中,日期与时间、时间戳只需要保留一个就可以了。稍后将讨论特征相关性技术,使用该技术能够快速查看两个特征的相关性,这样能帮助你确定什么时候两个特征过于紧密相关以至于两者都没有用处。

你的数据是否完整?要使用一些基本的数据工具,以确保数据不缺失太多信息。稍后我们将更详细地讨论。

故事已经就绪,也确定了听众,审查了数据,那么接下来该做什么呢?现在可以为故事的艺术性和趣味性做准备了——确定使用哪些工具来支持或拒绝原始假设。假如你正在使用“数据科学”作为工具,这有点不恰当。你的“武器库”中有高级报告、机器学习和深度学习。通常,只需要将数据组织到一个方便使用的面板里就可以了,根本不需要做更多的事情。在我们的职业生涯中这是常事,它发生的次数比其他任何情况都多。开始的时候,我们设想一个递归神经网络的案例,该网络具有门控递归单元或者长短期记忆模块。在收集数据时我们还很兴奋,然后,我们意识到支持向量机或简单回归也可以完成这个任务。后来,我们失望地发现,一个供用户探索数据的面板就足以说明问题了。并非所有事情都需要使用深度学习或者机器学习。尽管那些内容通常很有趣,但是将你的故事硬塞进这些范式中,通常并不能更好地讲述故事。

最后,花点时间来学习一些讲故事的艺术。甚至枯燥的数据科学故事,也值得人们喜爱和关注。伊拉·格拉斯是一位讲故事的高手,他有四个短片专门介绍讲故事的艺术(https://www.youtube.com/watch?v=f6ezU57J8YI)。观看这些短片,并在你的故事中融入一些他睿智的建议。 TH4iWvRNGAcv4NFatc7LndVY29pek2OlaFYaYIxgxIykvvHkEbTczaVTE+O/FM8H

点击中间区域
呼出菜单
上一章
目录
下一章
×