我们谈论的不是进阶的数据技能,也不是多深奥的知识。即便不是统计学家或数据科学家,你也能充分挖掘数据的价值。你需要培养的是处理数据的熟练程度和信心。要实现这个目标,你需要了解一些关键点。下面,让我们先来谈谈基础的数据术语。
数据的基本知识不是三言两语能说清楚的,但我还是想用最简短的篇幅高度概括一下。你可以从这里出发,进一步学习相关的内容,我会在本章的最后给出一些建议。
数据是什么?从本质上来讲,数据就是信息。过去,数据通常与数字和统计数据挂钩;如今,数据包括照片、视频、文本等各种类型的信息。向智能语音设备发送语音命令,更新社交媒体,上传网络图片等都产生数据。
数据大体分为两类:一类是定量数据,即能够计量的数据(例如冰激凌的单价、售出的数量等);另一类是定性数据,包括特征、感知、感觉和描述(例如冰激凌的味道、人们对这种味道的感觉等)。总之,定量数据能量化为数字,而定性数据更具有表述性。
数据可以表示某个时间点的情况,例如客户满意度调查。数据还能表示某个时间段内的变化情况,例如月度销售数据统计等。
数据集也是常见的术语。数据集是一组数据的集合,每个数据都称为数据集的变量。例如,冰激凌的销量、口味、顾客满意度等变量可以组成一个数据集。
以上是与数据有关的基本术语。下面,让我们进一步探讨一下数据。
数据的来源不胜枚举。一般来说,数据的来源可以分为两大类:一类是内部数据,即源于企业内部的信息,例如销售和收入报告、员工数据、客户数据、交易记录、业务电子邮件等;另一类是外部数据,即源于企业外部的信息。一些外部数据源是免费的(例如政府数据、谷歌趋势数据等),其他数据则需要付费才能访问(例如源于专业数据提供商的数据)。
数据的质量有好有坏,因此应该注重甄别,确保使用的是高质量的数据(本章稍后将探讨质量较低的数据)。概括来讲,高质量的数据具有以下特征:
● 精确性;
● 一致性;
● 时效性;
● 完整性(或尽可能完整)。
只有在分析数据后,你才能发现有趣或有价值的见解。一般来说,分析数据意味着从中找到模式和趋势,并以此指导未来的行动和决策。如今,亚马逊网络服务、IBM沃森(Watson)等人工智能平台为大小企业分析数据提供了极大帮助,就连非专业人士都能最大化地挖掘数据的价值。在日常工作中,员工可能用到不同的数据分析工具。如果能熟识数据,那么员工就能为特定任务选择最适当的工具。
上文曾经提到,你无须如数据科学家一般专业。如今,增强分析工具日益精进。增强分析工具能够自动提取来自数据源的数据,并运用自然语言处理技术进行分析,生成简单易懂的报告,供非专业人员使用。也就是说,增强分析能够取代数据分析师,找到数据中的模式并提供有价值的见解。这样一来,更多企业就能对数据进行分析,成为数据驱动型企业,数据民主化的进程也将进一步加速。
然而,这并不意味着数据科学家的位置会被取代。相反,机器能够承担简单的重复性任务,数据科学家则可以专注于更具有战略性和创造性的任务,例如提出更好的商业问题等。
数据的功能之所以强大,原因之一就是它可以帮助你解决最大的商业挑战,回答最紧迫的商业问题。因此,想要最大化地挖掘数据的价值,就必须先明确最紧要的问题,并为此找到最合适的数据。这些数据可能来源于企业内部,也可能需要借助外界的帮助才能获得。不论数据源自何处,它们都能助你更明智地做出当前的或长远的决策。
数据本身是毫无意义的。如果你不用数据来回答问题、解决问题、指导决策并付诸实践,那么即便掌握了极尽全面的数据集,又有什么用呢?
很多人喜欢数字,但也有相当一部分人不喜欢数字(不喜欢数字的人甚至比喜欢数字的人更多)。因此,“数据”一词引发了很多人的负面情绪,有人不信任数据,也有人因为恐惧而避之不及。甚至有一个专有名词来形容这种现象:数字恐惧症,即对数字的非理性恐惧。
不想深入学习数据的人往往有各种理由:有的在学生时期就讨厌数学(这是一个非常普遍的现象。有调查研究表明,60%的大学生有一定程度的数学焦虑症);有的担心工作变动或落后于他人;有的不愿意冒着被人视为蠢人的风险提出问题,等等。总之,恐惧使人们停下了探索新事物的脚步,它也是通往数据精通之路的绊脚石。增加与数据的接触能够帮助人们克服与数据为伍的恐惧,因此要尽快适应所在企业的数据和分析系统(本章稍后将介绍精进数据技能的方法)。
当你在数据中产生见解时,你可能需要将你的洞见传达给其他同事(还可能需要向企业外部的利益相关者传达)。你可以利用这些见解来支撑新项目,争取增加营销经费,推出新产品和新服务等。你可以利用数据来论证你的想法,并赢得他人的支持。但是,想做到这一点,你必须以有趣味性的、易理解的方式向他人呈现这些数据(更何况还有很多不喜欢数字的人)。你的终极目标不是把数据印在他人的脑海里,而是确保数据能够被人理解。如果说数据后面藏着一个故事,那么你的任务就是找到讲述这个故事的最佳方式。
将数据可视化是讲故事的好方法,正所谓“一图胜千言”。数据可视化工具有很多种,甚至你所在企业的分析工具都可能附带可视化功能,从生成简单的图形到时兴的信息图形等。
在进行数据可视化时,你应该遵循以下原则:
● 使用基准,更明确地体现两个数字间的差异,例如百分比变化等。
● 使用颜色,例如用红色表示百分比下降,绿色表示百分比上升。
● 使用图片或图标来体现变化,例如勾选标记、加号减号等,甚至太阳、乌云、暴风雨等天气符号。
● 表达方式也很重要。不同的人消化吸收信息的方式也不同。对一些人而言,通过文字来理解数字背后的含义是最容易的,图片反而会增加理解难度。因此,应该使用简单明了的标题和简明扼要的描述来突出图像背后的含义,或对数字加以文字解释。
我认为,批判性思维也是一项重要的未来技能,因此本书有一整章内容专门探讨这个话题。不要对数据深信不疑,而是要以质疑的眼光审视数据,因为再全面的数据集都不会尽善尽美,总会存在一定程度的不确定性。此外,数据往往存在偏向或偏见。因此,面对数据时,你应该弄清楚下列问题的答案:
● 这些数据来自哪里?它们的来源是否可靠?
● 这些数据是否适用于手头的工作任务?要知道,不同的任务需要使用不同类型的数据。
● 这些数据是否具有时效性?
● 这些数据是否具有代表性?数据是否存在潜在的偏向(处理数据的人是否存在偏向)?
● 这些数据欠缺什么?
● 这些数据是怎样分析的?
质疑数据可以避免损失惨重的错误。安然(Enron)事件 就是因为不良数据而起。只需要一次简单的审计,就能发现这些财务数据的虚假之处,避免股东遭受的数十亿美元损失。这只是一个极端的例子,但是它向我们展示了未曾质疑数据而带来的惨重后果。
数据偏见应该引起特别关注。数据偏见意味着数据集中的某些元素(例如性别、种族等)权重过大或过轻。人工智能的一大发展方向就是消除出于人为原因而产生的偏见,但事实证明,人工智能系统可能与人类一样存在偏见,这在很大的程度上要归因于这些系统所使用的数据。一些人认为,几乎所有大数据集都存在偏见。偏见会导致歧视性的负面结果。例如,亚马逊的应聘者评分系统给女性应聘者的打分较低,因此亚马逊不得不关闭该系统。消除数据偏见一事过于深奥,远远超出本书的研究范围,但你应该知道数据集存在着潜在偏见,并明确这种偏见将对结果产生怎样的影响。
自然,人们处理数据的方式也存在偏见。研究表明,尽管所处理的信息相同,不同人也会做出完全不同的决定。这是因为人们的潜在意识和决策风格将影响基于数据做出的决策。因此,以质疑的态度对待决策和数据是非常重要的(第五章将详细探讨批判性思维,第六章将就决策展开讨论)。
很多人将相关性和因果性混为一谈。然而,两个变量之间存在相互关联,并不意味着其中一个变量决定着另一个变量的变化。相关性意味着两个或多个因素往往会同时出现,而因果性则意味着一个因素直接导致另一个因素的出现。相关性和因果性完全不同,但数据的相关性和因果性经常被混淆在一起。举一个简单的例子说明一下二者的区别:美国缅因州的离婚率与人造黄油的销售量之间存在相关性(这是客观事实,并非臆想),但缅因州居民并不能通过不吃人造黄油来挽救婚姻!
混淆因果性与相关性可能导致决策失误,因此一定要小心谨慎地对待数据模式,不要想当然地认为两个变量之间存在因果性。
企业都将出台相关政策,规范数据的使用方法,确保数据安全。但除了遵守必要的规章制度以外,具备数据素养还意味着要了解与数据有关的道德陷阱。很多数据包含着个人信息,而个人信息的价值很高,需要妥善保护并谨慎使用。随着监管机构加大对数据搜集与使用的管理力度,这一点将变得更加重要。
我认为,良好的数据治理意味着以下几点:第一,要有针对性地搜集与企业运营息息相关的数据,而不要为了搜集数据而搜集数据;第二,让人们知道你从他们那里搜集了什么数据,为什么搜集这些数据,以及如何使用这些数据;第三,允许提供信息的人随时退出。
当然,你也要抵御针对数据的网络攻击(第四章将详细探讨网络威胁意识)。