未来技能最新章节_伯纳德·马尔著

关于数据，你需要知道些什么

我们谈论的不是进阶的数据技能，也不是多深奥的知识。即便不是统计学家或数据科学家，你也能充分挖掘数据的价值。你需要培养的是处理数据的熟练程度和信心。要实现这个目标，你需要了解一些关键点。下面，让我们先来谈谈基础的数据术语。

数据的基本知识

数据的基本知识不是三言两语能说清楚的，但我还是想用最简短的篇幅高度概括一下。你可以从这里出发，进一步学习相关的内容，我会在本章的最后给出一些建议。

数据是什么？从本质上来讲，数据就是信息。过去，数据通常与数字和统计数据挂钩；如今，数据包括照片、视频、文本等各种类型的信息。向智能语音设备发送语音命令，更新社交媒体，上传网络图片等都产生数据。

数据大体分为两类：一类是定量数据，即能够计量的数据（例如冰激凌的单价、售出的数量等）；另一类是定性数据，包括特征、感知、感觉和描述（例如冰激凌的味道、人们对这种味道的感觉等）。总之，定量数据能量化为数字，而定性数据更具有表述性。

数据可以表示某个时间点的情况，例如客户满意度调查。数据还能表示某个时间段内的变化情况，例如月度销售数据统计等。

数据集也是常见的术语。数据集是一组数据的集合，每个数据都称为数据集的变量。例如，冰激凌的销量、口味、顾客满意度等变量可以组成一个数据集。

以上是与数据有关的基本术语。下面，让我们进一步探讨一下数据。

数据的来源有很多

数据的来源不胜枚举。一般来说，数据的来源可以分为两大类：一类是内部数据，即源于企业内部的信息，例如销售和收入报告、员工数据、客户数据、交易记录、业务电子邮件等；另一类是外部数据，即源于企业外部的信息。一些外部数据源是免费的（例如政府数据、谷歌趋势数据等），其他数据则需要付费才能访问（例如源于专业数据提供商的数据）。

数据的质量参差不齐

数据的质量有好有坏，因此应该注重甄别，确保使用的是高质量的数据（本章稍后将探讨质量较低的数据）。概括来讲，高质量的数据具有以下特征：

● 精确性；

● 一致性；

● 时效性；

● 完整性（或尽可能完整）。

数据只有经过分析才有意义

只有在分析数据后，你才能发现有趣或有价值的见解。一般来说，分析数据意味着从中找到模式和趋势，并以此指导未来的行动和决策。如今，亚马逊网络服务、IBM沃森（Watson）等人工智能平台为大小企业分析数据提供了极大帮助，就连非专业人士都能最大化地挖掘数据的价值。在日常工作中，员工可能用到不同的数据分析工具。如果能熟识数据，那么员工就能为特定任务选择最适当的工具。

上文曾经提到，你无须如数据科学家一般专业。如今，增强分析工具日益精进。增强分析工具能够自动提取来自数据源的数据，并运用自然语言处理技术进行分析，生成简单易懂的报告，供非专业人员使用。也就是说，增强分析能够取代数据分析师，找到数据中的模式并提供有价值的见解。这样一来，更多企业就能对数据进行分析，成为数据驱动型企业，数据民主化的进程也将进一步加速。

然而，这并不意味着数据科学家的位置会被取代。相反，机器能够承担简单的重复性任务，数据科学家则可以专注于更具有战略性和创造性的任务，例如提出更好的商业问题等。

数据应该置于决策的核心地位

数据的功能之所以强大，原因之一就是它可以帮助你解决最大的商业挑战，回答最紧迫的商业问题。因此，想要最大化地挖掘数据的价值，就必须先明确最紧要的问题，并为此找到最合适的数据。这些数据可能来源于企业内部，也可能需要借助外界的帮助才能获得。不论数据源自何处，它们都能助你更明智地做出当前的或长远的决策。

数据本身是毫无意义的。如果你不用数据来回答问题、解决问题、指导决策并付诸实践，那么即便掌握了极尽全面的数据集，又有什么用呢？

数据让人紧张

很多人喜欢数字，但也有相当一部分人不喜欢数字（不喜欢数字的人甚至比喜欢数字的人更多）。因此，“数据”一词引发了很多人的负面情绪，有人不信任数据，也有人因为恐惧而避之不及。甚至有一个专有名词来形容这种现象：数字恐惧症，即对数字的非理性恐惧。

不想深入学习数据的人往往有各种理由：有的在学生时期就讨厌数学（这是一个非常普遍的现象。有调查研究表明，60%的大学生有一定程度的数学焦虑症）；有的担心工作变动或落后于他人；有的不愿意冒着被人视为蠢人的风险提出问题，等等。总之，恐惧使人们停下了探索新事物的脚步，它也是通往数据精通之路的绊脚石。增加与数据的接触能够帮助人们克服与数据为伍的恐惧，因此要尽快适应所在企业的数据和分析系统（本章稍后将介绍精进数据技能的方法）。

从数据中产生见解就是一项重要技能

当你在数据中产生见解时，你可能需要将你的洞见传达给其他同事（还可能需要向企业外部的利益相关者传达）。你可以利用这些见解来支撑新项目，争取增加营销经费，推出新产品和新服务等。你可以利用数据来论证你的想法，并赢得他人的支持。但是，想做到这一点，你必须以有趣味性的、易理解的方式向他人呈现这些数据（更何况还有很多不喜欢数字的人）。你的终极目标不是把数据印在他人的脑海里，而是确保数据能够被人理解。如果说数据后面藏着一个故事，那么你的任务就是找到讲述这个故事的最佳方式。

将数据可视化是讲故事的好方法，正所谓“一图胜千言”。数据可视化工具有很多种，甚至你所在企业的分析工具都可能附带可视化功能，从生成简单的图形到时兴的信息图形等。

在进行数据可视化时，你应该遵循以下原则：

● 使用基准，更明确地体现两个数字间的差异，例如百分比变化等。

● 使用颜色，例如用红色表示百分比下降，绿色表示百分比上升。

● 使用图片或图标来体现变化，例如勾选标记、加号减号等，甚至太阳、乌云、暴风雨等天气符号。

● 表达方式也很重要。不同的人消化吸收信息的方式也不同。对一些人而言，通过文字来理解数字背后的含义是最容易的，图片反而会增加理解难度。因此，应该使用简单明了的标题和简明扼要的描述来突出图像背后的含义，或对数字加以文字解释。

必须懂得质疑数据

我认为，批判性思维也是一项重要的未来技能，因此本书有一整章内容专门探讨这个话题。不要对数据深信不疑，而是要以质疑的眼光审视数据，因为再全面的数据集都不会尽善尽美，总会存在一定程度的不确定性。此外，数据往往存在偏向或偏见。因此，面对数据时，你应该弄清楚下列问题的答案：

● 这些数据来自哪里？它们的来源是否可靠？

● 这些数据是否适用于手头的工作任务？要知道，不同的任务需要使用不同类型的数据。

● 这些数据是否具有时效性？

● 这些数据是否具有代表性？数据是否存在潜在的偏向（处理数据的人是否存在偏向）？

● 这些数据欠缺什么？

● 这些数据是怎样分析的？

质疑数据可以避免损失惨重的错误。安然（Enron）事件就是因为不良数据而起。只需要一次简单的审计，就能发现这些财务数据的虚假之处，避免股东遭受的数十亿美元损失。这只是一个极端的例子，但是它向我们展示了未曾质疑数据而带来的惨重后果。

数据偏见应该引起特别关注。数据偏见意味着数据集中的某些元素（例如性别、种族等）权重过大或过轻。人工智能的一大发展方向就是消除出于人为原因而产生的偏见，但事实证明，人工智能系统可能与人类一样存在偏见，这在很大的程度上要归因于这些系统所使用的数据。一些人认为，几乎所有大数据集都存在偏见。偏见会导致歧视性的负面结果。例如，亚马逊的应聘者评分系统给女性应聘者的打分较低，因此亚马逊不得不关闭该系统。消除数据偏见一事过于深奥，远远超出本书的研究范围，但你应该知道数据集存在着潜在偏见，并明确这种偏见将对结果产生怎样的影响。

自然，人们处理数据的方式也存在偏见。研究表明，尽管所处理的信息相同，不同人也会做出完全不同的决定。这是因为人们的潜在意识和决策风格将影响基于数据做出的决策。因此，以质疑的态度对待决策和数据是非常重要的（第五章将详细探讨批判性思维，第六章将就决策展开讨论）。

数据隐私和数据道德将变得越来越重要

企业都将出台相关政策，规范数据的使用方法，确保数据安全。但除了遵守必要的规章制度以外，具备数据素养还意味着要了解与数据有关的道德陷阱。很多数据包含着个人信息，而个人信息的价值很高，需要妥善保护并谨慎使用。随着监管机构加大对数据搜集与使用的管理力度，这一点将变得更加重要。

我认为，良好的数据治理意味着以下几点：第一，要有针对性地搜集与企业运营息息相关的数据，而不要为了搜集数据而搜集数据；第二，让人们知道你从他们那里搜集了什么数据，为什么搜集这些数据，以及如何使用这些数据；第三，允许提供信息的人随时退出。

当然，你也要抵御针对数据的网络攻击（第四章将详细探讨网络威胁意识）。