为了建立对数据的企业层面的理解,我们需要了解数据是什么,我们可以用它做什么,以及在哪里应用它。以上三点是建立对数据的全面理解的三个重要支柱。更重要的是,它们为如何利用数据创造价值奠定了基础。然而,我们面临的挑战是,数据世界增长太快,因此它充斥着太多复杂的术语,这使我们对这三个支柱进行理解变得非常困难。
2015年年初,我参加了一个关于大数据的会议。不久之后,我参加了一个人工智能峰会,然后年底我又参加了一个关于数据科学的晚会,巧合的是每场会议都有四个人发言。
不那么巧合但或许更有趣的是,每个演讲者在每种情况下的演讲几乎都没什么太大的变化。大多数情况下,每个人都做了完全一样的陈述,逐字逐句地展示了完全相同的幻灯片。这是否意味着大数据、数据科学和机器学习都是一回事?
通常,当你听到人们谈论数据时,你也会听到“大数据”“数据科学”“机器学习”“物联网”“人工智能”等术语。这些术语经常可以互换使用,尽管它们各自在发挥数据革命的真正潜力方面发挥着不同但都很重要的作用。
我当时领导着一个大约15人的小型工作室,我决定问问他们对这些术语的定义。在大多数情况下,他们笼统地表示这是一回事,这说明大多数关于数据的新术语没有被准确地理解。大多数人,包括那些自称专家的高管和个人,都无法告诉你这些术语之间究竟有什么区别。这使得高管们难以参与对话,导致企业聘用了不合适的员工,无法构建强有力的数据战略,也无法执行他们确定的战略。如果不知道这些关键术语之间的差异,你又怎么能理解如何最大限度地利用数据呢?
因此,我们必须首先为相关重要和流行的术语提供简明的定义。为了确保你能加入谈话,领导、经理甚至招聘代理,将需要花精力去理解和解释以下这些关键的术语:
●数据;
●大数据;
●云计算;
●分布式计算;
●分析;
●数据科学;
●人工智能;
●机器学习;
●数据工程。
对于这些术语的定义,我们必须回顾一个案例:IT界选择用“挖掘”这个词来描述企业应该如何处理数据,我发现这是一个很好的类比。21世纪初,我在一家大型钻石开采企业牵头执行了五年的数据计划,我研究了开采矿产材料的高级价值链,其中包括四个重点领域:
●原材料;
●存储和处理;
●处理程序;
●在各种加工过程中使用的特殊技术。
为了说明数据中复杂的术语和定义,我大量借用了上述这些概念,并将它们直接应用于数据世界中的所有关键概念。处理数据就像开采钻石一样,必须将原始元素收获并存储在一个准备加工的位置,然后根据目的使用特定的技术,进行特定的加工。
本章中,我将深入探讨这四个类别中的每一个,以揭示复杂语言在企业数据计划(成功或失败)中所扮演的重要角色。这将使来自各行各业(从营销到招聘再到管理)的高管和非技术人员具备参与对话所需的知识。