人工智能技术及应用最新章节_程显毅著

2.3 人工智能的血液
——大数据

2.3.1 揭秘大数据

大数据本身是一个抽象的概念，依托于互联网和云计算的发展，大数据在各行各业产生的价值越来越大，例如大数据+政府、大数据+金融、大数据+智慧城市、大数据+传统企业数字化转型、大数据+教育、大数据+交通等。大数据可以理解为一种资源或资产。

IBM把大数据特征归结为5V（见图2-10）。

图2-10 大数据5V特征

而人们所谈论的大数据实际上更多是从应用的层面，比如某公司搜集、整理了大量的用户行为信息，然后通过数据分析手段对这些信息进行分析，从而得出对公司有利用价值的结果。

一般而言，大数据是指数量庞大而复杂，传统的数据处理产品无法在合理的时间内捕获、管理和处理的数据集合。

2.3.2 数据→价值

大数据的核心在于：整理、分析、预测及控制。重点并不是拥有了多少数据，而是拿数据去做什么。如果数据只是堆积在某个地方，那么它将是毫无用处的。它的价值在于“使用性”，而不是数量和存储的地方。任何一种对数据的收集都与它的功能有关。如果不能体现出数据的功能，大数据所有的环节都是低效的，也是没有生命力的。

数据的价值密度很低，人们最初看到的只是冰山一角（见图2-11），需要深层次挖掘。

图2-11 大数据价值

2.3.3 大数据思维

1.整体思维

整体思维是根据全部样本得到结论，即“样本=总体”。因为大数据是建立在掌握所有数据，至少是尽可能多的数据的基础上的，所以整体思维可以正确地考查细节并进行新的分析。如果数据足够多，它会让人们觉得有足够的能力把握未来，从而做出自己的决策。

结论：从采样中得到的结论总是有水分的，而根据全部样本中得到的结论水分就很少，数据越大，真实性也就越大。

2.相关思维

相关思维要求人们只需要知道是什么，而不需要知道为什么。在这个不确定的时代，等找到准确的因果关系，再去办事的时候，这个事情早已经不值得办了。所以，社会需要放弃它对因果关系的渴求，而仅需关注相关关系。

结论：为了得到即时信息，实时预测，寻找到相关性信息，比寻找因果关系信息更重要。

3.容错思维

实践表明，只有5%的数据是结构化且能适用于传统数据库的。如果不接受容错思维，剩下95%的非结构化数据都无法被利用。

对小数据而言，因为收集的信息量比较少，必须确保记下来的数据尽量精确。然而，在大数据时代，放松了容错的标准，人们可以利用这95%数据做更多更新的事情，当然，数据不可能完全错误。

结论：运用容错思维可以利用这95%的非结构化数据，帮助人们进一步接近事实的真相。

2.3.4 Hadoop

1.谷歌三驾马车

谷歌为了业务需求开发了分布式文件存储系统（DFS）、分布式运算系统（MapReduce）和非关系型数据模型大表（BigTable），并相应地发表了三篇论文，历史上称为谷歌的三驾马车，如图2-12所示。

图2-12 谷歌三驾马车

2.Hadoop架构

Hadoop是Apache基金会在谷歌三驾马车基础上的开源实现，丰富了Zookeeper、Spark及Flume等模块，形成了大数据处理底层分布式基础架构生态系统，如图2-13所示。

图2-13 Hadoop架构

图2-14各模块的功能见表2-1。

表2-1 Hadoop各模块功能介绍

（续）

3.HDFS

HDFS（Hadoop Distributed File System）是Hadoop生态的基础和核心，其结构如图2-14所示。

图2-14 HDFS架构

从图2-14可知：

1）HDFS=1个NameNode+1个Secondary NameNode+多个DataNode。

2）NameNode称为名称节点、命名空间、主节点或元数据节点，主要存放元数据（Meta）。

3） Secondary NameNode称为从元数据节点，是命名空间的冷备份。

4）DataNode称为数据节点，是存放数据的物理空间，以块（Block）为基本单位。

5）NameNode和DataNode是主从结构。

6）块是HDFS操作最小单位，一般为128MB。

7）元数据（Meta）=文件目录结构信息（Catalogue）+操作日志信息（Log），是数据的描述信息。

8）NameNode只存放Catalogue，和Secondary NameNode之间只相差3600s的Catalogue。

9）DataNode按机架（Rack）进行组织，图2-14有两个机架。

10）客户端只能同NameNode交互。

11）一个数据块通常要备份3份。第一份放到任务发起用户所在节点，如果请求是集群外发起，就随机选一不忙的节点；第二份放到与第一份不同的机架的节点上，第三份放到与第一份所在机架不同节点上，如图中标记黑色的块。

12）DataNode定时向NameNode发送状态信息（心跳，Heartbeats），维护Block到本地文件系统（HDFS Client）的映射关系。

13）NameNode的主要任务是监控心跳、负载平衡及数据块备份的位置信息。

4.MapReduce

图2-15给出了MapReduce基本架构。

图2-15 MapReduce基本架构

从图2-15看出：

1）MapReduce=若干Map过程+若干Reduce过程。

2）MapReduce是一个分布式计算框架。

3）Map过程就是数据分解。

4）Reduce过程就是计算汇总。

5）数据来自HDFS，计算结果存储到HDFS。

6）整个计算过程需要四个键值对。

7）Map和Reduce之间通过Shuffle进行通信。

2.3 人工智能的血液 ——大数据