购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.1 Hadoop概述

Hadoop概述

1.1.1 Hadoop简介

Hadoop是基于Java语言开发的,可以部署在计算机集群上的开源的、可靠的、可扩展的分布式并行计算框架,具有很好的跨平台特性。Hadoop的核心是HDFS(Hadoop distributed file system,Hadoop分布式文件系统)和MapReduce(分布式并行计算编程模型)。HDFS能可靠地在集群的大量机器中以数据块序列的形式存储大量的文件,文件中除了最后一个数据块,其他数据块都有相同的大小。使用数据块存储数据文件的优势是:文件的大小可以大于网络中任意一个磁盘的容量,文件的所有数据块不需要存储在同一个磁盘上,可以利用计算机集群中的任意一个磁盘进行存储;数据块更适用于数据备份,进而提高数据容错能力和可用性。MapReduce的主要思想是“Map”(映射)和“Reduce”(规约)。

1.1.2 Hadoop的优势

Hadoop作为分布式并行计算框架,能够处理海量数据,经过长时间的发展已经形成了如下几点优势。

(1)高可靠性

Hadoop开发之初就假设计算和存储会失败,它能维护多个工作数据副本,以确保能够针对失败的节点重新进行分布处理。

(2)高扩展性

Hadoop能在计算机集群中数以千计的节点上分配数据并完成计算任务。

(3)高效性

Hadoop能够并行处理数据,能够在节点之间动态地移动数据,并保证各个节点的动态负载平衡,因此处理数据的速度是非常快的。

(4)低成本

Hadoop能够为企业用户提供可缩减成本的数据处理与存储解决方案。Hadoop可部署在廉价的服务器集群上,成本比较低,用户在普通的PC上也能搭建Hadoop运行环境。 e5xzILTowP3IJYxzDEVh/0bq/d6Jk8lC2Xzc6QWFZQapdECocFK33f9V9rcKIoU4

点击中间区域
呼出菜单
上一章
目录
下一章
×