购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.4 大数据平台

大数据平台包括硬件平台和软件平台。硬件平台是指数据的产生、采集、存储、计算处理、应用等一系列与大数据产业环节相关的硬件设备,包括传感器、移动终端、传输设备、存储设备、服务器、网络设备和安全设备等。软件平台主要是把多个节点资源(可以是虚拟节点资源)进行整合,作为一个集群对外提供存储和运算分析服务,软件平台也可以狭义理解为Hadoop生态圈。Hadoop生态圈主要包括HDFS、YARN、MapReduce、Hive、HBase、ZooKeeper、Sqoop、Flume、Mahout、Pig等组件。

Hadoop平台按发行方式又大致可以分为三种:Apache Hadoop(原生开源Hadoop)、Hadoop Distribution(Hadoop发行版)、Big Data Suite(大数据开发套件)。

1. Apache Hadoop

Hadoop是由Apache软件基金会设计的一套框架,用于在大型集群上运行应用程序。它实现了Map/Reduce编程范型,其计算任务会被分割成小块(多次)运行在不同的节点上。Apache Hadoop完全开源免费,社区活跃,并且文档、资料翔实,适合初学者使用。但是Apache Hadoop版本管理比较混乱,各种版本层出不穷,组件之间容易发生冲突;集群部署、安装、配置复杂。

2. Hadoop Distribution

Hadoop Distribution在兼容性、安全性、稳定性上比Apache Hadoop有所增强。Hadoop Distribution通常都会经过大量的测试验证,有众多部署实例,并广泛运行到各种生产环境中;提供了部署、安装、配置工具,大大提高了集群部署的效率;运维简单,提供了管理、监控、诊断、配置修改的工具,管理配置方便,定位问题快速、准确,使运维工作简单、有效。Cloudera、Hortonworks、MapR、华为等公司都开发了自己的商业版本,以便提供更为专业的技术支持,并且不同发行版有自己不同的特点。

3. Big Data Suite

Big Data Suite提供了海量数据的离线加工分析、数据挖掘的能力。通过Big Data Suite,我们可以对数据进行数据传输、数据转换等相关操作,从不同的数据存储引入数据,对数据进行转化处理,最后将数据提取到其他数据系统。它不仅能够解决数据挖掘中的各种问题,还能够为用户节省很多精力和资金。

Big Data Suite是一个集数据开发、离线调度、数据管理、数据集成工具为一体的为用户提供一个开箱即用的B/S架构的开发IDE和在线运维平台,并且提供高安全保障的多租户模型,以确保用户的数据安全。 HiBpASmvqe9TA0JXNAksnRaavw+5Xp9LDMGs3ue536NjL953lc12MXVVMSHc/4B5

点击中间区域
呼出菜单
上一章
目录
下一章
×