这是一本大数据工程师和Hadoop工程师的必备书。
近年来,由于移动互联网的高速发展和智能移动设备的普及,数据累积的速率已超过以往任何时候,这个世界已经进入了大数据时代。如何高效地存储、处理这些海量、多种类、高速流动的数据已成为亟待解决的问题。
Hadoop最早来源于全球云计算技术的领导者谷歌在2003年至2006年间发表的三篇论文。得益于学术界和工业界的大力支持,Hadoop目前已成为最为成熟的大数据处理技术。Hadoop利用了“分而治之”的朴素思想为大数据处理提供了一整套新的解决方案,如分布式文件系统HDFS、分布式计算框架MapReduce、NoSQL数据库HBase、数据仓库工具Hive等。Hadoop打破了传统数据处理技术的瓶颈,如样本容量、样本种类,让大数据真正成为了生产力。Hadoop目前已广泛应用于各行各业,行业巨头也纷纷推出自己的基于Hadoop的解决方案。今天,Hadoop已经在电信业、能源业等有了一定的用户基础,传统数据分析架构也逐渐在向Hadoop进行过渡。
大数据和大数据处理技术在相互促进,大数据刺激了大数据处理技术的发展,而大数据处理技术又加速了大数据应用落地。大数据催生了一批新的产业,并产生了对Hadoop工程师的庞大迫切需求,而目前有关Hadoop的书籍和在线材料仍然太少,这更进一步加大了人才缺口。
本书章节安排合理,结构清晰,内容由浅入深,循序渐进。作者是我的学生,作为一个奋战在大数据第一线的工程师,经验非常丰富,能够更加理解并贴近开发者和读者的需求。全书涵盖了HDFS、MapReduce、Hive、Sqoop等内容,尤其宝贵的是包含了大量动手实例和一个完备的Hadoop项目实例。我相信本书对于希望学习Hadoop的读者来说,是一个不错的选择。
北京软件行业协会执行会长
北京航空航天大学软件学院教授、院长
2014年12月,北京