前言

随着信息技术的发展，以及互联网、移动互联网、可穿戴式互联网时代的来临，数据爆炸式地产生。据统计，近几年人类产生的数据，比人类自有文字记载以来产生的所有数据的总和还要多，而且数据还在以惊人的速度增长着。

过去，各个企业都积累了大量丰富的数据，于是购买服务器来存储这些数据，企业面对不断增长的数据，开始思考：除了需要不断购买服务器，花巨大的硬件成本来存储这些数据，我们能从这些持续不断积累下来的数据中得到什么呢？怎样去挖掘和利用这些数据呢？就在这样一个境遇下，一个全新的技术进入了大众的视野，它提出了海量数据可以分布式存储在成本较低的商用服务器上，并且这些海量数据可以分布式地得到计算处理，这个技术称为大数据技术。本书将要介绍的大数据相关技术，可以帮助企业解决不断增长的海量数据的存储问题和计算处理问题；帮助企业从数据中获取经验，并得到巨大的潜在商业价值。

通过本书的学习，读者将对大数据技术有一个深刻的认识，并且掌握大数据技术中最核心的数据分布式存储系统HDFS和数据分布式并行计算框架MapReduce；再通过对大数据项目案例的开发学习，对大数据技术应用进行训练。

本书共11章，第1～2章主要介绍了大数据的背景、大数据的学习基础、大数据的行业案例、大数据技术生态圈以及Hadoop的搭建，阅读这部分内容，读者将对大数据及其相关技术有一个全方位的宏观认识；第3～6章主要介绍了大数据存储分布式文件系统HDFS，通过对这部分内容的学习，读者将学习分布式存储的核心原理，分布式文件系统HDFS的操作接口、运行机制及I/O操作；第7～10章主要介绍了大数据分布式计算处理框架 MapReduce，通过对这部分内容的学习，读者将理解MapReduce编程模型及应用、MapReduce在YARN资源管理平台上的运行机制；第11章通过一个企业级的项目，带读者体验大数据技术的应用场景。全书按照大数据的技术流程，由浅入深，逐步引导读者掌握大数据技术的开发。

本书适用于对大数据技术感兴趣的读者。全书的编写力求内容科学准确、系统完整、通俗易懂，让初学者能快速掌握大数据技术，同时对专家级读者也具有一定的参考价值。

感谢曾经和我一起奋战在大数据一线的马延辉、唐刚、游大海、赵明栋、郑思成。最后，特别感谢我的父亲、母亲、岳父、岳母及我的妻子，你们的全力支持才使我能够顺利完成本书。

由于编者水平有限，书中难免出现疏漏和不足，敬请读者批评指正。

编者
2018年8月