随着信息技术的发展,以及互联网、移动互联网、可穿戴式互联网时代的来临,数据爆炸式地产生。据统计,近几年人类产生的数据,比人类自有文字记载以来产生的所有数据的总和还要多,而且数据还在以惊人的速度增长着。
过去,各个企业都积累了大量丰富的数据,于是购买服务器来存储这些数据,企业面对不断增长的数据,开始思考:除了需要不断购买服务器,花巨大的硬件成本来存储这些数据,我们能从这些持续不断积累下来的数据中得到什么呢?怎样去挖掘和利用这些数据呢?就在这样一个境遇下,一个全新的技术进入了大众的视野,它提出了海量数据可以分布式存储在成本较低的商用服务器上,并且这些海量数据可以分布式地得到计算处理,这个技术称为大数据技术。本书将要介绍的大数据相关技术,可以帮助企业解决不断增长的海量数据的存储问题和计算处理问题;帮助企业从数据中获取经验,并得到巨大的潜在商业价值。
通过本书的学习,读者将对大数据技术有一个深刻的认识,并且掌握大数据技术中最核心的数据分布式存储系统HDFS和数据分布式并行计算框架MapReduce;再通过对大数据项目案例的开发学习,对大数据技术应用进行训练。
本书共11章,第1~2章主要介绍了大数据的背景、大数据的学习基础、大数据的行业案例、大数据技术生态圈以及Hadoop的搭建,阅读这部分内容,读者将对大数据及其相关技术有一个全方位的宏观认识;第3~6章主要介绍了大数据存储分布式文件系统HDFS,通过对这部分内容的学习,读者将学习分布式存储的核心原理,分布式文件系统HDFS的操作接口、运行机制及I/O操作;第7~10章主要介绍了大数据分布式计算处理框架 MapReduce,通过对这部分内容的学习,读者将理解MapReduce编程模型及应用、MapReduce在YARN资源管理平台上的运行机制;第11章通过一个企业级的项目,带读者体验大数据技术的应用场景。全书按照大数据的技术流程,由浅入深,逐步引导读者掌握大数据技术的开发。
本书适用于对大数据技术感兴趣的读者。全书的编写力求内容科学准确、系统完整、通俗易懂,让初学者能快速掌握大数据技术,同时对专家级读者也具有一定的参考价值。
感谢曾经和我一起奋战在大数据一线的马延辉、唐刚、游大海、赵明栋、郑思成。最后,特别感谢我的父亲、母亲、岳父、岳母及我的妻子,你们的全力支持才使我能够顺利完成本书。
由于编者水平有限,书中难免出现疏漏和不足,敬请读者批评指正。
编者
2018年8月