内容简介:本书结合Python在数据分析领域的特点,介绍如何在数据平台上集成使用Python。本书内容分为3大部分。第1部分(第1~3章)为搭建开发环境和导入测试数据;第2部分(第4~12章)为Python对HDFS、Hive、Pig、HBase、Spark的操作,主要是对常用API的说明;第3部分(第13~16章)是在前面章节的基础上,介绍如行数据的分析、挖掘、可视化等内容。 本书不仅阐述了Python在大数据平台上的应用,而且关于大数据平台管理和操作的介绍说明贯穿全书,因此对于希望学据知识的读者,本书同样适合。