上一章主要介绍了大数据的相关概念,以及大数据和人类日常生活的关系,并介绍了几种大数据分析工具。本章将重点介绍被誉为大数据处理的瑞士军刀——Spark。
本章主要涉及的知识点有:
· Hadoop及其生态系统:了解Hadoop的由来以及Hadoop生态系统。
· Spark的核心概念:掌握Spark的基本概念和架构。
· Spark基本操作:了解Spark的几种常见操作。
· SQL in Spark概述:了解Spark相关数据统计可以用SQL来操作。
· Spark与机器学习:了解Spark MLlib库中的几种机器学习算法。