前言

近年来，随着5G技术、云计算、人工智能等新一代技术的发展，大数据与行业的融合全面展开，融合生态加速构建，新技术、新业态、新模式不断涌现。党的二十大以来，国家要求加快实施创新驱动发展战略，加快实现高水平科技自立自强，以国家战略需求为导向，增强企业自主创新能力。在发展的过程中，各企业积累了大量的业务数据，企业将不断增长的业务数据进行存储并从中挖掘具有潜在商业价值的信息，为企业发展提供有力支撑，从而创造更大的价值。目前，离线数据分析框架主要有MapReduce和Spark，然而使用它们，需要开发人员具备Java等开发基础，这对于熟悉SQL的传统数据分析人员来说并不友好，且MapReduce和Spark不具备数据存储的功能，因此市场对支持SQL且能实现数据存储的分布式处理框架的需求日益增长。在这样的背景下，既支持SQL又能存储数据的数据仓库Hive逐渐成为主流的离线数据分析框架。目前开设大数据技术专业的高校越来越多，然而有关Hive开发的技术资料并不多，本书带领大家一起学习Hive存储和初步的处理方法。

本书特色

· 将理论与实践结合。本书以知识点和广电大数据案例为主线，介绍在大数据技术中Hive的主要用法。

· 以任务为导向。本书从知识点到实操，再到具体的项目，让读者明白如何利用所学知识来解决问题，通过实训和课后习题帮助读者巩固所学知识，从而使读者真正理解并应用所学知识。

· 注重启发式教学。本书全面贯彻党的二十大精神，以社会主义核心价值观为引领，加强基础研究。本书内容围绕利用Hive处理大数据的流程展开，不堆砌知识点，着重于思路的启发与解决方案的实施。通过对从任务需求到实现这一完整工作流程的体验，读者将真正理解并掌握Hive大数据存储和处理技术。

本书适用对象

· 高校大数据相关专业课程的教师和学生。

· 企业数据分析人员。

· 进行大数据存储与处理的科研人员。

代码下载及问题反馈

为了帮助读者更好地使用本书，本书配有原始数据文件、程序代码，以及PPT课件、教学大纲、教学进度表和教案等教学资源，读者可以从泰迪云教材网站免费下载，也可登录人邮教育社区（www.ryjiaoyu.com）下载。

我们已经尽最大努力编写本书内容，但是由于水平有限，书中难免存在一些不妥之处。如果你有更多的宝贵意见，欢迎在泰迪学社微信公众号（TipDataMining）回复“图书反馈”进行反馈。可以在泰迪云教材网站查阅更多本系列图书的信息。

编者
2024年1月

泰迪云教材