随着企业的数字化转型,大数据的应用场景逐渐增多,数据来源也日益丰富。为了能够让数据发挥更大的价值,需要通过ETL完成不同来源数据的抽取、清洗、合并、加载等操作。ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL必将成为高校数据分析相关专业的重要课程之一。
本书以实现ETL流程中的各类操作步骤为导向,通过任务的方式,深入浅出地介绍了通过Kettle实现ETL所需的步骤与流程。本书所有章节均采用总分结构,先总起陈述本章涉及的内容,而后将相关知识点一一道出。本书的设计思路以应用为导向,让读者明确如何利用所学知识来解决问题。本书同时配套课后练习,帮助读者巩固所学知识,使读者真正理解并能够应用所学知识。
本书的内容由浅入深,第1章介绍了ETL的基本概念、常用ETL工具、Kettle运行环境配置,以及Kettle基本操作;第2章介绍了源数据获取相关的组件,包括创建数据库连接、表输入、CSV文件输入、Excel输入等;第3章介绍了记录处理相关组件,包括排序记录、去除重复记录、替换NULL值等;第4章介绍了字段处理相关组件,包括字段选择、增加常量、将字段值设置为常量等;第5章介绍了高级转换相关组件,包括记录集连接、多路数据合并连接、单变量统计等;第6章介绍了迁移和装载相关组件,包括表输出、插入/更新、Excel输出等;第7章介绍了任务及其相关组件,包括开始、转换、添加文件到结果文件中等;第8章介绍了无人售货机项目实战,包括了解无人售货机项目背景与目标、分组聚合客户订单、计算各商品销售金额、统计各售货机日销售金额、整理各售货机情况等。每章都配套有对应的习题,包括选择题和操作题,通过练习和操作实践,帮助读者巩固所学的内容。
(1)开设有ETL相关课程的高校的教师和学生。
(2)ETL应用开发人员。
(3)科研人员。
为了帮助读者更好地使用本书,泰迪云课堂提供了配套的教学视频。如需获取书中的原始数据文件,读者可以从“泰迪杯”数据挖掘挑战赛网站免费下载,也可登录人民邮电出版社教育社区(www.ryjiaoyu.com)下载。为方便教师授课,本书还提供了PPT课件、教学大纲、教学进度表和教案等教学资源,教师可扫码下载申请表,填写后发送至指定邮箱申请所需资料。同时欢迎读者加入QQ交流群“人邮大数据教师服务群”(669819871)进行交流探讨。
由于编者水平有限,加之编写时间仓促,书中难免出现一些疏漏和不足之处。如果读者有更多的宝贵意见,欢迎在泰迪学社微信公众号(TipDataMining)回复“图书反馈”进行反馈。更多本系列图书的信息可以在“泰迪杯”数据挖掘挑战赛网站查阅。
编者
2020年6月
泰迪云课堂
“泰迪杯”数据挖掘挑战赛网站
申请表下载