以计算机和网络为代表的信息技术,已经深深地扎根到人类的各种活动中。进入21世纪以来,随着移动互联网的飞速发展,更是以指数增长的方式,产生了海量的信息数据。如何从海量数据中获得并抽取出有用的数据,供大数据分析和人工智能应用,成为当今的热门课题。ETL(Extract-Transform-Load)是将数据从数据来源端经过抽取、转换、装载至目标端的过程。本章将介绍ETL的基本概念和相关技术,并以流行的ETL工具Kettle为例,介绍Kettle及支撑其运行的Java JDK工具包、MySQL数据库等软件的安装,以及Kettle运行环境的配置,并通过介绍Kettle的界面、运行和结果查看等基础操作,开启ETL之旅。
(1)了解ETL的基本概念和典型的ETL工具。
(2)掌握Kettle运行环境的安装和配置。
(3)熟悉Kettle的界面。
(4)掌握Kettle的基础操作。