购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

Preface
前言

为什么要写本书

数据挖掘是从大量数据(包括文本)中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。数据挖掘有助于企业发现业务的趋势,揭示已知的事实,预测未知的结果,已成为企业保持竞争力的必要方法。

在云时代和数字经济时代背景下,大数据技术的重要性与日俱增。大数据已经成为各行各业不可或缺的生产要素,其应用预示着生产率增长和消费者剩余的新浪潮。大数据分析技术不仅可以帮助企业高效地获取、管理和处理海量数据,还可以为企业的决策提供积极的辅助。作为数据存储和挖掘分析的前沿技术,大数据分析在物联网、云计算、移动互联网等战略性新兴产业中得到了广泛应用。大数据在国内的商业价值已经显现,具有实践经验的大数据分析人才已成为企业争夺的焦点。

为了满足不断增长的大数据分析人才需求,越来越多的大学开始开设大数据分析课程,将其作为数学与统计学专业的重要课程。该课程采用理论与实践相结合的教学方式,为学生提供一个真实的学习和实践环境,让他们能够更快地掌握数据挖掘知识,积累职业经验,以便为未来的数字经济和新质生产力的发展做好准备。

本书主要特色

本书作者从实践出发,结合大量真实的数据挖掘项目案例及教学经验,深入浅出地介绍数据挖掘过程中的有关任务:数据探索、数据预处理、分类与预测、聚类分析、时序预测、关联规则挖掘、智能推荐、离群点检测等。因此,本书的编排以达成某个应用的挖掘目标为前提,先介绍案例背景,提出挖掘目标,再阐述分析方法与过程,最后完成模型构建。在介绍建模过程时穿插操作训练,把相关的知识点嵌入相应的操作过程中。为方便读者轻松地获取真实的实验环境,本书使用大家熟知的Python语言对样本数据进行处理。

为了帮助读者更好地使用本书,本书配有原始数据文件、Python程序代码等案例资源,以及PPT课件、教学大纲、教学进度表和教案等教学资源,读者可以从泰迪云教材网站(https://book.tipdm.org)免费下载。

本书适用对象

❑开设数据挖掘课程的高校的教师和学生。

目前,国内不少高校将数据挖掘引入本科教学中,在数学、计算机、自动化、电子信息、金融等专业开设了数据挖掘技术相关的课程,但因为单纯的理论教学过于抽象,学生理解起来往往比较困难,教学效果不甚理想。本书提供的基于实战案例和建模实践的教学方式,能够使师生充分发挥互动性和创造性,理论联系实际,获得更好的教学效果。

❑需求分析及系统设计人员。

这类人员可以在理解数据挖掘原理及建模过程的基础上,结合数据挖掘案例完成精确营销、客户分群、交叉销售、流失分析、客户信用记分、欺诈发现、智能推荐等数据挖掘应用的需求分析和设计。

❑数据挖掘开发人员。

这类人员可以在理解数据挖掘应用需求和设计方案的基础上,结合本书提供的第三方接口快速完成数据挖掘应用的编程实现。

❑从事数据挖掘应用研究的科研人员。

许多科研院所为了更好地管理科研工作,纷纷开发了适应自身特点的科研业务管理系统,并在使用过程中积累了大量的科研数据。但是,这些科研业务管理系统一般没有对数据进行深入分析,对数据所隐藏的价值也没有充分挖掘和利用。科研人员需要利用数据挖掘建模工具及相关方法论来深挖科研信息的价值,从而提高科研水平。

❑关注高级数据分析的人员。

业务报告和商业智能解决方案对有关人员了解过去和现在的状况是非常有用的。同时,数据挖掘的预测分析解决方案还能使这类人员预见未来的发展状况,让他们所在的机构能够先发制人,而不是处于被动。数据挖掘的预测分析解决方案可以将复杂的统计方法和机器学习技术应用到数据之中,通过预测分析技术来揭示隐藏在交易系统或企业资源计划(ERP)、结构数据库和普通文件中的模式与趋势,从而为这类人员的决策提供科学依据。

如何阅读本书

本书共13章,分为基础篇、实战篇、提高篇。基础篇介绍了数据挖掘的基本原理;实战篇介绍了一些真实案例,通过深入浅出地剖析案例,使读者获得数据挖掘项目经验,同时快速领悟看似难懂的数据挖掘理论;提高篇介绍了一个去编程的TipDM大数据挖掘建模平台,向读者展示了平台流程化的思维,以使读者加深对数据挖掘流程的理解。读者在阅读过程中,应充分利用本书配套资源(见泰迪云教材网站)中的建模数据,借助相关的数据挖掘建模工具,通过上机实验,快速理解相关知识与理论。

基础篇(第1~5章)

第1章是数据挖掘基础;第2章对本书用到的数据挖掘建模工具Python语言进行简单介绍;第3~5章介绍数据挖掘的建模过程,包括数据探索、数据预处理及挖掘建模的常用算法与原理。

实战篇(第6~12章)

重点对数据挖掘技术在房地产、零售和互联网等行业的应用进行分析。在案例结构组织上,本书是按照先介绍案例背景与挖掘目标,再阐述分析方法与过程,最后完成模型构建的顺序进行的,并在建模过程的关键环节穿插实现代码。最后通过上机实践,加深读者对案例应用中的数据挖掘技术的理解。

提高篇(第13章)

重点讲解TipDM大数据挖掘建模平台的使用方法,先介绍了平台中各个模块的功能,再以商超客户价值分析案例为例,介绍如何使用平台快速搭建数据挖掘项目,展示平台去编程化、流程化的特点。

第3版更新内容

本书在第2版的基础上进行了代码与内容的全方位升级。在代码方面,由Python 3.6升级至Python 3.10,充分考虑了Python语言未来的发展。在内容方面,对基础篇、实战篇、提高篇均进行了升级。

基础篇的具体升级内容如下。

1)在2.3节中增加了对深度学习框架和XGBoost的说明。

2)在4.1节中增加了重复值处理的内容。

实战篇的具体升级内容如下。

1)使用新的案例“第6章 房屋租金影响因素分析与预测”替换第2版的“第6章财政收入影响因素分析及预测”。

2)使用新的案例“第7章 商超客户价值分析”替换第2版的“第7章 航空公司客户价值分析”。

3)使用新的案例“第11章 电视产品个性化推荐”替换第2版的“第11章 电子商务网站用户行为分析及服务推荐”。

4)使用新的案例“第12章 天问一号事件中的网民评论情感分析”替换第2版的“第12章电商产品评论数据情感分析”。

提高篇的具体升级内容如下。

使用新的案例“第13章 基于TipDM大数据挖掘建模平台实现商超客户价值分析”替换第2版的“第13章基于Python引擎的开源数据挖掘建模平台(TipDM)”。

勘误与支持

我们已经尽最大努力避免在文本和代码中出现错误,但是由于水平有限,编写时间仓促,书中难免出现一些疏漏和不足的地方。如果你有更多的宝贵意见,欢迎在泰迪学社微信公众号(TipDataMining)回复“图书反馈”进行反馈。更多有关本系列图书的信息可以在泰迪云教材网站查阅。

张良均 pK20pjNUxFT5hfIJ1hd0jzvDTNc5ZAj18lmQNa+g4U+FznUxFOp3pgG3Mpy22Pgf

点击中间区域
呼出菜单
上一章
目录
下一章
×