21世纪初,人类迈入大数据时代,各行各业拥抱大数据,希冀借大数据挖掘与分析来促进产业升级与变革。因此,大数据人才的需求呈现井喷之势。
中国云计算专家咨询委员会秘书长刘鹏教授顺势而为,周密思考,提出高级大数据人才培养课程体系,并邀请全国上百家高校中从事一线教学科研任务的教师一起,编撰高级大数据人才培养丛书。本书即该套丛书之一。
本书的定位是大数据挖掘技术与应用。以“让学习变得轻松”为根本出发点,本书努力回答:数据挖掘是什么?发展如何?经典的数据挖掘算法有哪些?大数据环境下数据挖掘有哪些新特点和新延展?如何分析实际问题,如何应用?本书编写的指导思想有三:一是理论与应用相呼应。从数据挖掘算法理论与方法、工具和应用两方面进行阐述,既注重理论,同时贴近实战,希望学习者既能很快将理论应用于实际领域的数据分析中,也具备厚积薄发的能力。二是基础与发展相配合。大数据新常态下经典数据挖掘的基本原理仍然适用,不同之处在于,根据现有分布式、并行环境,对原有算法进行优化。本书循序渐进地介绍经典数据挖掘算法,以及大数据环境下数据挖掘算法的新特点和新延展,有助于学习者全面掌握数据挖掘理论。三是局部与全局整体联动。本书属于高级大数据人才培养丛书系列教材,因此,在本书内容组织上,需要考虑与丛书其他教材的关系,既紧密联系又自成一体,共同组成高级大数据人才培养课程体系。
基于上述指导思想,本书内容分为4部分:一是概念与基础,见第1章绪论和第2章;二是经典的数据挖掘算法,见第3章分类、第4章回归、第5章聚类和第6章关联规则;三是大数据挖掘技术,其中,第7章重点介绍了大数据环境下经典数据挖掘算法的优化与改进,第8章介绍了推荐系统的理论与方法,第9章则对链接分析与网页排序、互联网信息抽取、日志挖掘与查询分析等技术进行了介绍;四是常用数据挖掘工具(包),见附录A和附录B。
本书成稿过程中得到丛书主编刘鹏教授和金陵科技学院张燕副院长的大力支持,在书稿提纲和内容组织上提出了诸多建设性意见。同时,两轮审稿评审专家对本书给予了全面指导和帮助,在此一并致谢。
当前,大数据挖掘技术仍处在高速发展的历史阶段,其概念内涵、技术方法、应用模式还在不断创新演化之中,由于时间和作者水平所限,本书还存在缺点和不足,欢迎大家不吝赐教。
王朝霞
于陆军勤务学院