随着信息技术的不断发展,特别是由于信息技术的不断普及以及互联网延伸,无处不在的信息技术应用带来了数据的不断增长,而且是超几何增长,数据日益成为重要的战略资源和新生产要素,对数据进行充分的挖掘和有效利用,能够对全球生产、流通、分配、消费活动以及经济运行机制、社会生活方式和国家治理能力产生重要影响。
大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,并从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。大数据一方面给我们带来了重要机遇——数据资产和洞察未来的能力,另一方面也对我们提出了巨大的挑战——大数据中价值信息的提取、大数据的信息安全以及大数据相关人才的缺乏等。在此背景下,系统地学习和掌握大数据管理与应用的基础知识和理论是高等学校学生适应科学技术和社会发展的必然要求。
本书从管理和应用的视角来解读大数据,以大数据分析全生命周期为主线,从大数据的采集、存储、预处理、分析、可视化、治理等环节切入,对大数据管理与应用的理论、方法、工具和应用进行科学合理的组织,形成了注重介绍大数据理论与方法、强调理论联系实践的教材特色。通过对本书的学习,学生可以理解大数据管理与应用的基本概念和基础理论,掌握大数据管理与应用的核心技术和方法,学生运用大数据分析工具解决具体问题的能力也能得到有针对性的培养。在编写过程中,我们积极吸取国内外同类教材的先进性,同时注意形成自身的特色。
第一,注重学科融合。大数据管理与应用涉及管理、信息等学科内容,在教材编写过程中,我们注重将相关学科知识有机地融为一体,重构了大数据管理与应用的知识体系。
第二,教材内容的先进性。在内容选取时,我们参阅了大量的相关文献,并将其与我们自身的最新研究成果相结合,整合后融入教材之中,力争反映大数据管理与应用的前沿知识。
第三,理论与实践相结合。书中除大数据理论知识和技术基础外,我们还精选了多个大数据应用案例进行分析。在案例选择上,以本土案例为主,并尽可能选自不同的行业和领域,帮助学生理解大数据分析技术在企业中的具体应用。
本书包含十六章,分为四个部分:概念篇主要介绍大数据管理与应用的基本概念、分析的基本思路;基础篇主要介绍大数据管理与应用的数学基础和机器学习基础;技术篇主要介绍大数据管理应用的数据采集与存储技术、数据预处理技术、数据回归分析技术、数据分类分析技术、数据聚类分析技术、数据关联分析技术、深度学习技术、文本分析技术、 Web 分析技术、可视化技术、数据治理技术;平台与发展篇介绍大数据计算平台并综述大数据管理与应用的新进展。
本书由合肥工业大学管理学院王刚教授任主编,刘婧副教授、邵臻副教授任副主编,凌海峰副教授、董骏峰副教授、倪丽萍副教授参编。各章的编写工作分工如下:王刚负责本书的统稿,并负责编写第一、三、六、七、八、十五、十六章,刘婧负责编写第九、十、十三章,邵臻负责编写第二、五章,凌海峰负责编写第十二、十四章,董骏峰负责编写第四章,倪丽萍负责编写第十一章。另外,合肥工业大学博士研究生张峰、马敬玲、张亚楠、王含茹、卢明凤、夏平凡、魏娜,硕士研究生黄晶丽、李慧、祝贺功、孟祥睿、徐旺、陈星月、周秀娜、昂瑞、杨雨蝶、韩钧、王晓莹、孙文君、贵丽等在书稿的编写过程中做了大量资料搜集整理、文档编辑等工作。在此,谨向他们表示最诚挚的谢意。
在本书的编写过程中,我们参考了大量的国内有关研究成果,在此对所涉及的专家、学者表示衷心感谢。
大数据管理与应用是一门日新月异的学科,且涉及管理科学和信息科学中的多个领域,作者水平有限,书中难免有疏漏或不妥之处,恳请广大读者不吝赐教,以便再版时及时更正。
编者
2022年9月3日