数据挖掘最新章节_王朝霞著

1.1 数据挖掘概述

1.1.1 数据挖掘的概念

数据挖掘（Data Mining,DM），是从大量的、有噪声的、不完全的、模糊和随机的数据中，提取出隐含在其中的、人们事先不知道的、具有潜在利用价值的信息和知识的过程 ^[1] 。这个定义包括几层含义：数据源必须是真实的、大量的、含噪声的；发现的是用户感兴趣的知识；发现的知识要可接受、可理解、可运用，并不要求放之四海皆准的知识，仅支持特定的发现问题。所提取到的知识的表示形式可以是概念、规律、规则与模式等。数据挖掘能够对将来的趋势和行为进行预测，从而帮助决策者做出科学和合理的决策。比如，通过对公司数据库系统的分析，数据挖掘可以回答诸如“哪些客户最有可能购买我们公司的什么产品？”“客户有哪些常见的消费模式和消费习惯？”等类似问题。

与数据挖掘相似的概念是知识发现（Knowledge Discovery in Databases,KDD），知识发现是指用数据库管理系统来存储数据、用机器学习方法来分析数据、挖掘大量数据背后隐藏的知识的过程。数据挖掘是整个知识发现流程中的一个具体步骤，也是知识发现过程中最重要的核心步骤。

数据挖掘是一个交叉学科，涉及数据库技术、人工智能、数理统计、机器学习、模式识别、高性能计算、知识工程、神经网络、信息检索、信息的可视化等众多领域，其中数据库技术、机器学习、统计学对数据挖掘的影响最大。对数据挖掘而言，数据库提供数据管理技术，机器学习和统计学提供数据分析技术 ^[2] 。数据挖掘所采用的算法，一部分是机器学习的理论和方法，如神经网络、决策树等；另一部分是基于统计学习理论，如支持向量机、分类回归树和关联分析等。但传统的机器学习和统计学研究往往并不把海量数据作为处理对象，因此数据挖掘要把这两类技术用于海量数据中的知识发现，需要对算法进行改造，使得算法性能和空间占用达到实用的地步。

常见的数据挖掘对象有以下七大类：

（1）关系型数据库、事务型数据库、面向对象的数据库。

（2）数据仓库、多维数据库。

（3）空间数据（如地图信息）。

（4）工程数据（如建筑、集成电路信息）。

（5）文本和多媒体数据（如文本、图像、音频、视频数据）。

（6）时间相关的数据（如历史数据或股票交换数据）。

（7）万维网（如半结构化的HTML、结构化的XML以及其他网络信息）。

1.1.2 大数据环境下的数据挖掘

继互联网、物联网、云计算的不断发展及智能终端的普及，海量复杂多样的数据呈现出爆炸式的增长，标记着“大数据”时代的到来。作为重要的生产因素，大数据已成为蕴含巨大潜在价值的战略资产，推动着产业升级和崛起，影响着科学思维与研究方法的变革。然而，大数据在依托其丰富的资源储备和借助强大的计算技术发挥优势的同时，也带来了极大的挑战。海量、动态及不确定的数据使得传统数据处理系统面临着存储和计算瓶颈，同时，就如何从复杂的大数据中实时且快速地挖掘出有价值的信息和知识，传统的数据挖掘技术自身受限的功能已无法满足用户的需求。因此，大数据环境下需要一种适用技术，即“大数据挖掘”，来应对面临的挑战 ^[3] 。

大数据挖掘是从体量巨大、类型多样、动态快速流转及价值密度低的大数据中挖掘有巨大潜在价值的信息和知识，并以服务的形式提供给用户。与传统数据挖掘相比，大数据挖掘同样是以挖掘有价值的信息和知识为目的，然而就技术发展背景、所面临的数据环境及挖掘的广度深度而言，两者存在很多差异：

1．技术背景差异

传统数据挖掘在数据库、数据仓库及互联网发展等背景下，实现了从独立、横向到纵向数据挖掘的发展。而大数据挖掘是在大数据背景下得益于云计算、物联网、移动智能终端等技术产生与发展，具备了充实环境技术条件，基于云计算等相关技术集成实现海量数据的挖掘。

2．处理对象的差异

传统数据挖掘的数据来源主要是以某个特定范围的管理信息系统被动数据的产生为主，外加少数的 Web 信息系统中由用户产生的主动数据，数据类型以结构化数据为主，外加少量的半结构化或非结构化数据。相比于传统数据挖掘，大数据挖掘的数据来源更广、体量巨大、类型更加复杂；采集方式不再局限于被动，采集范围更为全面，吞吐量高，处理实时且快速，但由于对数据的精确度要求不高致使数据的冗余度和不确定性较高。

3．挖掘程度差异

大数据挖掘与传统数据挖掘处理分析数据的广度、深度也存在差异。在复杂类型、结构及模式的数据交错融合时，大数据挖掘能利用云平台集成多种计算模式与挖掘算法对庞杂的数据进行实时处理与多维分析，其处理数据的范围更广，挖掘分析更加全面深入。

总体而言，大数据挖掘是在大数据环境下，以大数据为来源，依托云计算及大数据相关技术的支撑，利用挖掘工具发现潜在的有价值信息和知识，并将结果以云服务的方式提供给用户。

1.1.3 数据挖掘的特性

在大数据时代，数据的产生和收集是基础，数据挖掘是关键，即数据挖掘是大数据中最关键、最有价值的工作。数据挖掘可以用以下3个特性概括 ^[4] 。

（1）应用性：数据挖掘是理论算法和应用实践的完美结合。数据挖掘源于实际生产生活中应用的需求，挖掘的数据来自于具体应用，同时通过数据挖掘发现的知识又要运用到实践中去，辅助实际决策。所以，数据挖掘来自于应用实践，同时也服务于应用实践。

（2）工程性：数据挖掘是一个由多个步骤组成的工程化过程。数据挖掘的应用特性决定了数据挖掘不仅仅是算法分析和应用，而是一个包含数据准备和管理、数据预处理和转换、挖掘算法开发和应用、结果展示和验证以及知识积累和使用的完整过程。而且在实际应用中，典型的数据挖掘过程还是一个交互和循环的过程。

（3）集合性：数据挖掘是多种功能的集合。常用的数据挖掘功能包括数据探索分析、关联规则挖掘、时间序列模式挖掘、分类预测、聚类分析、异常检测、数据可视化和链接分析等。一个具体的应用案例往往涉及多个不同的功能。不同的功能通常有不同的理论和技术基础，而且每一个功能都有不同的算法支撑。

总而言之，数据挖掘源于实践中的实际应用需求，用具体的应用数据作为驱动，以算法、工具和平台作为支撑，最终将发现的知识和信息用到实践中去，从而提供量化、合理、可行、能够产生巨大价值的信息。

1.1.4 数据挖掘的过程

1999年，欧盟创建了跨行业的数据挖掘标准流程，即 CRISP-DM（Cross Industry Standard Process for Data Mining），提供了一个数据挖掘生命周期的全面评述，包括业务理解、数据理解、数据准备、数据建模、模型评估与部署6个阶段 ^[5] ，如图1-1所示。

第1阶段：业务理解，主要任务是深刻理解业务需求，在需求的基础上制定数据挖掘的目标和实现目标的计划。

第2阶段：数据理解，主要收集数据、熟悉数据、识别数据的质量问题，并探索引起兴趣的子集。

第3阶段：数据准备，从收集来的数据集中选择必要的属性（因素），并按关联关系将它们连接成一个数据集，然后进行数据清洗，即空值和异常值处理、离群值剔除和数据标准化等。

图1-1 CRISP-DM数据挖掘过程示意图 ^[5]

第4阶段：数据建模，选择应用不同的数据挖掘技术，并确定模型最佳的参数。如果初步分析发现模型的效果不太满意，要再跳回数据准备阶段，甚至数据理解阶段。

第5阶段：模型评估，对建立的模型进行可靠性评估和合理性解释，未经过评估的模型不能直接去应用。彻底地评估模型，检查构造模型的步骤，确保模型可以完成业务目标。如果评估结果没有达到预想的业务目标，要再跳回业务理解阶段。

第6阶段：部署阶段，根据评估后认为合理的模型，制定将其应用于实际工作的策略，形成应用部署报告。