数据挖掘最新章节_王朝霞著

1.2 数据挖掘起源及发展历史

数据挖掘技术出现于20世纪80年代末，是在多个学科发展的基础上发展起来的。随着数据库技术的发展应用，数据的积累不断膨胀，导致简单的查询和统计已经无法满足企业的商业需求，急需一些革命性的技术去挖掘数据背后的信息。与此同时，计算机领域的人工智能（Artificial Intelligence,AI）也取得了巨大进展，进入了机器学习的阶段。因此，人们将两者结合起来，用数据库管理系统存储数据，用计算机分析数据，并且尝试挖掘数据背后的信息，这两者的结合促生了一门新的学科，即数据挖掘 ^[6] 。

1989年8月于美国底特律市召开的第十一届国际联合人工智能学术会议上首次提到“知识发现”这一概念，到1993年，美国电气电子工程师学会（IEEE）的知识与数据工程（Knowledge and Data Engineering）会刊出版了KDD技术专刊，发表的论文和摘要体现了当时 KDD 的最新研究成果和动态。1995年在加拿大蒙特利尔召开的首届“知识发现和数据挖掘”国际学术会议上，首次提出了“数据挖掘”这一学科的名称，并把数据挖掘技术分为科研领域的知识发现与工程领域的数据挖掘。之后每年召开一次这样的会议，经过十几年的努力，数据挖掘技术的研究已经取得了丰硕的成果。美国麻省理工学院在2001年1月份的《科技评论》中提出数据挖掘将是未来5年对人类产生重大影响的十大新兴技术之一 ^[7] 。

数据挖掘可以在任何类型的存储信息上进行，比如关系数据库、数据仓库、文本和多媒体数据库、事务数据库、WWW 等。目前，数据挖掘技术在购物篮分析、金融风险预测、分子生物学、基因工程研究、Internet 站点访问模式发现以及信息搜索等领域得到了广泛的应用。因此数据挖掘技术具有极其重要的研究意义，给各个领域的研究人员提供了一种新的认识数据、使用数据的智能手段。

起初，数据挖掘的几个研究热点主要包括网站的数据挖掘（Web Site Data Mining）、生物信息或基因（Bioinformatics/Genomics）的数据挖掘等方向。

网站的数据挖掘就是从网站的各类数据中得到有价值的信息，与一般的数据挖掘差别不大，但是其数据格式很大一部分来自于点击率，与传统的数据库格式有区别 ^[8] 。

生物信息或基因的数据挖掘对人类生存发展有着非常重要的意义，基因的组合千变万化，能否找出病人基因和正常人基因的不同之处，进而对其加以改变，这就需要数据挖掘技术的支持，但其数据形式、挖掘算法模型比较复杂。

随着越来越多的业务需求被不断开拓，数据挖掘已成功应用于社会生活的方方面面，目前在很多领域，如商业、医学、科学研究等均有不少成功的应用案例。为了提高系统的决策支持能力，像 ERP、SCM、HR 等一些应用系统也逐渐与数据挖掘集成起来。多种理论与方法的合理整合是大多数研究者采用的有效技术。

对数据挖掘而言，哪里有数据哪里就能挖掘到“金子”，但是，随着物联网、云计算和大数据时代的来临，要在急剧膨胀的数据中挖掘“金子”，无疑给数据挖掘技术的实施提出了挑战。

物联网 ^[9] 就是物物相连的网络，是数字世界与物理世界的高度融合。物联网底层的大量传感器为信息的获取提供了一种新的方式，这些传感器不断地产生着新的数据，随着各种各样的异构终端设备的接入，物联网采集的数据量也就越来越大，其数据类型和数据格式也会越来越复杂。这些数据与时间和空间相关联，有着动态、异构和分布的特性，也为数据挖掘任务带来了新的挑战。

云计算 ^[10] 是一种基于互联网相关服务的增加、使用和交付模式，通常涉及通过互联网来提供动态、易扩展且经常是虚拟化的资源（包括硬件、平台和软件），实现了设备之间的数据应用和共享。随着物联网的发展，感知的信息不断增加，需要不断地增加服务器的数目来满足需求，但由于服务器的承载能力是有限的，使得服务器在节点上出现混乱和错误的概率大大增加。为了更好地服务，基于云计算的系统能有效地解决物联网分布式数据挖掘中所遇到的问题，在进行相关数据挖掘时能够显著地提高性能。

随着人类活动的进一步扩展，数据规模会急剧膨胀，包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的各行业累积的数据量越来越巨大，数据类型也越来越多、越来越复杂，已经超越了传统数据管理系统、处理模式的能力范围，于是“大数据” ^[1] 这样一个在含义上趋近于“无穷大”的概念才会应运而生。大数据的处理，难点就在于如何从海量数据中挖掘出有价值的信息，这就需要设计出符合大数据特征的数据以及具体的分析工具，进而促进对大数据的挖掘分析。在大数据背景下数据挖掘要面临的挑战，主要表现在以下几个方面 ^[11,12] 。

（1）数据类型的多样性：不同的应用、系统和终端，由于标准的差异性，会产生不同结构的数据，其中包括结构化数据、半结构化数据和非结构化数据，对这些异构化数据的抽取与集成将成为一大挑战。

（2）数据挖掘分析模型的重构：在大数据的背景下要以低成本和可扩展的方式处理大数据，这就需要对整个 IT 架构进行重构，开发先进的软件平台和算法。近年来以开源模式发展起来的 Hadoop 等大数据处理软件平台，及相关产业已经在一些国家初步形成。目前尽管计算机智能化有了很大进步，但还只是针对小规模、有结构或者类结构的数据进行分析，对于深层次的数据挖掘，现有的数据挖掘算法在不同行业中还难以通用 ^[13] 。

（3）清洗粒度大小不易把握：由于普适终端所处地理位置的复杂性，使得产生的数据具有很多噪声。在进行数据清洗时，不易把握清洗粒度。粒度太大，残留的噪声会干扰有价值的信息，粒度太小，可能会遗失有价值的信息。

（4）数据开放与隐私的权衡：互联网的交互性，使得人们在不同位置产生的数据足迹得到积累和关联，从而增加了隐私暴露的概率，且这种隐性的数据暴露往往是无法控制和预知的。随着数据挖掘工具和电子产品的日益普及，如何在推动数据全面开放、应用和共享的同时有效地保护公民和企业的隐私、逐步加强隐私立法，将是数据挖掘要面对的一个重要问题。

未来数据挖掘发展趋势如下 ^[14] 。

（1）数据挖掘语言的标准化描述：标准的数据挖掘语言将有助于数据挖掘的系统化开发。改进多个数据挖掘系统和功能间的互操作，促进其在企业和社会中的使用。

（2）数据挖掘过程的可视化方法：可视化要求已经成为数据挖掘系统中必不可少的技术，可以在发现知识的过程中进行很好的人机交互。数据的可视化起着推动人们主动进行知识发现的作用。

（3）与特定数据存储类型的适应问题：根据不同的数据存储类型的特点，进行针对性的研究是目前流行以及将来一段时间必须面对的问题。

（4）网络与分布式环境下的数据挖掘问题：随着 Internet 的不断发展，网络资源日渐丰富，这就需要分散的技术人员各自独立地处理分离数据库的工作方式应是可协作的。因此，考虑适应分布式与网络环境的工具、技术及系统将是数据挖掘中极为重要的子领域。

（5）应用的探索：随着数据挖掘的日益普遍，其应用范围也日趋扩大，如生物医学、电信业、零售业等领域。由于数据挖掘在处理特定应用问题时存在局限性，因此，目前的研究趋势是开发针对特定应用的数据挖掘系统。

（6）数据挖掘与数据库系统和 Web 数据库系统的集成：数据库系统和以 Web 查询接口方式访问数据库资源的Web数据库已经成为信息处理系统的主流。通常来说，数据存储在数据库系统和Web 数据库系统中，在此之上进行数据挖掘与应用。