购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.2 数据挖掘的起源及发展

1.数据挖掘的起源

数据挖掘技术出现于20世纪80年代末,是在多门学科发展的基础上发展起来的。随着数据库技术的发展应用,数据不断积累膨胀,简单的查询和统计已无法满足企业的商业需求,急需一些革命性的技术挖掘数据背后的信息。与此同时,计算机领域的人工智能(Artificial Intelligence,AI)也取得了巨大进展,进入了机器学习阶段。因此,人们将两者结合,用数据库管理系统存储数据,用计算机分析数据,并尝试挖掘数据背后的信息,这两者的结合促生了一门新的学科,即数据挖掘 [8]

1989年8月,美国底特律市召开第十一届国际联合人工智能学术会议,首次提到“知识发现”这一概念;1993年,电气电子工程师学会(IEEE)的知识与数据工程(Knowledge and Data Engineering)会刊出版KDD技术专刊,发表的论文和摘要体现了当时KDD的最新研究成果和动态。1995年,加拿大蒙特利尔召开首届“知识发现和数据挖掘”国际学术会议,首次提出“数据挖掘”这一学科名称,并把数据挖掘技术分为科研领域的知识发现与工程领域的数据挖掘,之后每年召开一次,经过十几年的努力,人们对数据挖掘技术的研究已经取得了丰硕的成果。

2.数据挖掘的研究热点

数据挖掘的研究热点 [9] 主要包括以下几个方面。

1)多媒体数据挖掘

多媒体数据包括图形、图像、文本、文档、超文本、声音、视频和音频数据等。随着信息技术的进步,人们所接触的数据形式越来越丰富,多媒体数据的大量涌现,形成了很多海量的多媒体数据库。很多数据都是非结构化的,所以首先要将这些数据转化为结构化数据,研究者提出了多媒体数据挖掘的系统原型MDMP,主要过程是将多媒体数据的建模、表示、存储和检索等多媒体数据库技术与数据挖掘技术结合在一起,采用多媒体图像数据的相似性搜索、多维分析、关联规则挖掘、分类与聚类分析等挖掘方法。

2)时序数据挖掘

时序数据挖掘是指通过研究数据的时间特性,深入发掘事物演变机制,揭示其内在规律。成为获得知识的有效途径,时序数据挖掘技术的关键是要寻找一种合适的序列表示方式,根据点距离和关键点建立时序序列是常用的方法。时序数据挖掘的主要技术有趋势分析与相似搜索,在宏观经济预测领域、市场营销、客流量分析、股票价格波动等众多领域得到了应用。在专利数据挖掘领域,专利的编号、年份等信息可以利用时序数据挖掘技术进行检索分析。

3)Web数据挖掘

随着网络技术的快速普及和飞速发展,在网络上可获得数量庞大的信息。但通过这种方式获得的数据普遍都具有量大、分布广泛、全球性多样和动态变化的特点。面对如此大量的网络数据,如何在这样全球化的、大的数据集合中发现有用信息已经成为Web数据挖掘研究的热点。

4)文本数据挖掘

文本数据挖掘被定义为从文本中挖掘出有意义的知识方法和技术。文本数据挖掘根据知识类型的不同,可以分为文本总结、文本分类、分布分析和趋势分析。

(1)文本总结。文本总结就是从文本中抽取一些关键信息,对文本内容进行概括,这样用户不需要阅读文本的全文就可以大致了解文本中所涉及的内容。

(2)文本分类。文本分类指的是根据带有特定关键信息的样文和样文中的关键信息对数量庞大的文本进行分类,通过限制检索范围的方法使得检索更加精确。

(3)分布分析和趋势分析。分布分析和趋势分析就是对文本某一特定方面,得到数据在历史时期和现在的情况,并根据此情况分析出未来的发展趋势。

3.数据挖掘的挑战

在大数据背景下数据挖掘要面临的挑战主要表现在以下几个方面 [4,10]

(1)数据类型的多样性:不同的应用、系统和终端,由于标准的差异性,会产生不同结构的数据,其中包括结构化数据、半结构化数据和非结构化数据,对这些异构化数据的抽取与集成将成为一大挑战。

(2)数据挖掘分析模型的重构:在大数据背景下,要实现用低成本和可扩展的方式处理大数据,就需要对IT架构进行重构,开发和使用先进的软件平台和算法。Hadoop是目前最为流行的大数据处理平台之一,围绕Hadoop平台应用也已开展大量工作。目前,尽管计算机智能化有了很大进步,但还只是针对小规模、有结构或者类结构的数据进行分析,对于深层次的数据挖掘,现有数据挖掘算法在不同行业中还难以通用。

(3)清洗粒度大小不易把握:普适终端所处地理位置具有复杂性,因此其产生的数据具有很多噪声。在进行数据清洗时,不易把握清洗粒度。粒度太大,残留的噪声会干扰有价值的信息;粒度太小,可能会遗失有价值的信息。

(4)数据开放与隐私的权衡:互联网的交互性,使得人们在不同位置产生的数据足迹得到积累和关联,从而增加了隐私暴露的概率,且这种隐性的数据暴露往往是无法控制和预知的。随着数据挖掘工具和电子产品的日益普及,如何在推动数据全面开放、应用和共享的同时,有效地保护公民和企业的隐私、逐步加强隐私立法,将是数据挖掘要面对的一个重要问题。

4.数据挖掘的发展趋势

数据挖掘的发展趋势 [11] 如下。

(1)数据挖掘语言的标准化描述:标准的数据挖掘语言将有助于数据挖掘的系统化开发,改进多个数据挖掘系统和功能间的互操作,促进其在企业和社会中的使用。

(2)数据挖掘过程的可视化方法:可视化要求已经成为数据挖掘系统中必不可少的技术,可以在发现知识的过程中进行很好的人机交互。数据的可视化起到了推动人们主动进行知识发现的作用。

(3)与特定数据存储类型的适应问题:根据不同数据存储类型的特点,进行针对性的研究是目前流行及将来一段时间必须面对的问题。

(4)网络与分布式环境下的数据挖掘问题:随着互联网的不断发展,网络资源日渐丰富,这就需要分散的技术人员各自独立地处理分离数据库的工作方式应是可协作的。因此,考虑适应分布式与网络环境的工具、技术及系统将是数据挖掘中极为重要的子领域。

(5)应用的探索:随着数据挖掘的日益普遍,其应用范围也日趋扩大,如生物医学、电信业、零售业等领域。由于数据挖掘在处理特定应用问题时存在局限性,因此目前的研究趋势是开发针对特定应用的数据挖掘系统。

(6)数据挖掘与数据库系统和Web数据库系统的集成:数据库系统和以Web查询接口方式访问数据库资源的Web数据库系统已经成为信息处理系统的主流。通常来说,数据存储在数据库系统和Web数据库系统中,并在此之上进行数据挖掘和应用。 wQ3ggYB8/9qDZCD1RWueqUxcdVAUgJnH5L0rQgVLQJrTmn3Dwl3sKwa8PSTl1FVd



1.3 数据挖掘的常用工具

由于数据挖掘技术在各领域产生的巨大商业价值,一些著名的大学和国际知名公司纷纷投入数据挖掘工具的研发中,开发出很多优秀的数据挖掘工具。数据挖掘工具 [12] 可分为商用工具和开源工具。

1.3.1 商用工具

商用工具主要由商用的开发商提供,通过市场销售,并提供相关服务。商用工具不仅提供易用的可视化界面,还集成数据处理、建模、评估等一整套功能,并支持常用的数据挖掘算法。与开源工具相比,商用工具功能更强大,软件性能更成熟和稳定。主流的商用工具有SAS Enterprise Miner、Clementine、Intelligent Miner等,这些工具在各行业的数据统计和数据挖掘工作中得到了广泛的应用。

1.SAS Enterprise Miner

SAS Enterprise Miner是一种通用的数据挖掘工具,按照SAS定义的数据挖掘方法——SEMMA方法,即抽样(Sample)、探索(Explore)、修改(Modify)、建模(Model)、评价(Assess)的方式进行数据挖掘。它把统计分析系统和图形用户界面(GUI)集成起来,为用户提供了用于建模的图形化流程处理环境,可利用具有明确代表意义的图形化模块将数据挖掘的工具单元组成一个处理流程图,并以此来组织数据挖掘过程。图形化的界面、可视化的操作,使统计学无经验的用户也可以理解和使用它;但对于有经验的专家,它也可让用户精细地调整分析处理过程。它支持并提供一组常用的数据挖掘算法,包括决策树、神经网络、回归、关联、聚类等,还支持文本挖掘。

2.Clementine

Clementine是SPSS公司开发的数据挖掘工具,支持整个数据挖掘过程,即从数据获取、转化、建模、评估到最终部署的全部过程,还支持数据挖掘的行业标准CRISP-DM。

Clementine结合了多种图形使用接口的分析技术,不仅具有分析功能,还能够提供可使用的、简单的、可视化程序环境。Clementine资料读取能力强大,支持多种数据源的读取,而且为用户提供大量的人工智能、统计分析的模型(神经网络、聚类分析、关联分析、因子分析等)。Clementine是采用客户/服务器架构的产品,既可以单机运行,也可以连接网络上的Clementine Server。

Clementine的设计思想是用简单的方式进行数据挖掘,尽量屏蔽数据挖掘算法的复杂性及软件操作的烦琐性,使数据挖掘人员将更多的精力放在使用先进的挖掘技术解决商业问题而不是放在操作软件本身。

3.Intelligent Miner

IBM的Intelligent Miner包含广泛的数据挖掘技术及算法,可容纳相当大的数据量且有强大的计算能力。它在IBM SP的并行处理计算机系统上执行效率最高,也可以在IBM或非IBM平台上执行。丰富的API可用来开发数据挖掘应用软件,可通过C函数库来存取所有数据挖掘引擎和操作函数。它包含多种统计方法和挖掘算法,可以进行线性回归、因子分析、主变量分析、分类、分群、关联、相似序列、序列模式、预测等。

Intelligent Miner包括分析软件工具Intelligent Miner for Data和Intelligent Miner for Text,不仅可以寻找传统文件、数据库、数据仓库和数据中心中的隐含信息,还允许企业从文本信息中获取有价值的客户信息。

4.QUEST

QUEST是IBM公司Almaden研究中心开发的一个多任务数据挖掘系统,该系统提供了高效的数据开采基本构件,可用于新一代决策支持系统的应用开发。

QUEST提供了专门在大型数据库上进行各种开采的功能,包括关联规则发现、序列模式发现、时间序列聚类、决策树分类、递增式主动开采等。各种开采算法可适用于任意大小的数据库,并具有近似线性的计算复杂度。

1.3.2 开源工具

开源工具,意为向公众开放源代码的软件工具,其最大的优势在于免费。研制开源软件的技术人员相信软件应该是开放的,让任何有能力的人参与并共同完善软件,能集思广益,并使得软件更新速度更快。除了商业数据挖掘软件,市场上也出现了一批优秀的开源数据挖掘软件,它们在数据挖掘方面同样具有自己的特点和优势。相对于商业工具,开源工具更容易学习和掌握,缺乏数理统计知识的人也能使用。

1.R

R是用于统计分析和图形化的计算机语言及分析工具,提供了丰富的统计分析和数据挖掘功能,其核心模块是用C、C++和Fortran编写的。为了便于使用,它提供了一种脚本语言,即R语言。R语言以S语言环境为基础。R [13] 支持一系列分析技术,包括统计检验、预测建模、数据可视化等。在CRAN上可以找到众多开源的扩展包。

R是一套完整的数据处理、计算和制图软件系统,其功能包括:数据存储和处理系统;数组运算工具(向量、矩阵运算方面的功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便且强大的编程语言;可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。R的思想是:它可以提供一些集成的统计工具,但更主要的是它提供各种数学计算、统计计算的函数,从而让使用者能灵活机动地进行数据分析,甚至创造出符合需要的新的统计计算方法。

2.Python

Python是一种功能强大的、开源的、解释性的、面向对象计算机的编程语言,内建有各种高级数据结构,支持模块和包,支持多种平台并可扩展。Python语言简洁、易学习、易阅读,能降低程序的维护费用,已经成为很多用户欢迎的、用途广泛的语言。

Python是人工智能研究领域中一个非常重要的工具,提供sklearn第三方程序库,对一些常用的机器学习方法进行了封装,只需要调用sklearn模块中的函数就可以实现大多数机器学习任务,包括分类、回归、聚类、数据降维、数据预处理等。

Python在科学计算和数据分析领域占据着越来越重要的地位,提供了NumPy、SciPy、Matplotlib和Pandas等众多第三方程序库,只需要调用以上程序库中的函数就可以实现大多数数据分析和数据计算功能,以及实现数据可视化。相对于R语言,Python语言更平易近人,它能完成数据统计、分析、可视化等任务,满足几乎所有数据挖掘下所需要的数据处理、统计模型和图表绘制等功能需求。

3.WEKA

WEKA(Waikato Environment for Knowledge Analysis,怀卡托智能分析环境)是一款免费的、非商业化的数据挖掘软件,是基于Java环境下开源的机器学习和数据挖掘软件。WEKA作为一个公开的数据挖掘工作平台,集成大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理、分类、回归、聚类、关联规则,以及交互式界面上的可视化。

WEKA可能是名气最大的开源机器学习和数据挖掘软件。高级用户可以通过Java编程和命令行来调用其分析组件,同时它也为普通用户提供了图形化界面。使用WEKA可以轻松地进行数据挖掘,可以在数据集上进行数据预处理和运用数据挖掘算法。

WEKA的灵活性和可扩展性很好,允许开发和扩展新的挖掘算法。WEKA提供了文档全面的Java函数和类库,非常适合扩展。当然,首先需要充分了解WEKA的架构,并掌握Java编程技术。

4.RapidMiner

RapidMiner原名YALE(Yet Another Learning Environment),是用于数据挖掘、机器学习、商业预测分析的开源计算环境。它提供了图形用户界面,采用了类似Windows资源管理器中的树状结构来组织分析组件,树上每个节点表示不同的运算符。YALE提供了大量的运算符,包括数据处理、变换、探索、建模、评估等各个环节。这些算子由详细的XML文件进行记录,并通过图形用户界面表现出来。

RapidMiner提供的数据挖掘和机器学习程序包括数据加载和转换(ETL)、数据预处理和可视化、建模、评估和部署。数据挖掘的流程以XML文件加以描述,并通过图形用户界面显示出来。

RapidMiner是由Java编程语言编写的,集成了WEKA的学习器和评估方法,并可以与R语言进行协同工作。

5.Mahout

Mahout是Apache Software Foundation(ASF)旗下的一个开源项目,在机器学习领域提供了一些可扩展的经典算法的实现和数据挖掘的程序库。它可以实现很多功能,包括聚类、分类、推荐过滤、频繁子项挖掘等。Mahout的算法既可以在单机上运行,也可以在Hadoop平台上运行。Mahout通过将机器学习算法建于MapReduce并行计算模型之上,并将算法的输入、输出和中间结果构建于HDFS分布式文件系统之上,使得Mahout具有高吞吐、高并发、高可靠性的特点,这就保证了其适合于大规模数据的机器学习。目前,Mahout已经停止接受新的MapReduce算法,改为支持基于Spark和H 2 O平台的算法。Mahout实现的机器学习算法包括聚类算法、分类算法、关联规则挖掘、回归、降维、进化算法、过滤、向量相似度计算等。

6.Spark MLlib

Spark是一个开源集群运算框架,最初是由加州大学伯克利分校AMPLab实验室所开发的。Spark和MapReduce同为主流大数据处理系统,但它使用了内存内运算技术,比MapReduce程序运行性能要好10~100倍,且编程更为方便,支持SQL查询、流式查询,自带机器学习算法实现库MLlib,提供Java、Scala、Python、R等多种语言的API接口,并且兼容HBase、HDFS等Hadoop数据源,使得原来基于Hadoop的大数据应用系统可以很容易地迁移到Spark上,从而受到广大开发者的热捧。

MLlib(Machine Learning lib)是Spark中的一个可扩展的机器学习库,由通用的学习算法和工具组成,包括分类、线性回归、聚类、协同过滤、梯度下降及底层优化原语。MLlib专为在集群上并行运行而设计,只包含能够在集群上运行良好的并行算法,因此MLlib中的每个算法都适用于大规模数据集。 knRtYptxaO/Fy1o/nVcBRyM/xWhNBrBJPJC/T0GQ/4Jo29fcx+IK0cP+3EguCBMK



1.4 数据挖掘的应用

数据挖掘技术从诞生开始就是面向应用的,尤其是在电信、金融、保险、交通、零售(如超市)、生物医学、地震预测、工业产品设计等领域。例如,加拿大西蒙弗雷泽大学研究组根据加拿大BC电信公司拥有的十多年的客户数据,总结、分析并提出新的电话收费和管理办法,制定了既有利于公司又有利于客户的优惠政策;美国著名的NBA教练利用IBM公司提供的数据挖掘工具Advanced Scout临场决定替换队员。数据挖掘能解决的典型商业问题包括客户关系管理、数据库营销、客户群体细分、交叉销售等市场分析行为,以及客户流失性分析、客户信用记分及欺诈发现等。下面列举几个经典的数据挖掘应用场景。

1.数据挖掘在电信业中的应用

随着5G时代的到来,电信业发展面临前所未有的机遇和挑战,客户服务的质量是关系电信运营商发展的主要因素 [14] 。数据挖掘广泛应用于国内电信行业中,对企业日常经营数据进行数据分析与挖掘,从海量数据中寻找数据之间的关系或模式。挖掘内容包括客户细分、消费层次变动、客户流失分析、业务预测、客户生命周期价值分析等,为公司决策者提供可靠的决策依据。

(1)客户细分。客户细分就是将客户划分为不同的群体,采用数据挖掘中的聚类和分类算法对数据集进行划分,使划分出来的每个群体都具有自己的特征,从而使企业可以根据客户群体的不同特征为客户提供差异化和个性化的服务。通过对目标客户群体和客户实际需求等方面的深入理解,企业可以制定适宜的营销策略、广告策略、促销策略等来更好地服务客户,增加企业的语音业务和各项增值业务的收入。例如,中国移动针对不同客户群体推出全球通、神州行和动感地带三大客户品牌。全球通的资费标准最高,主要针对高端客户,如经常出差的商务人士;神州行适合低端预付费客户;动感地带适合年轻群体,在短信包月方面有很大优势,同时还提供多种迎合年轻人喜好的定制服务。

(2)客户流失分析。客户流失分析是一种预测流失客户的重要技术,它通过预测可能流失的客户,帮助公司针对这些客户制定一些挽留策略,如降价或提供特殊服务以吸引客户留下。决策树是常用的一种分类预测方法,建立实用模型预测现有哪些客户具有流失倾向。

(3)产品交叉和提升销售。产品交叉和提升销售是电信企业推广新产品和服务的有效途径,主要采用数据挖掘中的频繁模式挖掘方法。交叉销售是指根据客户早先的购买信息,发现客户的多种潜在需求,并推荐销售多种相关的产品或服务。提升销售是指销售人员通过对客户需求的深度挖掘和对客户工作环境的深度理解,向客户推荐价值更高的产品,从而更好地满足客户的需求,以求达到双赢的目的。

2.数据挖掘在电子商务中的应用

电子商务是指在互联网上进行的商务活动,不仅包括通过互联网买卖产品和提供服务,还包括企业内部和企业间的商务活动,把买家、卖家、厂家和合作伙伴在互联网上利用互联网技术和现有的系统结合起来开展的业务 [15,16] 。国内有名的电子商务平台有淘宝、京东、苏宁易购等。电子商务平台的管理者主要关注的信息是客户对商品的关注点、客户购物的偏好,以及客户的购买能力等。对电子商务而言,首先,挖掘出潜在客户。服务器日志完整记录客户的历史访问痕迹,通过数据挖掘技术,电子商务平台的管理者能获取客户的偏好和潜在的需求,从而向客户推荐其有兴趣的、可能购买的商品,并推出相应的优惠政策和促销手段,增加客户的购买率。其次,对具有相似浏览行为的客户进行分组,提取组中客户的共同特征,从而实现客户的聚类,通过将同一类客户中的某些客户的历史浏览、购买数据推荐给其他客户,帮助电子商务平台的管理者更好地了解自己的客户,预测他们的购物需求。例如,在淘宝购物车中,有根据客户的最近浏览推荐类似产品的功能。最后,针对不同的客户在网页页面上提供个性化的服务,对网站页面进行优化并完善网站页面设计,将客户可能感兴趣的内容放在显眼的位置,吸引客户的目光,延长他们在网站上的驻留时间及提高再次访问的概率。此外,由于电子商务平台的数据较为集中,数据量足够大,数据种类较多,因此未来电商数据应用将有更多的想象空间,包括预测流行趋势、消费趋势、地域消费特点、客户消费习惯、各种消费行为的相关度、消费热点、影响消费的重要因素等。依托数据分析,电商的消费报告将有利于品牌公司产品设计、生产企业的库存管理和计划生产、物流企业的资源配置、生产资料提供方产能安排等,能实现社会精细化大生产,有利于精细化社会的出现。

3.数据挖掘在信息安全中的应用

在网络带给人们便利的同时,网络安全问题越来越突出。数据挖掘技术的兴起为入侵检测、安全审计、恶意代码/邮件检测等领域的研究工作提供了强有力的支持 [17,18]

(1)入侵检测。入侵检测实际上是一个分类问题,也就是将一个事件归为正常或者异常的问题。传统的入侵检测采用特征检测的方法,由安全专家预先定义出一系列特征模式来识别入侵。这种方法的缺陷是不能自适应地识别出新型攻击。基于数据挖掘的入侵检测利用数据挖掘中的分类、关联分析、序列模式挖掘等方法,对安全事件数据进行智能化的分析处理,通过提取数据本身存在的规律性,帮助系统生成入侵检测规则及建立异常检测模型,能最大限度地降低在处理安全审计数据时对先验知识的要求,及时发现攻击,并能使系统检测出之前从未出现过的攻击方法。

(2)安全审计。安全审计就是对有关操作系统、系统服务和应用、用户活动及网络行为所产生的一系列安全事件进行记录和分析的过程。安全审计系统通过综合运用数据挖掘技术中的关联、序列、分类、聚类等技术,可以实时审计分析局域网内的HF防火墙、IDS入侵检测系统、系统保护系统等安全产品产生的日志,能够实时或事后审计网络安全状态,为网络安全管理人员提供一种全面审计和检查当前系统运行状态的有效手段,使管理人员从中发现问题,从而采取一定的补救和惩罚措施。

(3)恶意代码和恶意邮件检测。在恶意代码研究中,最经典的是“特征码”检测技术,但是特征码检测技术的弱点是只能检测已知的恶意代码,对于新出现的恶意代码无能为力。利用数据挖掘技术,可以有效提高恶意代码检测的质量和效率,首先,收集大量恶意代码,形成恶意代码库,在大量的恶意代码中加入一些正常代码,将代码分为训练集和测试集。然后,利用各种算法对训练样本进行训练,使其能正确识别恶意代码和正常代码。最后,用测试集对其训练效果进行评估。经此处理后的恶意代码检测能取得较为理想的效果。

4.数据挖掘在银行业的应用

由于银行业中的数据相对比较完整,质量较高,因此数据挖掘在银行业中的应用相对比较成熟,也取得了较好的社会效益和经济效益 [19] 。运用数据挖掘技术,分析存款变化情况,预测存款增减的趋势,采取相应的组织存款战略,调整产业结构,加速资金周转,降低成本费用,提高信贷工作管理水平。

(1)优化客户服务。分析现有客户和潜在客户的相关需求、消费模式、发展机会、运行风险和成本,及时准确地制定应用措施,并细分客户,针对不同层次客户制定个性化的服务策略及产品优惠组合,不断维护和拓展客户群。同时,优化银行内部的资源配置,提高银行的运作效率,发现和把握更多的创收机遇,从而获得更大的经济效益。

(2)信贷风险评估。为避免和减少信用风险,银行在贷款决策前,应该分析客户的历史信贷记录,评价客户的还款能力和信誉度。数据挖掘技术能科学地强化对信贷客户的信用评估、风险度测定、贷款方式的选择和信贷风险权重的管理,从而有效地防范和控制贷款风险。同时,对不良贷款进行严密监控,增加信贷资金分析和分类的频率,提高信贷决策水平和市场应变能力。

(3)欺诈检测。采用孤立点分析和聚类分析,侦查异常的信用卡使用情况,确定异常的客户消费行为。根据历史统计数据,评定信贷分析客户的特征和背景,预防有可能造成风险损失的客户。通过建立信用欺诈模型,帮助银行发现具有潜在欺诈性的事件,开展欺诈侦查和其他金融犯罪的行为分析,预防和控制资金非法流失。

5.数据挖掘在医疗卫生领域的应用

医疗卫生领域存在着大量的数据 [20,21] ,包括大量关于患者的病史、诊断、检验和治疗的临床信息,以及药品管理信息、医院管理信息等。这些激增的数据背后隐藏着许多重要的信息,如何从浩瀚的数据海洋中挖掘出有用的信息,是目前急需解决的问题。这对卫生医疗机构及时准确预测疾病、医生进行正确的诊断和治疗,以及促进人类健康都具有积极作用。

1)疾病预测与预防

数据挖掘技术的运用为疾病预测与预防提供了全新、高效的预测工具,有效地控制了流感等传染性疾病的传播。Google通过对美国人每天利用搜索引擎检索的搜索词条进行数据挖掘,在处理了4.5亿个不同的数字模型后,基于其中45个检索词组合建立的数学模型准确预测了甲型H1N1流感。Google的预测与疾控中心监测到的数据相关性高达97%,且Google的判断比疾控中心更及时。百度通过大数据积累和智能分析,于2014年6月推出了一款疾病预测产品。目前,该产品提供流感、肝炎、肺结核和性病4种疾病的未来趋势预测,并对监测到的数据每周进行一次更新,为政府和有关疾控部门提供了疾病早期预警。

2)个性化健康预测

利用数据挖掘技术与方法,可将传统的健康数据与其他来源的个人数据联系起来,进行个性化健康预测。人的行为本身蕴藏了海量的健康信息,通过智能穿戴设备来记录、收集有关个人饮食、睡眠、血压、心率、心理、呼吸等数据,对其进行分析、处理后可以得出个人的身体健康状况,并实现对可能发生的疾病的预警。

3)数据挖掘在疾病诊断中的应用

正确的诊断对于指导患者的用药和康复是非常重要的。在临床中有些疾病错综复杂,数据挖掘的有关分类分析可以有助于疾病的诊断。主要技术有粗糙集理论、人工神经网络、模糊逻辑分析等。

4)数据挖掘在疾病相关因素分析中的应用

在病案信息库中有大量关于患者的病情和患者的个人信息,包括年龄、性别、居住地、职业、生活情况等。对数据库中的信息进行关联规则分析,可以发现有意义的关系及模式。某种疾病的预后相关因素分析可以用于指导临床治疗。 knRtYptxaO/Fy1o/nVcBRyM/xWhNBrBJPJC/T0GQ/4Jo29fcx+IK0cP+3EguCBMK

点击中间区域
呼出菜单
上一章
目录
下一章
×