数据挖掘技术从诞生开始就是面向应用的,尤其是在电信、金融、保险、交通、零售(如超市)、生物医学、地震预测、工业产品设计等领域。例如,加拿大西蒙弗雷泽大学研究组根据加拿大BC电信公司拥有的十多年的客户数据,总结、分析并提出新的电话收费和管理办法,制定了既有利于公司又有利于客户的优惠政策;美国著名的NBA教练利用IBM公司提供的数据挖掘工具Advanced Scout临场决定替换队员。数据挖掘能解决的典型商业问题包括客户关系管理、数据库营销、客户群体细分、交叉销售等市场分析行为,以及客户流失性分析、客户信用记分及欺诈发现等。下面列举几个经典的数据挖掘应用场景。
1.数据挖掘在电信业中的应用
随着5G时代的到来,电信业发展面临前所未有的机遇和挑战,客户服务的质量是关系电信运营商发展的主要因素 [14] 。数据挖掘广泛应用于国内电信行业中,对企业日常经营数据进行数据分析与挖掘,从海量数据中寻找数据之间的关系或模式。挖掘内容包括客户细分、消费层次变动、客户流失分析、业务预测、客户生命周期价值分析等,为公司决策者提供可靠的决策依据。
(1)客户细分。客户细分就是将客户划分为不同的群体,采用数据挖掘中的聚类和分类算法对数据集进行划分,使划分出来的每个群体都具有自己的特征,从而使企业可以根据客户群体的不同特征为客户提供差异化和个性化的服务。通过对目标客户群体和客户实际需求等方面的深入理解,企业可以制定适宜的营销策略、广告策略、促销策略等来更好地服务客户,增加企业的语音业务和各项增值业务的收入。例如,中国移动针对不同客户群体推出全球通、神州行和动感地带三大客户品牌。全球通的资费标准最高,主要针对高端客户,如经常出差的商务人士;神州行适合低端预付费客户;动感地带适合年轻群体,在短信包月方面有很大优势,同时还提供多种迎合年轻人喜好的定制服务。
(2)客户流失分析。客户流失分析是一种预测流失客户的重要技术,它通过预测可能流失的客户,帮助公司针对这些客户制定一些挽留策略,如降价或提供特殊服务以吸引客户留下。决策树是常用的一种分类预测方法,建立实用模型预测现有哪些客户具有流失倾向。
(3)产品交叉和提升销售。产品交叉和提升销售是电信企业推广新产品和服务的有效途径,主要采用数据挖掘中的频繁模式挖掘方法。交叉销售是指根据客户早先的购买信息,发现客户的多种潜在需求,并推荐销售多种相关的产品或服务。提升销售是指销售人员通过对客户需求的深度挖掘和对客户工作环境的深度理解,向客户推荐价值更高的产品,从而更好地满足客户的需求,以求达到双赢的目的。
2.数据挖掘在电子商务中的应用
电子商务是指在互联网上进行的商务活动,不仅包括通过互联网买卖产品和提供服务,还包括企业内部和企业间的商务活动,把买家、卖家、厂家和合作伙伴在互联网上利用互联网技术和现有的系统结合起来开展的业务 [15,16] 。国内有名的电子商务平台有淘宝、京东、苏宁易购等。电子商务平台的管理者主要关注的信息是客户对商品的关注点、客户购物的偏好,以及客户的购买能力等。对电子商务而言,首先,挖掘出潜在客户。服务器日志完整记录客户的历史访问痕迹,通过数据挖掘技术,电子商务平台的管理者能获取客户的偏好和潜在的需求,从而向客户推荐其有兴趣的、可能购买的商品,并推出相应的优惠政策和促销手段,增加客户的购买率。其次,对具有相似浏览行为的客户进行分组,提取组中客户的共同特征,从而实现客户的聚类,通过将同一类客户中的某些客户的历史浏览、购买数据推荐给其他客户,帮助电子商务平台的管理者更好地了解自己的客户,预测他们的购物需求。例如,在淘宝购物车中,有根据客户的最近浏览推荐类似产品的功能。最后,针对不同的客户在网页页面上提供个性化的服务,对网站页面进行优化并完善网站页面设计,将客户可能感兴趣的内容放在显眼的位置,吸引客户的目光,延长他们在网站上的驻留时间及提高再次访问的概率。此外,由于电子商务平台的数据较为集中,数据量足够大,数据种类较多,因此未来电商数据应用将有更多的想象空间,包括预测流行趋势、消费趋势、地域消费特点、客户消费习惯、各种消费行为的相关度、消费热点、影响消费的重要因素等。依托数据分析,电商的消费报告将有利于品牌公司产品设计、生产企业的库存管理和计划生产、物流企业的资源配置、生产资料提供方产能安排等,能实现社会精细化大生产,有利于精细化社会的出现。
3.数据挖掘在信息安全中的应用
在网络带给人们便利的同时,网络安全问题越来越突出。数据挖掘技术的兴起为入侵检测、安全审计、恶意代码/邮件检测等领域的研究工作提供了强有力的支持 [17,18] 。
(1)入侵检测。入侵检测实际上是一个分类问题,也就是将一个事件归为正常或者异常的问题。传统的入侵检测采用特征检测的方法,由安全专家预先定义出一系列特征模式来识别入侵。这种方法的缺陷是不能自适应地识别出新型攻击。基于数据挖掘的入侵检测利用数据挖掘中的分类、关联分析、序列模式挖掘等方法,对安全事件数据进行智能化的分析处理,通过提取数据本身存在的规律性,帮助系统生成入侵检测规则及建立异常检测模型,能最大限度地降低在处理安全审计数据时对先验知识的要求,及时发现攻击,并能使系统检测出之前从未出现过的攻击方法。
(2)安全审计。安全审计就是对有关操作系统、系统服务和应用、用户活动及网络行为所产生的一系列安全事件进行记录和分析的过程。安全审计系统通过综合运用数据挖掘技术中的关联、序列、分类、聚类等技术,可以实时审计分析局域网内的HF防火墙、IDS入侵检测系统、系统保护系统等安全产品产生的日志,能够实时或事后审计网络安全状态,为网络安全管理人员提供一种全面审计和检查当前系统运行状态的有效手段,使管理人员从中发现问题,从而采取一定的补救和惩罚措施。
(3)恶意代码和恶意邮件检测。在恶意代码研究中,最经典的是“特征码”检测技术,但是特征码检测技术的弱点是只能检测已知的恶意代码,对于新出现的恶意代码无能为力。利用数据挖掘技术,可以有效提高恶意代码检测的质量和效率,首先,收集大量恶意代码,形成恶意代码库,在大量的恶意代码中加入一些正常代码,将代码分为训练集和测试集。然后,利用各种算法对训练样本进行训练,使其能正确识别恶意代码和正常代码。最后,用测试集对其训练效果进行评估。经此处理后的恶意代码检测能取得较为理想的效果。
4.数据挖掘在银行业的应用
由于银行业中的数据相对比较完整,质量较高,因此数据挖掘在银行业中的应用相对比较成熟,也取得了较好的社会效益和经济效益 [19] 。运用数据挖掘技术,分析存款变化情况,预测存款增减的趋势,采取相应的组织存款战略,调整产业结构,加速资金周转,降低成本费用,提高信贷工作管理水平。
(1)优化客户服务。分析现有客户和潜在客户的相关需求、消费模式、发展机会、运行风险和成本,及时准确地制定应用措施,并细分客户,针对不同层次客户制定个性化的服务策略及产品优惠组合,不断维护和拓展客户群。同时,优化银行内部的资源配置,提高银行的运作效率,发现和把握更多的创收机遇,从而获得更大的经济效益。
(2)信贷风险评估。为避免和减少信用风险,银行在贷款决策前,应该分析客户的历史信贷记录,评价客户的还款能力和信誉度。数据挖掘技术能科学地强化对信贷客户的信用评估、风险度测定、贷款方式的选择和信贷风险权重的管理,从而有效地防范和控制贷款风险。同时,对不良贷款进行严密监控,增加信贷资金分析和分类的频率,提高信贷决策水平和市场应变能力。
(3)欺诈检测。采用孤立点分析和聚类分析,侦查异常的信用卡使用情况,确定异常的客户消费行为。根据历史统计数据,评定信贷分析客户的特征和背景,预防有可能造成风险损失的客户。通过建立信用欺诈模型,帮助银行发现具有潜在欺诈性的事件,开展欺诈侦查和其他金融犯罪的行为分析,预防和控制资金非法流失。
5.数据挖掘在医疗卫生领域的应用
医疗卫生领域存在着大量的数据 [20,21] ,包括大量关于患者的病史、诊断、检验和治疗的临床信息,以及药品管理信息、医院管理信息等。这些激增的数据背后隐藏着许多重要的信息,如何从浩瀚的数据海洋中挖掘出有用的信息,是目前急需解决的问题。这对卫生医疗机构及时准确预测疾病、医生进行正确的诊断和治疗,以及促进人类健康都具有积极作用。
1)疾病预测与预防
数据挖掘技术的运用为疾病预测与预防提供了全新、高效的预测工具,有效地控制了流感等传染性疾病的传播。Google通过对美国人每天利用搜索引擎检索的搜索词条进行数据挖掘,在处理了4.5亿个不同的数字模型后,基于其中45个检索词组合建立的数学模型准确预测了甲型H1N1流感。Google的预测与疾控中心监测到的数据相关性高达97%,且Google的判断比疾控中心更及时。百度通过大数据积累和智能分析,于2014年6月推出了一款疾病预测产品。目前,该产品提供流感、肝炎、肺结核和性病4种疾病的未来趋势预测,并对监测到的数据每周进行一次更新,为政府和有关疾控部门提供了疾病早期预警。
2)个性化健康预测
利用数据挖掘技术与方法,可将传统的健康数据与其他来源的个人数据联系起来,进行个性化健康预测。人的行为本身蕴藏了海量的健康信息,通过智能穿戴设备来记录、收集有关个人饮食、睡眠、血压、心率、心理、呼吸等数据,对其进行分析、处理后可以得出个人的身体健康状况,并实现对可能发生的疾病的预警。
3)数据挖掘在疾病诊断中的应用
正确的诊断对于指导患者的用药和康复是非常重要的。在临床中有些疾病错综复杂,数据挖掘的有关分类分析可以有助于疾病的诊断。主要技术有粗糙集理论、人工神经网络、模糊逻辑分析等。
4)数据挖掘在疾病相关因素分析中的应用
在病案信息库中有大量关于患者的病情和患者的个人信息,包括年龄、性别、居住地、职业、生活情况等。对数据库中的信息进行关联规则分析,可以发现有意义的关系及模式。某种疾病的预后相关因素分析可以用于指导临床治疗。