数据挖掘技术最初就是面向应用的,尤其是在电信、金融、保险、交通、零售(如超市)、生物医学、地震预测、工业产品设计等领域。例如:加拿大 Simon Fraser 大学研究组根据加拿大 BC 省电信公司拥有的十多年的客户数据,总结、分析并提出新的电话收费和管理办法,制定既有利于公司又有利于客户的优惠政策。美国著名的国家篮球队 NBA 的教练,利用 IBM 公司提供的数据挖掘工具 Advanced Scout 临场决定替换队员。数据挖掘能解决的典型商业问题有:客户关系管理、数据库营销、客户群体细分、交叉销售等市场分析行为,以及客户流失性分析、客户信用记分及欺诈发现等。下面列举几个经典的数据挖掘应用场景。
随着4G 时代的到来,电信业发展面临着前所未有的机遇和挑战,客户服务的质量是关系到电信运营商发展的主要因素 [19] 。数据挖掘广泛应用于国内电信行业中,对企业日常经营数据进行数据分析与挖掘,从海量数据中寻找数据相互之间的关系或模式。挖掘内容包括客户细分、消费层次变动、客户流失分析、业务预测、客户生命周期价值分析等,为公司决策者提供可靠的决策依据。①客户细分。客户细分就是将客户划分为不同的群体,采用数据挖掘中的聚类和分类算法对数据集进行划分,使划分出来的每个群体都具有自己的特征,从而使企业可以根据客户群体的不同特征为客户提供差异化和个性化的服务。通过对目标客户群体和客户实际需求等方面的深入理解,企业可以制定适宜的营销策略、广告策略、促销策略等来实现公司更好的客户服务,增加企业的语音业务和各项增值业务的收入。例如,中国移动针对不同客户群体推出全球通、神州行和动感地带三大客户品牌。全球通的资费标准最高,主要针对高端用户,如经常出差的商务人士;神州行适合低端预付费用户;动感地带适合年轻群体,在短信包月方面有很大优势,同时还提供多种迎合年轻人喜好的定制服务。②客户流失分析。客户流失分析是一种预测流失客户的重要技术,它通过预测可能流失的客户,帮助公司针对这些客户制定一些挽留策略,如降价或提供特殊服务以吸引客户留下。决策树是最常用的一种分类预测方法,建立实用模型预测现有哪些客户具有流失倾向。③产品交叉和提升销售。产品交叉和提升销售是电信企业推广新产品和服务的有效途径,主要采用数据挖掘中的频繁模式挖掘方法。交叉销售是根据顾客早先的购买信息,发现顾客的多种潜在需求,并推荐销售多种相关的产品或服务。提升销售是指销售人员通过对客户需求的深度挖掘和对客户工作环境的深度理解,向客户推荐价值更高的产品,从而更好地满足客户的需求,以求达到双赢的目的。
电子商务,是指在互联网上进行的商务活动,不仅包括通过 Internet 买卖产品和提供服务,还包括企业内部和企业间的商务活动,把买家、卖家、厂家和合作伙伴在互联网上利用 Internet 技术和现有的系统结合起来开展的业务 [20,21] 。国内有名的电子商务平台有淘宝、京东、苏宁易购等。电子商务平台管理者主要关注的信息是用户对商品的关注点,用户购物的偏好,以及用户的购买能力等。对电子商务而言,首要任务是挖掘出潜在客户。服务器日志完整记录用户的历史访问痕迹,通过数据挖掘技术,电子商务平台的管理者能获取用户的偏好和潜在的需求,从而向用户推荐其有兴趣的、可能购买的商品,并推出相应的优惠政策和促销手段,增加用户的购买率。其次,对具有相似浏览行为的客户进行分组,提取组中客户的共同特征,从而实现客户的聚类,通过将同一类用户中某些用户的历史浏览、购买数据推荐给其他用户,帮助电子商务的管理者更好地了解自己的客户,预测他们的购物需求。例如,在淘宝的购物车中,有根据客户的最近浏览推荐类似产品的功能。最后,针对不同的客户在网页页面上提供个性化的服务,对网站页面进行优化并完善网站页面设计,将用户可能感兴趣的内容放在显眼的位置,吸引客户的目光,延长他们在网站上的驻留时间以及提高再次访问的概率。此外,由于电子商务平台的数据较为集中,数据量足够大,数据种类较多,因此未来电商数据应用将会有更多的想象空间,包括预测流行趋势、消费趋势、地域消费特点、客户消费习惯、各种消费行为的相关度、消费热点、影响消费的重要因素等。依托数据分析,电商的消费报告将有利于品牌公司的产品设计,生产企业的库存管理和计划生产,物流企业的资源配置,生产资料提供方产能安排等,能实现社会精细化大生产,有利于精细化社会的出现。
网络带给人们便利的同时,网络安全问题越来越突出。数据挖掘技术的兴起对入侵检测、网络安全审计、恶意代码/邮件检测等领域的研究工作提供了强有力的支持 [22,23] 。①入侵检测。入侵检测实际上是一个分类问题,也就是将一个事件归为正常或者异常的问题。传统的入侵检测采用特征检测的方法,由安全专家预先定义出一系列特征模式来识别入侵。这种方法的缺陷是不能自适应地识别出新型攻击。基于数据挖掘的入侵检测利用数据挖掘中的分类、关联分析、序列模式挖掘等方法,对安全事件数据进行智能化的分析处理,通过提取数据本身存在的规律性,帮助系统生产入侵检测规则及建立异常检测模型,能最大限度地降低在处理安全审计数据时对先验知识的要求,及时发现攻击,并能使系统检测出之前从未出现过的攻击方法。②安全审计。安全审计就是对有关操作系统、系统服务和应用、用户活动以及网络行为所产生的一系列安全事件进行记录和分析的过程。安全审计系统中通过综合运用数据挖掘技术中的关联、序列、分类、聚类等技术,可以实时审计分析局域网内的 HF 防火墙、IDS 入侵检测系统、系统保护系统等安全产品产生的日志,能够实时或事后审计网络安全状态,为网络安全管理人员提供一种全面审计和检查当前系统运行状态的有效手段,管理人员从中发现问题,从而采取一定的补救和惩罚措施。③恶意代码和恶意邮件检测。在恶意代码研究中,最经典的是“特征码”检测技术,但是特征码检测技术的弱点是只能检测已知的恶意代码,对于新出现的恶意代码无能为力。利用数据挖掘技术,可以有效提高恶意代码检测的质量和效率,首先搜集大量的恶意代码,形成恶意代码库,在大量的恶意代码中加入一些正常代码,将代码分成训练集和测试集。然后,利用各种算法对训练样本进行训练,使其能正确识别出恶意代码和正常代码。最后,用测试集对其训练效果进行评估。经此处理后的恶意代码检测能取得较为理想的效果。
由于银行业中的数据相对比较完整,质量较高,因此数据挖掘在银行业中的应用相对比较成熟,也取得较好的社会效益和经济效益 [24] 。运用数据挖掘技术,分析存款变化情况,预测存款增减的趋势,采取相应的组织存款战略,调整产业结构,加速资金周转,降低成本费用,提高信贷工作管理水平。①优化客户服务。分析现有客户和潜在客户的相关需求、消费模式、发展机会、运行风险和成本,及时准确地制定应用措施,并细分客户,针对不同层次客户制订个性化的服务策略及产品优惠组合,不断维护和拓展客户群。同时,优化银行内部的资源配置,提高银行的运作效率,发现和把握更多的创收机遇,从而获得更大的经济效益。②信贷风险评估。为避免和减少信用风险,银行在贷款决策前,应该分析客户的历史信贷记录,评价客户的还款能力和信誉度。数据挖掘技术能科学地强化对信贷客户的信用评估、风险度测定、贷款方式的选择和信贷风险权重的管理,有效地防范和控制贷款风险。同时对不良贷款严密监控,加大信贷资金分析和分类的频率,提高信贷决策水平和市场应变能力。③欺诈检测。采用孤立点分析和聚类分析,用于侦察异常的信用卡使用情况,确定异常的客户消费行为。根据历史统计数据,评定信贷分析客户的特征和背景,预防有可能造成风险损失的客户。通过建立信用欺诈模型,帮助银行发现具有潜在欺诈性的事件,开展欺诈侦查和其他金融犯罪的行为分析,预防和控制资金非法流失。