数据挖掘(Data Mining)技术是一种把大量数据中的隐含信息转换成对人们有用的信息和知识的技术。它不但可以帮助人们从数据库,特别是数据仓库的大量数据中提取出人们感兴趣的知识、规律,甚至更高层次的信息,而且也可以帮助人们从不同角度去分析它们,更有效地利用海量数据中存在的价值。
关联规则挖掘(Association Rules Mining)是数据挖掘的重要研究方向。关联规则可直观地表达数据中项集(变量的各种取值)间的联系,这种联系并不基于特定分布,而是由各项集在数据中的概率反映。
在实际应用中,随着各行业的迅猛发展,大量的数据需要分析处理,仅靠手工是无法实施的。而用户需要的、对决策层有潜在价值的信息,通常隐藏在海量无序的数据之中。关联规则挖掘不同于传统的统计学方法,其优势在于结果明确、容易解释。当变量比较复杂,变量取值分布不定并难于转换,或各变量不能满足传统统计学方法的要求时,通过关联规则挖掘可以从大量的、不完全的、有噪声的、模糊的、随机的数据中提取事先不知道、隐含于变量取值中的具有潜在价值的信息和知识,从而有助于我们把握和预测行业发展规律。
Jiawei Han等(1999) 指出关联规则挖掘是为了在数据库中发现大量数据项集之间有趣的关联或相关联系。Olivia(2003) 指出关联规则方法可用于发现隐藏在大型数据中令人感兴趣的联系,并可用关联规则或频繁项集表示。
关于关联规则数据挖掘方法的优化,1993年,Agrawal等 人首先提出了关联规则概念,同时给出了相应的挖掘方法,但是性能不高。需反复扫描全部数据,并产生大量的候选项集,需要较大存储空间,面对数据项超过60以上的数据库,普通计算机处理是很困难的。1994年,他们建立了项目集格空间理论。国内外许多研究人员对此进行了大量的研究与优化。Wong(2000)等 提出了基于对数据集划分的挖掘算法。饶正婵(2012) 指出韩嘉炜等人在2000年提出的关联分析算法(FP-Growth)只需扫描数据库两次就生成频繁候选项目集,但如果开始项集的数量很多,则需构造数量旁大的条件频繁模式树(FP-Tree),其耗时多,占用存储空间大。丁一新(2010) 总结了Mannila基于采样的方法,Lin和Dunham反扭曲算法,Brin等如何减少数据库扫描发现频繁项等。Shenoy等(2000) 提出的VIPER(Vertical Itemset Partitioning for EfficientRule-extraction)算法对数据库中的数据采用了纵向表示法,具有较好的效率。王天志(2005) 谈到了关联规则挖掘研究集中在Apriori算法的改进、优化及其应用等方面。
H.Mnanila等(1994) 基于前一遍扫描结果进行组合分析,改进算法,即在计算包含 k 个项集( k -项集)时,对某个( k +1)项集候选频集并行计算其支持度,该算法所需的总扫描次数通常少于最大频集的项数。秦丽君和罗雄飞(1994) 的动态项集计数,动态地评估已被计数的所有项集,不像Apriori算法仅在每次扫描完整个数据库之前确定新的候选,它可在任何时间点添加,如果某个项集的所有子集被确定为频繁的,就可计算该项集支持度,算法所需的数据库扫描次数减少了。
AnaMaría Palacios等(2015) 提出了FARLAT-LQD算法,算法先进行基于三元组语义表示模型的隶属度函数的遗传学习,以减少搜索空间,然后根据上下文最充分学习每个模糊划分,使模糊支持度和解释性措施最大化以便保存所得到的隶属函数的语义解释。Dang Nguyen等(2015) 为了尽可能地消除冗余或不重要的规则,用关联分类算法创建分类器,从数据集获得一套完整的类关联规则,提出了一种新的方法,挖掘相关的类关联规则集,设计了用于存储数据集的频繁项集的树结构。LoanT.T.Nguyen等(2015) 根据汽车矿工的有效挖掘类关联规则算法需要大量的时间来计算两个包含项集的对象标识符集Obidsets(sets of object identifiers that contain itemsets)的不足,提出了改进的类关联规则挖掘算法,有效节约存储空间和提高运行效率。Jayakrushna Sahoo等(2015) 根据传统的关联规则挖掘没有反映项集的语义措施不足,提出了具有最小先导和最大后继的关联规则压缩表示,算法产生以实用程序为基础的非冗余关联规则和重建所有关联规则的方法。
关联规则挖掘无需前提假设的优势,使其在产业分析、科学研究、金融经济、生物医学等领域得到广泛的应用,Abhishek Verma等(2014) 从843件印度钢铁厂事故中用关联规则挖掘的方法来发现原因和影响模式,得到了305个有意义的关联规则。XueCunjin等(2015) 提出了一种基于互信息的定量关联规则挖掘算法(MIQarma),研究了从大规模海洋异常现象获取的长时间序列遥感图像数据。武治国(2013) 选取某大型保险公司省级公司近8年车险数据进行挖掘,对出险日期、赔付率等影响车辆保险的21个风险属性进行关联规则挖掘,得出如下结论:贷款购买的车辆其盗抢险的发生率很低,某些车型在4S店中卖出后的赔付率比其他渠道要高等。
赵洪英等(2011) 使用Apriori算法发现了害虫数量和生存环境条件之间的关联关系,实证分析了水稻二化螟害虫根据环境变化的规律。关鹏等(2007) 利用Apriori算法进行关联规则挖掘,发现了甲型肝炎发病与气象数据季节、气温、气压、降水量、蒸发量等影响因素之间的关联关系。Giuseppe Agapito等(2015) 提出了基于关联规则挖掘的DMET数据的新方法,通过分析患者样本,发现了关联的等位基因变异组。王晓宇(2009) 从某市疾病控制中心提取100个案例,从年龄、性别、家庭状况、受伤程度、受伤原因、责任承担人6个方面进行关联规则挖掘。
在学校管理方面,郭鹏、蔡骋等(2019) 以2008—2014级某高校本科生课程成绩为研究对象,提出了一种基于改进K-means和引入兴趣度的Apriori算法的学生课程成绩分析方法,采用改进的K-means算法对成绩信息进行离散化处理,用引入兴趣度的Apriori算法进行挖掘并根据得到的课程之间的关联规则绘制课程关系网络图,对课程间的关联关系、衔接关系以及课程的重要程度进行分析,发现用本方法进行挖掘能够减少大量没有意义的规则,提高了挖掘结果的准确性。沈慧娟、曹晓丽等(2020) 从数据挖掘的意义及关联规则算法演变入手,利用Apriori算法对电大系统1369位学生关于网上教学满意度的调研数据进行挖掘分析,经历了数据扫描、计数、比较、剪枝、连接等一系列操作,找出了数据间的强关联规则,并由此推出数据关系,为改进网上教学提供了很好的参考依据。