数据挖掘关联规则.doc-淘文阁

资源描述

《数据挖掘关联规则.doc》由会员分享，可在线阅读，更多相关《数据挖掘关联规则.doc（9页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、一、数据挖掘中的关联规则是什么：所谓关联规则，是指数据对象之间的相互依赖关系，而发现规则的任务就是从数据库中发现那些确信度(Conk一dente)和支持度(Support)都大于给定值的强壮规则。从数据库中发现关联规则近几年研究最多。目前，已经从单一概念层次关联规则的发现发展到多个概念层次的关联规则的发现。在概念层次上的不断深人，使得发观的关联规则所提供的信息越来越具体，实际上这是个逐步深化所发现知识的过程。在许多实际应用中，能够得到的相关规则的数目可能是相当大的，而且，用户也并不是对所有的规则感兴趣，有些规则可能误导人们的决策，所以，在规则发现中常常引人”兴趣度”(指一则在一定数据域上为真的

2、知识被用户关注的程度)概念。而基于更高概念层次上的规则发现研究(如一般化抽象层次上的规则和多层次上的规则发现)则是当前研究的重点之一。二、关联规则数据挖掘中最经典的案例：关联规则数据挖掘中最经典的案例就是沃尔玛的啤酒和尿布的故事。沃尔玛拥有世界上最大的数据仓库系统，为了能够准确了解顾客在其门店的购买习惯，沃尔玛对其顾客的购物行为进行购物篮分析，想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上，沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是：“跟尿布一起购买最多的商品竟是啤酒！”经过大量实际调查和分析，揭示了一个

3、隐藏在“尿布与啤酒”背后的美国人的一种行为模式：在美国，一些年轻的父亲下班后经常要到超市去买婴儿尿布，而他们中有30%40%的人同时也为自己买一些啤酒。产生这一现象的原因是：美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布，而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。三、关联规则的一些定义与属性：考察一些涉及许多物品的事务：事务1 中出现了物品甲，事务2 中出现了物品乙，事务3 中则同时出现了物品甲和乙。那么，物品甲和乙在事务中的出现相互之间是否有规律可循呢？在数据库的知识发现中，关联规则就是描述这种在一个事务中物品之间同时出现的规律的知识模式。更确切的说，关联规则通过量化的数字描述物品甲的

4、出现对物品乙的出现有多大的影响。现实中，这样的例子很多。例如超级市场利用前端收款机收集存储了大量的售货数据，这些数据是一条条的购买事务记录，每条记录存储了事务处理时间，顾客购买的物品、物品的数量及金额等。这些数据中常常隐含形式如下的关联规则：在购买铁锤的顾客当中，有70 的人同时购买了铁钉。这些关联规则很有价值，商场管理人员可以根据这些关联规则更好地规划商场，如把铁锤和铁钉这样的商品摆放在一起，能够促进销售。有些数据不像售货数据那样很容易就能看出一个事务是许多物品的集合，但稍微转换一下思考角度，仍然可以像售货数据一样处理。比如人寿保险，一份保单就是一个事务。保险公司在接受保险前，往往需要记录

5、投保人详尽的信息，有时还要到医院做身体检查。保单上记录有投保人的年龄、性别、健康状况、工作单位、工作地址、工资水平等。这些投保人的个人信息就可以看作事务中的物品。通过分析这些数据，可以得到类似以下这样的关联规则：年龄在40 岁以上，工作在A 区的投保人当中，有45 的人曾经向保险公司索赔过。在这条规则中，“年龄在40 岁以上”是物品甲，“工作在A 区”是物品乙，“向保险公司索赔过”则是物品丙。可以看出来，A 区可能污染比较严重，环境比较差，导致工作在该区的人健康状况不好，索赔率也相对比较高。设R= I1,I2 .Im 是一组物品集，W 是一组事务集。W 中的每个事务T 是一组物品，T R。假

6、设有一个物品集A，一个事务T，如果A T，则称事务T 支持物品集A。关联规则是如下形式的一种蕴含：AB，其中A、B 是两组物品，A I，B I，且A B=。一般用四个参数来描述一个关联规则的属性： 1 可信度（Confidence）设W 中支持物品集A 的事务中，有c 的事务同时也支持物品集B，c 称为关联规则AB 的可信度。简单地说，可信度就是指在出现了物品集A 的事务T 中，物品集B 也同时出现的概率有多大。如上面所举的铁锤和铁钉的例子，该关联规则的可信度就回答了这样一个问题：如果一个顾客购买了铁锤，那么他也购买铁钉的可能性有多大呢？在上述例子中，购买铁锤的顾客中有70 的人购买了铁钉,

7、所以可信度是70 。 2 支持度(Support)设W 中有s 的事务同时支持物品集A 和B，s 称为关联规则AB 的支持度。支持度描述了A 和B 这两个物品集的并集C 在所有的事务中出现的概率有多大。如果某天共有1000 个顾客到商场购买物品，其中有100 个顾客同时购买了铁锤和铁钉，那么上述的关联规则的支持度就是10 。 3 期望可信度(Expected confidence)设W 中有e 的事务支持物品集B，e 称为关联规则AB 的期望可信度度。期望可信度描述了在没有任何条件影响时，物品集B 在所有事务中出现的概率有多大。如果某天共有1000 个顾客到商场购买物品，其中有200 个顾客购

8、买了铁钉，则上述的关联规则的期望可信度就是20 。 4 作用度(Lift) 作用度是可信度与期望可信度的比值。作用度描述物品集A 的出现对物品集B 的出现有多大的影响。因为物品集B 在所有事务中出现的概率是期望可信度；而物品集B 在有物品集A 出现的事务中出现的概率是可信度，通过可信度对期望可信度的比值反映了在加入“物品集A 出现”的这个条件后，物品集B 的出现概率发生了多大的变化。在上例中作用度就是70 /20 =3.5。可信度是对关联规则的准确度的衡量，支持度是对关联规则重要性的衡量。支持度说明了这条规则在所有事务中有多大的代表性，显然支持度越大，关联规则越重要。有些关联规则可信度虽然很

9、高，但支持度却很低，说明该关联规则实用的机会很小，因此也不重要。期望可信度描述了在没有物品集A 的作用下，物品集B 本身的支持度；作用度描述了物品集A 对物品集B 的影响力的大小。作用度越大，说明物品集B 受物品集A 的影响越大。一般情况，有用的关联规则的作用度都应该大于1，只有关联规则的可信度大于期望可信度，才说明A 的出现对B 的出现有促进作用，也说明了它们之间某种程度的相关性，如果作用度不大于1，则此关联规则也就没有意义了。四、在关联规则的挖掘中要注意以下几点：1、充分理解数据。2、目标明确。3、数据准备工作要做好。能否做好数据准备又取决于前两点。数据准备将直接影响到问题的复杂度及目标

10、的实现。4、选取恰当的最小支持度和最小可信度。这依赖于用户对目标的估计，如果取值过小，那么会发现大量无用的规则，不但影响执行效率、浪费系统资源，而且可能把目标埋没；如果取值过大，则又有可能找不到规则，与知识失之交臂。5、很好地理解关联规则。数据挖掘工具能够发现满足条件的关联规则，但它不能判定关联规则的实际意义。对关联规则的理解需要熟悉业务背景，丰富的业务经验对数据有足够的理解。在发现的关联规则中，可能有两个主观上认为没有多大关系的物品，它们的关联规则支持度和可信度却很高，需要根据业务知识、经验，从各个角度判断这是一个偶然现象或有其内在的合理性；反之，可能有主观上认为关系密切的物品，结果却显示它

11、们之间相关性不强。只有很好的理解关联规则，才能去其糟粕，取其精华，充分发挥关联规则的价值。五、关联规则的分类：按照不同情况，关联规则可以进行分类如下：1.基于规则中处理的变量的类别，关联规则可以分为布尔型和数值型。布尔型关联规则处理的值都是离散的、种类化的，它显示了这些变量之间的关系；而数值型关联规则可以和多维关联或多层关联规则结合起来，对数值型字段进行处理，将其进行动态的分割，或者直接对原始的数据进行处理，当然数值型关联规则中也可以包含种类变量。例如：性别=“女”=职业=“秘书” ，是布尔型关联规则；性别=“女”=avg（收入）=2300，涉及的收入是数值类型，所以是一个数值型关联规则。2.

12、基于规则中数据的抽象层次，可以分为单层关联规则和多层关联规则。在单层的关联规则中，所有的变量都没有考虑到现实的数据是具有多个不同的层次的；而在多层的关联规则中，对数据的多层性已经进行了充分的考虑。例如：IBM台式机=Sony打印机，是一个细节数据上的单层关联规则；台式机=Sony打印机，是一个较高层次和细节层次之间的多层关联规则。3.基于规则中涉及到的数据的维数，关联规则可以分为单维的和多维的。在单维的关联规则中，我们只涉及到数据的一个维，如用户购买的物品；而在多维的关联规则中，要处理的数据将会涉及多个维。换成另一句话，单维关联规则是处理单个属性中的一些关系；多维关联规则是处理各个属性之间的某

13、些关系。例如：啤酒=尿布，这条规则只涉及到用户的购买的物品；性别=“女”=职业=“秘书”，这条规则就涉及到两个字段的信息，是两个维上的一条关联规则。六、关联规则挖掘的相关算法1.Apriori算法：使用候选项集找频繁项集Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。该算法的基本思想是：首先找出所有的频集，这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度。然后使用第

14、1步找到的频集产生期望的规则，产生只包含集合的项的所有规则，其中每一条规则的右部只有一项，这里采用的是中规则的定义。一旦这些规则被生成，那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集，使用了递推的方法。可能产生大量的候选集,以及可能需要重复扫描数据库，是Apriori算法的两大缺点。2.FP-树频集算法针对Apriori算法的固有缺陷，J. Han等提出了不产生候选挖掘频繁项集的方法：FP-树频集算法。采用分而治之的策略，在经过第一遍扫描之后，把数据库中的频集压缩进一棵频繁模式树（FP-tree），同时依然保留其中的关联信息，随后再将FP-tree分化成一些条件库，每个

15、库和一个长度为1的频集相关，然后再对这些条件库分别进行挖掘。当原始数据量很大的时候，也可以结合划分的方法,使得一个FP-tree可以放入主存中。实验表明，FP-growth对不同长度的规则都有很好的适应性，同时在效率上较之Apriori算法有巨大的提高。3.基于划分的算法Savasere等设计了一个基于划分的算法。这个算法先把数据库从逻辑上分成几个互不相交的块，每次单独考虑一个分块并对它生成所有的频集，然后把产生的频集合并，用来生成所有可能的频集，最后计算这些项集的支持度。这里分块的大小选择要使得每个分块可以被放入主存，每个阶段只需被扫描一次。而算法的正确性是由每一个可能的频集至少在某一个分块

16、中是频集保证的。该算法是可以高度并行的，可以把每一分块分别分配给某一个处理器生成频集。产生频集的每一个循环结束后，处理器之间进行通信来产生全局的候选k-项集。通常这里的通信过程是算法执行时间的主要瓶颈；而另一方面，每个独立的处理器生成频集的时间也是一个瓶颈。七、关联规则发掘技术的应用就目前而言，关联规则挖掘技术已经被广泛应用在西方金融行业企业中，它可以成功预测银行客户需求。一旦获得了这些信息，银行就可以改善自身营销。现在银行天天都在开发新的沟通客户的方法。各银行在自己的ATM机上就捆绑了顾客可能感兴趣的本行产品信息，供使用本行ATM机的用户了解。如果数据库中显示，某个高信用限额的客户更换了地址，这个客户很有可能新近购买了一栋更大的住宅，因此会有可能需要更高信用限额，更高端的新信用卡，或者需要一个住房改善贷款，这些产品都可以通过信用卡账单邮寄给客户。当客户打电话咨询的时候，数据库可以有力地帮助电话销售代表。销售代表的电脑屏幕上可以显示出客户的特点，同时也可以显示出顾客会对什么产品感兴趣。同时，一些知名的电子商务站点也从强大的关联规则挖掘中的受益。这些电子购物网站使用关联规则中规则进行挖掘，然后设置用户有意要一起购买的捆绑包。也有一些购物网站使用它们设置相应的交叉销售，也就是购买某种商品的顾客会看到相关的另外一种商品的广告。

展开阅读全文