《数据挖掘关联规则.docx》由会员分享,可在线阅读,更多相关《数据挖掘关联规则.docx(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、、数据挖掘中的关联规则是什么:所谓关联规则,是指数据对象之间的相互依赖关系,而发现规则 的任务就是从数据库中发现那些确信度一 和支持度都大于给定值的强壮规则。从数据库中发现关联规则近几 年研究最多。目前,已经从单一概念层次关联规则的发现发展到多个 概念层次的关联规则的发现。在概念层次上的不断深入,使得发观的 关联规则所提供的信息越来越具体,实际上这是个逐步深化所发现知 识的过程。在许多实际应用中,能够得到的相关规则的数目可能是相 当大的,而且,用户也并非对所有的规则感兴趣,有些规则可能误 导人们的决策,所以,在规则发现中往往引人”兴趣度”指一则在 一定数据域上为真的知识被用户关注的程度 概念。
2、而基于更高概念 层次上的规则发现研究如普通化抽象层次上的规则和多层次上的规 则发现则是当前研究的重点之一。二、关联规则数据挖掘中最经典的案例:关联规则数据挖掘中最经典的案例就是沃尔玛的啤酒和尿布的 故事。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾 客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分 析,想知道顾客时常一起购买的商品有哪些。沃尔玛数据仓库里集中 了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃 尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现 是:“跟尿布一起购买最多的商品竟是啤酒! ”经过大量实际调查和分 析,揭示了一个隐藏在“尿布与
3、啤酒”暗地里的美国人的一种行为模式 在美国,一些年轻的父亲下班后时常要到超市去买婴儿尿布,而他们 中有 的人同时也为自己买一些啤酒。产生这一现象的原因 是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们 在买尿布后又随手带回了他们喜欢的啤酒。三、关联规则的一些定义与属性:考察一些涉及许多物品的事务:事务中浮现了物品甲,事务中浮现了物品乙,事务 中则同时浮现了物品甲和乙。那末,物品 甲和乙在事务中的浮现相互之间是否有规律可循呢?在数据库的知 识发现中,关联规则就是描述这种在一个事务中物品之间同时浮现的 规律的知识模式。更切当的说,关联规则通过量化的数字描述物品甲 的浮现对物品乙的浮现有
4、多大的影响。现实中,这样的例子不少。例如超级市场利用前端收款机采集存 储了大量的售货数据,这些数据是一条条的购买事务记录,每条记录 存储了事务处理时间,顾客购买的物品、物品的数量及金额等。这些 数据中往往隐含形式如下的关联规则:在购买铁锤的顾客之中,有%的人同时购买了铁钉。这些关联规则很有价值,商场管理人员 可以根据这些关联规则更好地规划商场,如把铁锤和铁钉这样的商品 摆放在一起,能够促进销售。有些数据不像售货数据那样很容易就能看出一个事务是许多物 品的集合,但稍微转换一下思量角度,仍然可以像售货数据一样处理。 比如人寿保险,一份保单就是一个事务。保险公司在接受保险前,往 往需要记录投保人详尽
5、的信息,有时还要到医院做身体检查。保单上 记录有投保人的年龄、性别、健康状况、工作单位、工作地址、工资 水平等。这些投保人的个人信息就可以看做事务中的物品。通过分析 这些数据,可以得到类似以下这样的关联规则:年龄在 岁以上, 工作在区的投保人之中,有 的人曾经向保险公司索赔过。在 这条规则中,“年龄在 岁以上”是物品甲,“工作在 区”是物品 乙,“向保险公司索赔过”则是物品丙。可以看出来, 区可能污染 比较严重,环境比较差,导致工作在该区的人健康状况不好,索赔率 也相对照较高。设是一组物品集, 是一组事务集。 中的每一个事务 是一组物品,。假设有一个物品集,一个事务,如果 ,则称事务 支持物品
6、集。关联规则是如下形式的 一种蕴含:,其中、是两组物品, ,且 no普通用四个参数来描述一个关联规则的属性:.可信度()设 中支持物品集 的事务中,有 的事务同时也支持物品集,%称为关联规则T 的可信度。简单地说,可信度就是指在浮现 了物品集 的事务 中,物品集 也同时浮现的概率有多大。如上 面所举的铁锤和铁钉的例子,该关联规则的可信度就回答了这样一个 问题:如果一个顾客购买了铁锤,那末他也购买铁钉的可能性有多大 呢?在上述例子中,购买铁锤的顾客中有 的人购买了铁钉所 以可信度是 。设 中有的事务同时支持物品集 和,称为关联规则T 的支持度。支持度描述了 和这两个物品集的并集在 所有的事务中浮
7、现的概率有多大。如果某天共有 个顾客到商场 购买物品,其中有 个顾客同时购买了铁锤和铁钉,那末上述的 关联规则的支持度就是 。.期望可信度设中有的事务支持物品集, %称为关联规则 T 的期望 可信度度。期望可信度描述了在没有任何条件影响时,物品集 在 所有事务中浮现的概率有多大。如果某天共有 个顾客到商场购 买物品,其中有 个顾客购买了铁钉,则上述的关联规则的期望 可信度就是 。.作用度作用度是可信度与期望可信度的比值。作用度描述物品集 的 浮现对物品集的浮现有多大的影响。因为物品集在所有事务中 浮现的概率是期望可信度;而物品集在有物品集浮现的事务中 浮现的概率是可信度,通过可信度对期望可信度
8、的比值反映了在加入 “物品集 浮现”的这个条件后,物品集 的浮现概率发生了多大 的变化。在上例中作用度就是 % O可信度是对关联规则的准确度的衡量,支持度是对关联规则重 要性的衡量。支持度说明了这条规则在所有事务中有多大的代表性, 显然支持度越大,关联规则越重要。有些关联规则可信度虽然很高, 但支持度却很低,说明该关联规则实用的机会很小,因此也不重要。期望可信度描述了在没有物品集 的作用下,物品集 本身的 支持度;作用度描述了物品集 对物品集 的影响力的大小。作用 度越大,说明物品集 受物品集 的影响越大。普通情况,实用的 关联规则的作用度都应该大于,惟独关联规则的可信度大于期望可 信度,才说
9、明 的浮现对 的浮现有促进作用,也说明了它们之间 某种程度的相关性,如果作用度不大于,则此关联规则也就没故意 义了。四、在关联规则的挖掘中要注意以下几点:、充分理解数据。、目标明确。、数据准备工作要做好。能否做好数据准备又取决于前两点。 数据准备将直接影响到问题的复杂度及目标的实现。、选取恰当的最小支持度和最小可信度。这依赖于用户对目标 的估计,如果取值过小,那末会发现大量无用的规则,非但影响执行 效率、浪费系统资源,而且可能把目标埋没;如果取值过大,则又有 可能找不到规则,与知识失之交臂。、很好地理解关联规则。数据挖掘工具能够发现满足条件的关 联规则,但它不能判定关联规则的实际意义。对关联规
10、则的理解需要 熟悉业务背景,丰富的业务经验对数据有足够的理解。在发现的关联 规则中,可能有两个主观上认为没有多大关系的物品,它们的关联规 则支持度和可信度却很高,需要根据业务知识、经验,从各个角度判 断这是一个偶然现象或者有其内在的合理性;反之,可能有主观上认 为 关系密切的物品,结果却显示它们之间相关性不强。惟独很好的 理解 关联规则,才干去其糟粕,取其菁华,充分发挥关联规则的价 值。五、关联规则的分类:按照不同情况,关联规则可以进行分类如下:基于规则中处理的变量的类别,关联规则可以分为布尔型和数 值型。布尔型关联规则处理的值都是离散的、种类化的,它显示了这些 变量之间的关系;而数值型关联规
11、则可以和多维关联或者多层关联规 则结合起来,对数值型字段进行处理,将其进行动态的分割,或者 直接对原始的数据进行处理,固然数值型关联规则中也可以包含 种类变 量。例如:性别 “女” 职业 “秘书”,是布尔型关联 规则;性别“女”(收入),涉及的收入是数值类型,所以是一个数值型关联规则。基于规则中数据的抽象层次,可以分为单层关联规则和多层关 规贝寸0在单层的关联规则中,所有的变量都没有考虑到现实的数据是具 有多个不同的层次的;而在多层的关联规则中,对数据的多层性已经 进行了充分的考虑。例如:台式机 打印机,是一个细节数据上的单层关联规则;台式机打印机,是一个较高层次和细节层次之间的多层关联规则。
12、基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。在单维的关联规则中,我们只涉及到数据的一个维,如用户购买 的物品;而在多维的关联规则中,要处理的数据将会涉及多个维。换 成另一句话,单维关联规则是处理单个属性中的一些关系;多维关联 规则是处理各个属性之间的某些关系。例如:啤酒 尿布,这条规则 只涉及到用户的购买的物品;性别 “女” 职业 “秘书”,这条规 则就涉及到两个字段的信息,是两个维上的一条关联规则。六、关联规则挖掘的相关算法算法:使用候选项集找频繁项集算法是一种最有影响的挖掘布尔关联规则频繁项集的算 法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上 属于单维、单
13、层、布尔关联规则。在这里,所有支持度大于最小支持 度的项集称为频繁项集,简称频集。该算法的基本思想是:首先找出所有的频集,这些项集浮现的频 繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则, 这些规则必须满足最小支持度和最小可信度。然后使用第步找到的 频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条 规则的右部惟独一项, 这里采用的是中规则的定义。一旦这些规则被 生成,那末惟独那些大于用户给定的最小可信度的规则才被留下来。 为了生成所有频集,使用了递推的方法。可能产生大量的候选集 以及可能需要重复扫描数据库,是算法的两大缺点。树频集算法针对算法的固有缺陷,等提出了不产生候
14、选挖掘频繁项集的方法:树频集算法。采用分而治之的策略,在经过第一遍扫描之后,把数据库中的频集压缩进一棵频繁模式树(),同时依然保留其中的关联信息,随后再将分化成一些条件库,每一个库和一个长度为 的频集相关,然后再对这些条件库分别 进 行挖掘。当原始数据量很大的时候,也可以结合划分的方法 使 得一个可以放入主存中。实验表明,对不同长度的规则都有很好的适应性,同时在效率上较之算法有巨大的提肉。基于划分的算法等设计了一个基于划分的算法。这个算法先把数据库从 逻辑上分成几个互不相交的块,每次单独考虑一个分块并对它生成所 有的频集,然后把产生的频集合并,用来生成所有可能的频集,最后 计算这些项集的支持度
15、。这里分块的大小选择要使得每一个分块可以 被 放入主存,每一个阶段只需被扫描一次。而算法的正确性是由每 一个可 能的频集至少在某一个分块中是频集保证的。该算法是可以 高度并行的,可以把每一分块分别分配给某一个处理器生成频集。 产生频集的每一个循环结束后,处理器之间进行通信来产生全局的 候选 项集。通常这里的通信过程是算法执行时间的主要瓶颈;而 另一方面,每一个 独立的处理器生成频集的时间也是一个瓶颈。七、关联规则发掘技术的应用就目前而言,关联规则挖掘技术已经被广泛应用在西方金融行业 企业中,它可以成功预测银行客户需求。一旦获得了这些信息,银行 就可以改善自身营销。现在银行天天都在开辟新的沟通客
16、户的方法。 各银行在自己的机上就捆绑了顾客可能感兴趣的本行产品信息,供使用本行 机的用户了解。如果数据库中显示,某个高信用限额 的客户更换了地址,这个客户很有可能新近购买了一栋更大的住宅, 因此会有可能需要更高信用限额,更高端的新信用卡,或者需要一个 住房改善贷款,这些产品都可以通过信用卡账单邮寄给客户。当客户 打电话咨询的时候,数据库可以有力地匡助电话销售代表。销售代表 的电脑屏幕上可以显示出客户的特点,同时也可以显示出顾客会对什 么产品感兴趣。同时,一些知名的电子商务站点也从强大的关联规则挖掘中的受 益。这些电子购物网站使用关联规则中规则进行挖掘,然后设路用户 故意要一起购买的捆绑包。也有一些购物网站使用它们设珞相应的交 叉销售,也就是购买某种商品的顾客会看到相关的此外一种商品的广 告。