第四章关联规则挖掘年优秀PPT.ppt-淘文阁

资源描述

《第四章关联规则挖掘年优秀PPT.ppt》由会员分享，可在线阅读，更多相关《第四章关联规则挖掘年优秀PPT.ppt（35页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第四章关联规则挖掘年第一页，本课件共有35页“尿布与啤酒”典型关联分析案例n采用关联模型比较典型的案例是“尿布与啤酒”的故事。在美国，一些年轻的父亲下班后经常要到超市去买婴儿尿布，超市也因此发现了一个规律，在购买婴儿尿布的年轻父亲们中，有30%40%的人同时要买一些啤酒。超市随后调整了货架的摆放，把尿布和啤酒放在一起，明显增加了销售额。同样的，我们还可以根据关联规则在商品销售方面做各种促销活动。第二页，本课件共有35页一、基本概念n给定：q项的集合：I=i1,i2,.,inqT=t1,t2tn是数据库中事务的集合，每个事务ti则是项的集合，使得n则为T中的关联规则。q其中并且第三页，本课件

2、共有35页规则度量：支持度和置信度Customerbuys diaperCustomerbuys bothCustomerbuys beern对所有满足最小支持度和置信度的关联规则q支持度s是指事务集T中包含的百分比q置信度c是指T中包含A同时也包含B的事务占包含A的事务的百分比n最小支持度 min_supn最小置信度 min_conf第四页，本课件共有35页n强关联规则：如果事务集合T中的关联规则AnB同时满足support(AB)min_sup,n confidence(AB)min_conf,n则AB称为T中的强关联规则。n关联规则挖掘就是在事务集合中挖掘强关联规则。第五页，本课件共有

3、35页qk项集项集：包含k个项的集合n牛奶，面包，黄油是个3项集q如果K项集的频率(即支持计数)大于最小支持计数（最小支持度T中的事务总数n），则称该项集为频繁频繁K项集项集第六页，本课件共有35页二、关联规则挖掘步骤n大型数据库中的关联规则挖掘包含两个过程：q找出所有频繁项集n大部分的计算都集中在这一步q由频繁项集产生强关联规则n即满足最小支持度和最小置信度的规则第七页，本课件共有35页nApriori算法n定理一如果某k-项集不是频繁k-项集，则包含IK的(k+1)-项集也不是频繁(k+1)-项集。该性质称为Apriori性质。第八页，本课件共有35页由事务数据库挖掘单维布尔关联规则n最

4、简单的关联规则挖掘，即单维、单层、布尔关联规则的挖掘。最小支持度 50%最小置信度 50%n对规则A C，其支持度 n置信度第九页，本课件共有35页Apriori算法思想n一.扫描一次事务集合，找出频繁1项集集合L1；n二.基于L1，产生候选2项集集合C2，再扫描一次事务集合，比较候选支持计数与最小支持计数，找出频繁2项集L2；n三.基于L2，找出C3，作剪枝运算剪枝运算，得到剪枝后的C3，再扫描一次事务集合，确定L3；n四.以此类推，直至找出频繁项集为止。最后在所有频繁项集中产生强关联规则。第十页，本课件共有35页Apriori算法示例Database TDB1st scanC1L1L2C2

5、C22nd scanC3L33rd scanTidItems10A,C,D20B,C,E30A,B,C,E40B,EItemsetsupA2B3C3D1E3ItemsetsupA2B3C3E3ItemsetA,BA,CA,EB,CB,EC,EItemsetsupA,B1A,C2A,E1B,C2B,E3C,E2ItemsetsupA,C2B,C2B,E3C,E2ItemsetB,C,EItemsetsupB,C,E2最小支持计数：2第十一页，本课件共有35页使用Apiori性质由L2产生C3n1 连接：qC3=L2 L2=A,C,B,C,B,EC,E A,C,B,C,B,EC,E=A,B,C,A

6、,C,E,B,C,En2使用Apriori性质剪枝：频繁项集的所有子集必须是频繁的，对候选项C3，我们可以删除其子集为非频繁的选项：qA,B,C的2项子集是A,B,A,C,B,C，其中A,B不是L2的元素，所以删除这个选项；qA,C,E的2项子集是A,C,A,E,C,E，其中A,E 不是L2的元素，所以删除这个选项；qB,C,E的2项子集是B,C,B,E,C,E，它的所有2项子集都是L2的元素，因此保留这个选项。n3这样，剪枝后得到C3=B,C,E第十二页，本课件共有35页由频繁项集产生关联规则n同时满足最小支持度和最小置信度的才是强关联规则，从频繁项集产生的规则都满足支持度要求，而其置信度则

7、可由一下公式计算：n每个关联规则可由如下过程产生：q对于每个频繁项集l，产生l的所有非空子集；q对于每个非空子集s，如果则输出规则“”第十三页，本课件共有35页多层关联规则(1)n数据项中经常会形成概念分层n底层的数据项，其支持度往往也较低q这意味着挖掘底层数据项之间的关联规则必须定义不同的支持度AllComputeraccessorysoftwarelaptopfinancialmousecolorprintercomputerdesktopIBMedu.Microsoftb/wHPSonywristpadLogitechTIDItemsT1IBM D/C,Sony b/wT2Ms.edu

8、.Sw.,Ms.fin.Sw.T3Logi.mouse,Ergoway wrist padT4IBM D/C,Ms.Fin.Sw.T5IBM D/CErgoway第十四页，本课件共有35页多层关联规则(2)n在适当的等级挖掘出来的数据项间的关联规则可能是非常有用的n通常，事务数据库中的数据也是根据维和概念分层来进行储存的q这为从事务数据库中挖掘不同层次的关联规则提供了可能。n在多个抽象层挖掘关联规则，并在不同的抽象层进行转化，是数据挖掘系统应该提供的能力第十五页，本课件共有35页挖掘多层关联规则的方法n通常，多层关联规则的挖掘还是使用置信度支持度框架，可以采用自顶向下策略q请注意：概念分层中，

9、一个节点的支持度肯定不小于该节点的任何子节点的支持度q由概念层1开始向下，到较低的更特定的概念层，对每个概念层的频繁项计算累加计数q每一层的关联规则挖掘可以使用Apriori等多种方法q例如：n先找高层的关联规则：computer-printer 20%,60%n再找较低层的关联规则：laptop-color printer 10%,50%第十六页，本课件共有35页多层关联一致支持度n一致支持度：对所有层都使用一致的最小支持度q优点：搜索时容易采用优化策略，即一个项如果不满足最小支持度，它的所有子项都可以不用搜索q缺点：最小支持度值设置困难n太高：将丢掉出现在较低抽象层中有意义的关联规则n太低

10、：会在较高层产生太多的无兴趣的规则第十七页，本课件共有35页多层关联递减支持度n使用递减支持度，可以解决使用一致支持度时在最小支持度值上设定的困难n递减支持度：在较低层使用递减的最小支持度q每一层都有自己的一个独立的最小支持度q抽象层越低，对应的最小支持度越小min_sup=5%min_sup=5%min_sup=3%Computer support=10%Laptopsupport=6%Desktopsupport=4%第十八页，本课件共有35页多层关联搜索策略(1)n具有递减支持度的多层关联规则的搜索策略q逐层独立：完全的宽度搜索，没有频繁项集的背景知识用于剪枝q层交叉单项过滤：一个第i层

11、的项被考察，当且仅当它在第（i-1）层的父节点是频繁的（P165,图6-14）n(computer)(laptop computer,desktop computer)q层交叉k项集过滤：一个第i层的k项集被考察，当且仅当它在第(i-1)层的对应父节点k-项集是频繁的（P165,图6-15）n(computer,printer)(laptop computer,color printer),(desktop computer,b/w printer)第十九页，本课件共有35页多层关联搜索策略(2)n搜索策略比较q逐层独立策略条件松，可能导致底层考察大量非频繁项q层交叉k项集过滤策略限制太强，仅

12、允许考察频繁k-项集的子女q层交叉单项过滤策略是上述两者的折中，但仍可能丢失低层频繁项（图6-14)第二十页，本课件共有35页受控的层交叉单项过滤策略n层交叉单项过滤策略的改进版本n设置一个层传递临界值，用于向较低层传递相对频繁的项。q即如果满足层传递临界值，则允许考察不满足最小支持度临界值的项的子女q用户对进一步控制多概念层上的挖掘过程有了更多的灵活性，同时减少无意义关联的考察和产生min_sup=12%level_passage_support=8%min_sup=3%Computer support=10%Laptop support=6%Desktop support=4%第二十一页，

13、本课件共有35页检查冗余的多层关联规则n挖掘多层关联规则时，由于项间的“祖先”关系，有些发现的规则将是冗余的q例如：ndesktop computer=b/w printer sup=8%,con=70%(1)nIBM desktop computer=b/w printer sup=2%,con=72%(2)n上例中，我们说第一个规则是第二个规则的“祖先”n如果规则(2)中的项用它在概念分层中的“祖先”代替，能得到(1)，而且(1)的支持度和置信度都接近“期望”值，则(1)是冗余的。第二十二页，本课件共有35页多维关联规则概念n单维关联规则：qbuys(X,“milk”)buys(X,“br

14、ead”)n多维关联规则：涉及两个或多个维或谓词的关联规则q维间关联规则：不包含重复的谓词nage(X,”19-25”)occupation(X,“student”)=buys(X,“coke”)q混合维关联规则：包含某些谓词的多次出现nage(X,”19-25”)buys(X,“popcorn”)=buys(X,“coke”)n在多维关联规则挖掘中，我们搜索的不是频繁项集，而是频繁谓词集。k-谓词集是包含k个合取谓词的集合。q例如：age,occupation,buys是一个3-谓词集第二十三页，本课件共有35页挖掘多维关联规则的技术n数据属性可以分为分类属性和量化属性q分类属性n具有有限个

15、不同值，值之间无序q量化属性n数值类型的值，并且值之间有一个隐含的序n挖掘多维关联规则的技术可以根据量化属性的处理分为三种基本方法：q1.量化属性的静态离散化n使用预定义的概念分层对量化属性进行静态地离散化q2.量化关联规则n根据数据的分布，将量化属性离散化到“箱”q3.基于距离的关联规则n考虑数据点之间的距离，动态地离散化量化属性第二十四页，本课件共有35页多维关联规则挖掘使用量化属性的静态离散化n量化属性使用预定义的概念分层，在挖掘前进行离散化n数值属性的值用区间代替n如果任务相关数据存在关系数据库中，则找出所有频繁的k-谓词集将需要k或k+1次表扫描n数据立方体技术非常适合挖掘多维关联规

16、则qn-维方体的单元用于存放对应n-谓词集的计数计数或支持度或支持度，0-D方体用于存放任务相关数据的事务总数n如果包含感兴趣的维的数据立方体已经存在并物化，挖掘将会很快，同时可以利用Apriori性质：频繁谓词集的每个子集也必须是频繁的频繁谓词集的每个子集也必须是频繁的(income)(age)()(buys)(age,income)(age,buys)(income,buys)(age,income,buys)第二十五页，本课件共有35页挖掘量化关联规则(1)n量化关联规则中，数值属性将根据某种挖掘标准，进行动态的离散化q例如：最大化挖掘规则的置信度和紧凑性n为了简化量化关联规则挖掘的讨论

17、，我们将聚焦于类似以下形式的2-维量化关联规则维量化关联规则：Aquan1 Aquan2 Acatq（两个量化属性和一个分类属性间的关联）q例如：age(X,”30-39”)income(X,”42K-48K”)buys(X,”high resolution TV”)第二十六页，本课件共有35页挖掘量化关联规则(2)n找出这类2-维量化关联规则的方法：关联规则聚类系统(ARCS)q一种源于图像处理的技术，该技术将量化属性对映射到满足给定分类属性条件的2-D栅格上，然后通过搜索栅格点的聚类而产生关联规则第二十七页，本课件共有35页关联规则聚类系统(ARCS)(1)nARCS过程中的步骤包括q1.

18、分箱（根据不同分箱方法创建一个2-D数组），本步骤的目的在于减少量化属性相对应的巨大的值个数，使得2-D栅格的大小可控n等宽分箱n等深分箱n基于同质的分箱（每个箱中元组一致分布）q2.找出频繁谓词集n扫描分箱后形成的2-D数组，找出满足最小支持度和置信度的频繁谓词集第二十八页，本课件共有35页关联规则聚类系统(ARCS)(2)q3.关联规则聚类n将上一步得到的强关联规则映射到2-D栅格上，使用聚类算法，扫描栅格，搜索规则的矩形聚类第二十九页，本课件共有35页ARCS的局限性n所挖掘的关联规则左手边只能是量化属性n规则的左手边只能有两个量化属性（2-D栅格的限制）n一种不基于栅格的，可以发现更一

19、般关联规则的技术，其中任意个数的量化属性和分类属性可以出现在规则的两端q等深分箱动态划分q根据部分完全性部分完全性的度量进行聚类第三十页，本课件共有35页挖掘基于距离的关联规则n等宽划分将很近的值分开，并创建没有数据的区间n等深划分将很远的值放在一组n基于距离的关联规则挖掘考虑属性值的接近性，紧扣区间数据的语义，并允许值的类似n基于距离的关联规则挖掘的两遍算法：q1.使用聚类找出区间或簇q2.搜索频繁的一起出现的簇组，得到基于距离的关联规则n因为未考虑数据点之间或区间的相对距离，分箱方法不是总能紧扣区间数据的语义第三十一页，本课件共有35页关联规则的兴趣度度量n客观度量q两个流行的度量指标n支

20、持度n置信度n主观度量q最终，只有用户才能确定一个规则是否有趣的，而且这种判断是主观的，因不同的用户而异；通常认为一个规则（模式）是有趣的，如果：n它是出人意料的n可行动的（用户可以使用该规则做某些事情）n挖掘了关联规则后，哪些规则是用户感兴趣的？强关联规则是否就是有趣的？第三十二页，本课件共有35页对强关联规则的批评（1）n例1：(Aggarwal&Yu,PODS98)q在5000个学生中n3000个打篮球n3750个喝麦片粥n2000个学生既打篮球又喝麦片粥q然而，打篮球=喝麦片粥 40%,66.7%是错误的，因为全部学生中喝麦片粥的比率是75%，比打篮球学生的66.7%要高q打篮球=不喝

21、麦片粥 20%,33.3%这个规则远比上面那个要精确，尽管支持度和置信度都要低的多第三十三页，本课件共有35页对强关联规则的批评（2）n例1：(书P172，表6-4)q上述数据可以得出buys(X,“computer games”)=buys(X,“videos”)40%,60%q但其实全部人中购买录像带的人数是75%，比60%多；事实上录像带和游戏是负相关的。q由此可见A=B的置信度有欺骗性，它只是给出A,B条件概率的估计，而不度量A,B间蕴涵的实际强度。第三十四页，本课件共有35页由关联分析到相关分析n我们需要一种度量事件间的相关性或者是依赖性的指标n当项集A的出现独立于项集B的出现时，P(AB)=P(A)P(B)，即corrA,B1，表明A与B无关，corrA,B 1表明A与B正相关，corrA,B 1表明A与B负相关q将相关性指标用于前面的例子，可以得出录像带和游戏将的相关性为：qP(game,video)/(P(game)P(video)=0.4/(0.750.6)=0.89q结论：录像带和游戏之间存在负相关第三十五页，本课件共有35页

展开阅读全文