《数据挖掘导论--第6章-关联分析-课件.ppt》由会员分享,可在线阅读,更多相关《数据挖掘导论--第6章-关联分析-课件.ppt(157页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据挖掘导论数据挖掘导论-第第6 6章章-关关联分析联分析-2017-20176.1 问题定义问题定义l关联分析l频繁项集l关联规则关联规则强度:u支持度u置信度l关联规则发现l挖掘关联规则的策略定义定义:关联分析(关联分析(association analysis)l关联分析用于发现隐藏在大型数据集中的令人感兴趣的联系,所发现的模式通常用关联规则或频繁项集的形式表示。l关联分析可以应用于生物信息学、医疗诊断、网页挖掘、科学数据分析等RulesDiscovered:Diaper-Beer定义定义:频繁项集(频繁项集(Frequent Itemset)l项集(项集(Itemset)包含0个或多个
2、项的集合u例子:Milk,Bread,Diaperk-项集u如果一个项集包含k个项l支持度计数(支持度计数(Supportcount)()包含特定项集的事务个数例如:(Milk,Bread,Diaper)=2l支持度(支持度(Support)包含项集的事务数与总事务数的比值例如:s(Milk,Bread,Diaper)=2/5l频繁项集(频繁项集(FrequentItemset)满足最小支持度阈值(minsup)的所有项集定义定义:关联规则(关联规则(Association Rule)Example:l关联规则关联规则关联规则是形如XY的蕴含表达式,其中X和Y是不相交的项集例子:Milk,Di
3、aperBeerl关联规则的强度关联规则的强度支持度Support(s)u确定项集的频繁程度置信度Confidence(c)u确定Y在包含X的事务中出现的频繁程度关联规则发现关联规则发现l关联规则发现:给定事务的集合T,关联规则发现是指找出支持度大于等于minsup并且置信度大于等于minconf的所有规则,minsup和minconf是对应的支持度和置信度阈值l关联规则发现的一种原始方法是:Brute-forceapproach:计算每个可能规则的支持度和置信度这种方法计算代价过高,因为可以从数据集提取的规则的数量达指数级从包含d个项的数据集提取的可能规则的总数uR=3d-2d+1+1,如果
4、d等于6,则R=602挖掘关联规则(挖掘关联规则(Mining Association Rules)的策略)的策略l大多数关联规则挖掘算法通常采用的一种策略是,将关联规则挖掘任务分解为如下两个主要的子任务:1.频繁项集产生(FrequentItemsetGeneration)其目标是发现满足最小支持度阈值的所有项集,这些项集称作频繁项集。2.规则的产生(RuleGeneration)其目标是从上一步发现的频繁项集中提取所有高置信度的规则,这些规则称作强规则(strongrule)。6.2 频繁项集的产生频繁项集的产生l6.1问题定义l6.2频繁项集的产生频繁项集产生(频繁项集产生(Freque
5、nt Itemset Generation)格结构(格结构(latticestructure)格结构用来枚举所有可能项集格结构用来枚举所有可能项集频繁项集产生(频繁项集产生(Frequent Itemset Generation)lBrute-force方法:把格结构中每个项集作为候选项集将每个候选项集和每个事务进行比较,确定每个候选项集的支持度计数。时间复杂度O(NMw),这种方法的开销可能非常大。降低产生频繁项集计算复杂度的方法降低产生频繁项集计算复杂度的方法l减少候选项集的数量(M)先验(apriori)原理l减少比较的次数(NM)替代将每个候选项集与每个事务相匹配,可以使用更高级的数据
6、结构,或存储候选项集或压缩数据集,来减少比较次数6.2 频繁项集的产生频繁项集的产生l6.2.1先验原理先验原理(先验原理(Apriori principle)l先验原理:如果一个项集是频繁的,则它的所有子集一定也是频繁的先验原理(先验原理(Apriori principle)l先验原理:如果一个项集是频繁的,则它的所有子集一定也是频繁的l相反,如果一个项集是非频繁的,则它的所有超集也一定是非频繁的:这种基于支持度度量修剪指数搜索空间的策略称为基于支持度的剪枝(support-basedpruning)这种剪枝策略依赖于支持度度量的一个关键性质,即一个项集的支持度决不会超过它的子集的支持度。这
7、个性质也称为支持度度量的反单调性(anti-monotone)。非频繁项集例子例子被剪枝的超集6.2 频繁项集的产生频繁项集的产生l6.2.1先验原理l6.2.2Apriori算法的频繁项集产生Apriori算法的频繁项集产生算法的频繁项集产生Apriori算法的频繁项集产生算法的频繁项集产生Items(1-itemsets)Pairs(2-itemsets)Triplets(3-itemsets)支持度阈值=60%最小支持度计数=3枚举所有项集将产生 个候选而使用先验原理,将较少为 =13Apriori 算法算法Apriori 算法算法lApriori算法的频繁项集产生的部分有两个重要的特点
8、:它是一个逐层算法。即从频繁1-项集到最长的频繁项集,它每次遍历项集格中的一层它使用产生-测试策略来发现频繁项集。在每次迭代,新的候选项集由前一次迭代发现的频繁项集产生,然后对每个候选的支持度进行计数,并与最小支持度阈值进行比较。该算法需要的总迭代次数是kmax+1,其中kmax是频繁项集的最大长度6.2 频繁项集的产生频繁项集的产生l6.2.1先验原理l6.2.2Apriori算法的频繁项集产生l6.2.3候选的产生与剪枝候选的产生与剪枝候选的产生与剪枝(构造构造apriori-gen函数函数)l候选项集的产生与剪枝(构造apriori-gen函数)包含2个步骤:候选项集的产生:由频繁(k-
9、1)-项集产生新的候选k-项集候选项集的剪枝:采用基于支持度的剪枝,删除一些候选k-项集候选的产生与剪枝候选的产生与剪枝(构造构造apriori-gen函数函数)l蛮力方法蛮力方法把所有的k-项集都看作可能的候选,然后使用候选剪枝除去不必要的候选第k层产生的候选项集的数目为。(d为项的总数)虽然候选产生是相当简单的,但是候选剪枝的开销极大,因为必须考察的项集数量太大。设每一个候选项集所需的计算量为O(k),这种方法的总复杂度为候选的产生与剪枝候选的产生与剪枝Items(1-itemsets)Pairs(2-itemsets)Triplets(3-itemsets)支持度阈值=60%最小支持度计
10、数=3枚举所有项集将产生 6C1+6C2+6C3=41个候选而使用先验原理,将较少为6+6+1=13候选的产生与剪枝(候选的产生与剪枝(Fk-1XF1方法)方法)l这种方法用其他频繁项来扩展每个频繁(k-1)-项集这种方法将产生个候选k-项集,其中|Fj|表示频繁j-项集的个数。这种方法总复杂度是这种方法是完全的,因为每一个频繁k-项集都是由一个频繁(k-1)-项集和一个频繁1-项集组成的。因此,所有的频繁k-项集是这种方法所产生的候选k-项集的一部分。然而,这种方法很难避免重复地产生候选项集。如:面包,尿布,牛奶不仅可以由合并项集面包,尿布和牛奶得到,而且还可以由合并面包,牛奶和尿布得到,或
11、由合并尿布,牛奶和面包得到。候选的产生与剪枝(候选的产生与剪枝(Fk-1XF1方法)方法)候选的产生与剪枝(候选的产生与剪枝(Fk-1XF1方法)方法)避免产生重复的候选项集的一种方法是确保每个频繁项集中的项以字典序存储,每个频繁(k-1)-项集X只用字典序比X中所有的项都大的频繁项进行扩展如:项集面包,尿布可以用项集牛奶扩展,因为“牛奶”(milk)在字典序下比“面包”(Bread)和“尿布”(Diapers)都大。尽管这种方法比蛮力方法有明显改进,但是仍然产生大量不必要的候选。例如,通过合并啤酒,尿布和牛奶而得到的候选是不必要的。因为它的子集啤酒,牛奶是非频繁的。【每个K-项集,它的每一个
12、项必须至少在k-1个(k-1)项集中出现,否则,这个K-项集是非频繁项集】候选的产生与剪枝(候选的产生与剪枝(Fk-1XFk-1方法)方法)l这种方法合并一对频繁(k-1)-项集,仅当它们的前k-2个项都相同。如频繁项集面包,尿布和面包,牛奶合并,形成了候选3-项集面包,尿布,牛奶。算法不会合并项集啤酒,尿布和尿布,牛奶,因为它们的第一个项不相同。然而,由于每个候选都由一对频繁(k-1)-项集合并而成,因此,需要附加的候选剪枝步骤来确保该候选的其余k-2个子集是频繁的。候选的产生与剪枝(候选的产生与剪枝(Fk-1XFk-1方法)方法)6.2 频繁项集的产生频繁项集的产生l6.2.1先验原理l6
13、.2.2Apriori算法的频繁项集产生l6.2.3候选的产生与剪枝l6.2.4支持度计数支持度计数支持度计数l支持度计数过程确定在apriori-gen函数的候选项剪枝步骤保留下来的每个候选项集出现的频繁程度。计算支持度的主要方法:一种方法是将每个事务与所有的候选项集进行比较,并且更新包含在事务中的候选项集的支持度计数。这种方法是计算昂贵的,尤其当事务和候选项集的数目都很大时。另一种方法是枚举每个事务所包含的项集,并且利用它们更新对应的候选项集的支持度。枚举事务枚举事务t的所有包含的所有包含3个项的子集个项的子集产生产生Hash树树234567145136124457125458159345
14、3563576893673681,4,72,5,83,6,9HashfunctionHash函数函数h(p)=pmod3假设有假设有15个候选个候选3-项集项集:145,124,457,125,458,159,136,234,567,345,356,357,689,367,368Hash树结构树结构1591451363453673683563576892345671244571254581,4,72,5,83,6,9HashFunctionCandidateHashTreeHashon1,4or7Hash树结构树结构159145136345367368356357689234567124457
15、1254581,4,72,5,83,6,9HashFunctionCandidateHashTreeHashon2,5or8Hash树结构树结构1591451363453673683563576892345671244571254581,4,72,5,83,6,9HashFunctionCandidateHashTreeHashon3,6or9使用使用Hash树进行支持度计数树进行支持度计数159145136345367368356357689234567124457125458123561+23563562+563+1,4,72,5,83,6,9HashFunctiontransaction
16、使用使用Hash树进行支持度计数树进行支持度计数1591451363453673683563576892345671244571254581,4,72,5,83,6,9HashFunction1235635612+5613+615+3562+563+1+2356transaction使用使用Hash树进行支持度计数树进行支持度计数1591451363453673683563576892345671244571254581,4,72,5,83,6,9HashFunction1235635612+5613+615+3562+563+1+2356transaction15个项集中的9个与事务进行比较
17、l存放在被访问的叶结点中的候选项集与事务进行比较,如果候选项集是该事务的子集,则增加它的支持度计数。l在该例子中,访问了9个叶子结点中的5个。l15个项集中的9个与事务进行比较6.2 频繁项集的产生频繁项集的产生l6.2.1先验原理l6.2.2Apriori算法的频繁项集产生l6.2.3候选的产生与剪枝l6.2.4支持度计数l6.2.5计算复杂度计算复杂度计算复杂度l支持度阈值降低支持度阈值通常将导致更多的项集是频繁的。计算复杂度增加随着支持度阈值的降低,频繁项集的最大长度将增加,导致算法需要扫描数据集的次数也将增多l项数随着项数的增加,需要更多的空间来存储项的支持度计数。如果频繁项集的数目也
18、随着数据项数增加而增长,则由于算法产生的候选项集更多,计算量和I/O开销将增加l事务数由于Apriori算法反复扫描数据集,因此它的运行时间随着事务数增加而增加l事务的平均宽度频繁项集的最大长度随事务平均宽度增加而增加随着事务宽度的增加,事务中将包含更多的项集,这将增加支持度计数时Hash树的遍历次数6.3 规则的产生规则的产生l6.1问题定义l6.2频繁项集的产生l6.3规则的产生规则产生规则产生l忽略那些前件或后件为空的规则,每个频繁k-项集能够产生多达2k-2个关联规则l关联规则的提取:将一个项集Y划分成两个非空的子集X和Y-X,使得XYX满足置信度阈值。如果A,B,C,D是频繁项集,候
19、选项集为:ABCD,ABDC,ACDB,BCDA,ABCD,BACD,CABD,DABCABCD,ACBD,ADBC,BCAD,BDAC,CDAB,l这样的规则必然已经满足支持度阈值,因为它们是由频繁项集产生的。规则产生规则产生l怎样有效的从频繁项集中产生关联规则?一般,计算关联规则的置信度并不需要再次扫描事务数据集。规则A,B,CD的置信度为(ABCD)/(ABC)。因为这两个项集的支持度计数已经在频繁项集产生时得到,因此不必再扫描整个数据集如果规则XY-X不满足置信度阈值,则形如XY-X的规则一定也不满足置信度阈值,其中X是X的子集。例如:c(ABCD)c(ABCD)c(ABCD)因为(A
20、B)(ABC),则(ABCD)/(ABC)(ABCD)/(AB),则c(ABCD)c(ABCD)Apriori 算法中规则的产生算法中规则的产生被剪枝的被剪枝的规则规则低置信度规则Apriori 算法中规则的产生算法中规则的产生6.4 频繁项集的紧凑表示频繁项集的紧凑表示l6.1问题定义l6.2频繁项集的产生l6.3规则的产生l6.4频繁项集的紧凑表示频繁项集的紧凑表示频繁项集的紧凑表示l由事务数据集产生的频繁项集的数量可能非常大。因此,从中识别出可以推导出其他所有的频繁项集的,较小的,具有代表性的项集是有用的。l频繁项集的数量l需要紧凑的表示极大频繁项集(极大频繁项集(Maximal Fre
21、quent Itemset)频繁项集的频繁项集的边界边界不频繁项集不频繁项集极大频繁项极大频繁项集集极大频繁项集是这样的频繁项集,它的直接超集都不是频繁的极大频繁项集是这样的频繁项集,它的直接超集都不是频繁的非频繁的非频繁的频繁的频繁的极大频繁项集的特点极大频繁项集的特点l优点:极大频繁项集有效地提供了频繁项集的紧凑表示。换句话说,极大频繁项集形成了可以导出所有频繁项集的最小的项集的集合。从图中,可以看出,所有的频繁项集是极大频繁项集A,D,A,C,E,B,C,D,E的子集l缺点:尽管极大频繁项集提供了一种紧凑表示,但是它却不包含它们子集的支持度信息。频繁闭项集(频繁闭项集(Closed Fr
22、equent Itemset)l闭项集(ClosedItemset):项集X是闭的,如果它的直接超集都不具有和它相同的支持度计数。l换句话说,如果至少存在一个X的直接超集,其支持度计数与X相同,X就不是闭的。l频繁闭项集:一个项集是频繁闭项集,如果它是闭的,并且它的支持度大于或等于最小支持度阈值。频繁闭项集频繁闭项集TransactionIdsNotsupportedbyanytransactions频繁闭项集频繁闭项集minsup=40%#ClosedFrequentItemset=9#MaximalFrequentitemset=4频繁项集、极大频繁项集和频繁闭项集之间的关系频繁项集、极大
23、频繁项集和频繁闭项集之间的关系使用频繁闭项集进行支持度计数使用频繁闭项集进行支持度计数6.5 产生频繁项集的其他方法产生频繁项集的其他方法l6.1问题定义l6.2频繁项集的产生l6.3规则的产生l6.4频繁项集的紧凑表示l6.5产生频繁项集的其他方法产生频繁项集的其他方法产生频繁项集的其他方法l项集格遍历一般到特殊vs特殊到一般。一般到特殊:适合于频繁项集的最大长度不是太长的时候。特殊到一般:适合于处理频繁项集的最大长度较长的时候产生频繁项集的其他方法产生频繁项集的其他方法l项集格遍历等价类:将格划分为两个不相交的节点组(或等价类)。频繁项集产生算法依次在每个等价类内搜索频繁项集Apriori
24、算法采用的逐层策略可以看作根据项集的大小划分格。等价类也可以根据项集的前缀或后缀来定义。产生频繁项集的其他方法产生频繁项集的其他方法l项集格遍历宽度优先与深度优先通常,深度优先搜索方法是用于发现极大频繁项集的算法产生频繁项集的其他方法产生频繁项集的其他方法l事务数据集的表示水平数据分布(horizontaldatalayout)垂直(verticaldatalayout)6.6 FP增长算法增长算法l6.1问题定义l6.2频繁项集的产生l6.3规则的产生l6.4频繁项集的紧凑表示l6.5产生频繁项集的其他方法l6.6FP增长算法FP增长算法(增长算法(FP-growth Algorithm)l
25、该算法采用完全不同的方法来发现频繁项集。l该算法不同于Apriori算法的“产生-测试”范型。而是使用一种称作FP树的紧凑数据结构组织数据,并直接从该结构中提取频繁项集。lFP树是一种输入数据的压缩表示,它通过逐个读入事务,并把每个事务映射到FP树中的一条路径来构造。构造构造FP树树l扫描一次数据集,确定每个项的支持度计数。丢弃非频繁项,而将频繁项按照支持度的递减排序l算法第二次扫描数据集,构建FP树。读入第一个事务a,b之后,创建标记为a和b的结点。然后形成null-a-b路径,对该事务编码。该路径上的所有结点的频度计数为1.l读入第二个事务b,c,d之后,为项b,c和d创建新的结点集。然后
26、,连接结点null-b-c-d,形成一条代表该事务的路径。该路径上的每个结点的频度计数也等于1.尽管前两个事务具有一个共同项b,但是它们的路径不相交,因为这两个事务没有共同的前缀。构造构造FP树树nullA:1B:1nullA:1B:1B:1C:1D:1读入事务读入事务TID=1后后:读入事务读入事务TID=2后后:l第三个事务a,c,d,e与第一个事务共享一个共同的前缀项a,所以第三个事务的路径null-a-c-d-e与第一个事务的路径null-a-b部分重叠。因为它们的路径重叠,所以结点a的频度计数增加为2.l继续该过程,直到每个事务都映射到FP树的一条路径。构造构造FP树树D:1E:1n
27、ullA:1B:1B:1C:1D:1读入事务读入事务TID=3后后:C:1构造构造FP树树nullA:8B:5B:2C:2D:1C:1D:1C:3D:1D:1E:1E:1D:1E:1Headertable构造构造FP树树l通常,FP树的大小比未压缩的数据小,因为购物篮数据的事务常常共享一些共同项。如果共同项较少,FP树对存储空间的压缩效果将不明显。lFP树的大小也依赖于项如何排序。一般按照支持度计数递减序可以导致较小的FP树。但也有一些例外。lFP树还包含一个连接具有相同项的结点的指针列表。这些指针有助于方便快捷地访问树中的项。构造构造FP树树FP增长(增长(FP-growth)算法)算法lF
28、P增长是一种以自底向上方式探索树,由FP树产生频繁项集的算法。l由于每一个事务都映射到FP树中的一条路径,因而通过仅考察包含特定结点(例如e)的途径,就可以发现以e结尾的频繁项集。使用与结点e相关联的指针,可以快速访问这些路径。FP增长(增长(FP-growth)算法)算法FP增长(增长(FP-growth)算法)算法FP增长(增长(FP-growth)算法)算法6.7 关联模式的评估关联模式的评估l6.1问题定义l6.2频繁项集的产生l6.3规则的产生l6.4频繁项集的紧凑表示l6.5产生频繁项集的其他方法l6.6FP增长算法l6.7关联模式的评估关联模式的评估(关联模式的评估(Patter
29、n Evaluation)l关联分析算法往往产生大量的规则,而其中很大一部分可能是不感兴趣的。因此,建立一组广泛接受的评价关联模式质量的标准是非常重要的。l第一组标准可以通过统计论据建立。涉及相互独立的项或覆盖少量事务的模式被认为是不令人感兴趣的,因为它们可能反映数据中的伪联系。l这些令人感兴趣的模式可以使用客观兴趣度度量来排除。l第二组标准可以通过主观论据建立。一个模式被主观认为是无趣的,除非它能够揭示料想不到的信息或提供导致有益的行动的有用信息。l例如:黄油面包可能不是有趣的,尽管有很高的支持度和置信度,但是它表示的关系显而易见。另一方面,规则尿布啤酒是有趣的,因为这种联系十分出乎意料,并
30、且可能为零售商提供新的交叉销售机会。l将主观知识加入到模式的评价中是一项困难的任务,因为需要来自领域专家的大量先验信息。下面是一些将主观信息加入到模式发现任务中的方法。兴趣度客观度量(兴趣度客观度量(objective interestingness measure)l客观兴趣度度量使用从数据推导出的统计量来确定模式是否是有趣的。客观兴趣度度量的例子包括支持度、置信度、相关性。l给定一个规则XY,我们可以构建一个相依表(contingencytable)。YYXf11f10f1+Xf01f00fo+f+1f+0|T|ContingencytableforXY支持度支持度-置信度框架的局限性置信
31、度框架的局限性l现有的关联规则的挖掘算法依赖于支持度和置信度来除去没有意义的模式。l例子:假定希望分析爱喝咖啡和爱喝茶的人之间的关系。收集一组人关于饮料偏爱的信息,并汇总到下表6-8。CoffeeCoffeeTea15050200Tea6501508008002001000支持度支持度-置信度框架的局限性置信度框架的局限性l可以使用表中给出的信息来评估关系规则茶咖啡。l似乎喜欢喝茶的人也喜欢喝咖啡,因为该规则的支持度(15%)和置信度(75%)都相当高。l但是所有人中,不管他是否喝茶,喝咖啡的人的比例为80%。这意味着,一个人如果喝茶,则他喝咖啡的可能性由80%减到了75%。l置信度的缺点在于
32、该度量忽略了规则后件中项集的支持度。l由于支持度-置信度框架的局限性,各种客观度量已经用来评估关联模式。下面,简略介绍这些度量并解释它们的优点和局限性。兴趣因子相关分析IS度量兴趣因子兴趣因子l茶和咖啡的例子表明,由于置信度度量忽略了规则后件中出现的项集的支持度,高置信度的规则有时存在误导。l解决这个问题的一种方法是使用称作提升度(lift)的度量:l它计算规则置信度和规则后件中项集的支持度之间的比率l对于二元变量,提升度等价于另一种称作兴趣因子(interestfactor)的客观度量,其定义如下:l对于相互独立的两个变量,I(A,B)=1。如果A和B是正相关的,则I(A,B)1。对于表6-
33、8中的例子,I=0.15/(0.2*0.8)=0.9375,这表明存在负相关。l兴趣因子的局限性表6-9显示了两个词p,q和r,s出现的频率。p,q和r,s的兴趣因子分别为1.02和4.08.这表明虽然p和q同时出现在88%的文档中,但是它们的兴趣因子接近于1,表明二者是相互独立的。另一方面,r,s的兴趣因子比p,q的高,尽管r和s很少同时出现在同一个文档中。这种情况下,置信度可能是一个更好的选择,因为置信度表明p和q之间的关联(94.6%)远远强于r和s之间的关联(28.6%).l表6-9ppq88050930q502070930701000rrs205070s508809307093010
34、00相关分析相关分析l对于二元变量,相关度可以用以下公式表示。l相关度的值从-1(完全负相关)到+1(完全正相关)。如果变量是统计独立的,则值为0.例如:在表6-8中给出的饮茶者和喝咖啡者之间的相关度为-0.0625。l相关分析的局限性相关性的缺点通过表6-9所给出词的关联可以看出.虽然p和q同时出现的次数比r和s更多,但是它们的系数是相同的,都等于0.232。这是因为,这种方法把项在事务中出现和同时不出现视为同等重要。因此,它更适合于分析对称的二元变量。这种度量的另一个局限性是,当样本大小成比例变化时,它不能够保持不变。IS度量度量lIS是另一种度量,用于处理非对称二元变量。该度量定义如下:
35、l表6-9中显示的词对p,q和r,s的IS值分别是0.946和0.286.IS度量暗示p,q之间的关联强于r,s,这与期望的文档中词的关联一致。l可以证明IS数学上等价于二元变量的余弦变量lIS度量也可以表示为从一对二元变量中提取出的关联规则的置信度的几何平均值:lIS度量的局限性一对相互独立的项集A和B的IS值是:尽管表6-10中所显示的项p和q之间的IS值相当大(0.889),当项统计独立时它仍小于期望值(ISindep=0.9)。l表6-10ppq800100900q10001009001001000其他客观兴趣度度量其他客观兴趣度度量不同度量间的比较不同度量间的比较客观度量的性质客观度
36、量的性质l反演性客观度量M在反演操作下是不变的,如果交换频度计数f11和f00、f10和f01它的值保持不变.l在反演操作下保持不变的度量有系数、几率、k和集体强度。l这些度量可能不适合于分析非对称的二元数据。l一些非反演不变的度量包括兴趣因子、IS、PS、Jaccard系数。l零加性客观度量M在零加操作下是不变的,如果增加f00而保持相依表中所有其他的频度不变并不影响M的值.对文档分析或购物篮分析这样的应用,期望度量多在零加操作下保持不变。满足零加性的度量包括余弦(IS)和Jaccard度量,而不满足该性质的度量包括兴趣因子、PS、几率和系数。l缩放性客观度量M在行/列缩放操作下是不变的,如
37、果M(T)=M(T),其中T是频度计数为f11,f00,f10,f01的相依表。T是频度计数为k1k3f11,k2k3f10,k1k4f01,k2k4f00的相依表。MaleFemaleHigh302050Low4010507030100MaleFemaleHigh6060120Low803011014090230表6-16显示了1993年和2004年注册某课程的学生的性别和成绩的相依表。多个二元变量的度量多个二元变量的度量l使用多维相依表,可以扩展到多个变量。l例如,表6-18显示了a,b和c的3维相依表。cbbaf111f101F1+1af011f001F0+1F+11F+01F+1cbb
38、af110f100F1+0af010f000F0+0F+10F+00F+06.8 倾斜支持度分布的影响倾斜支持度分布的影响l6.1问题定义l6.2频繁项集的产生l6.3规则的产生l6.4频繁项集的紧凑表示l6.5产生频繁项集的其他方法l6.6FP增长算法l6.7关联模式的评估l6.8倾斜支持度分布的影响倾斜支持度分布的影响倾斜支持度分布的影响l许多关联分析算法的性能受输入数据的性质的影响。例如,Apriori算法的计算复杂性依赖于数据中的项数和事务的平均长度等性质。l具有倾斜支持度分布的数据集,其中大多数项具有较低或中等频率,但是少数项具有很高的频率。l图6-29显示了一个呈现这种分布的实际数
39、据集的例子。该数据取自PUMS人口普查数据。它包含49046条记录和2113个非对称的二元变量。l选择合适的支持度阈值较难:如果阈值太高,则可能遗漏涉及G1中较低支持度项的有趣模式。如:在购物篮数据中,顾客很少买的昂贵商品:珠宝等如果支持度阈值太低,提取出的关联模式大幅增加。可能提取出大量的高频率项(如“牛奶”)与低频率项(如“鱼子酱”)相关联的虚假模式,这样的模式称为交叉支持(cross-support)模式。l定义6.9交叉支持模式交叉支持模式是一个项集X=i1,i2,ik,它的支持度比率小于用户指定的阈值hcl假设牛奶的支持度是70%,糖的支持度是10%,鱼子酱的支持度是0.004%.给
40、定hc=0.01,频繁项集牛奶,糖,鱼子酱是一个交叉支持模式,因为r=0.0005838.3)l低温(中心体温90次/min或大于不同年龄段正常心率范围2个标准差l气促30次/minl意识改变l明显水肿或液体正平衡(20ml/kg超过24h)l高糖血症(血糖7.7mmol/L或110mg/dl)而无糖尿病史2001年国年国际际Sepsis定定义义会会议议关于关于Sepsis诊诊断的新断的新标标准准(2)炎症反炎症反应应参数参数:l白细胞增多症(白细胞计数12109/L)l白细胞减少症(白细胞计数0.10l血浆C反应蛋白正常值2个标准差l前降钙素(降钙素原)正常值2个标准差2001年国年国际际S
41、epsis定定义义会会议议关于关于Sepsis诊诊断的新断的新标标准准(3)血流血流动动力学参数力学参数:l低血压收缩压90mmHg(1mmHg=0.133kPa),平 均 动 脉 压 40mmHg,或按年龄下降2个标准差l混合静脉血氧饱和度0.70l心排指数3.5Lmin-1m-22001年国年国际际Sepsis定定义义会会议议关于关于Sepsis诊诊断的新断的新标标准准(4)器官功能障碍指)器官功能障碍指标标:l低氧血症(PaO2/FiO2300mmHg);l急性少尿(尿量1.5或活化部分凝血激酶时间60s);l腹胀(肠鸣音消失);l血小板减少症(血小板计数40mg/L或70mmol/L)
42、。2001年国年国际际Sepsis定定义义会会议议关于关于Sepsis诊诊断的新断的新标标准准(5)组织组织灌流参数灌流参数:l高乳酸血症(3mmol/L)l毛细血管再充盈时间延长或皮肤出现花斑SepsisSepsis分级的系统分级的系统l依据易感性(predisposition)、感染或损伤状况(infection/insult)、机体反应(response)、器官功能障碍(organdysfunction)程度等推荐了一个PIRO作为脓毒症的“分阶段诊断系统”(stagingsystem),从而可以比较客观地反映病情的轻重程度,进一步完善脓毒症的诊断。lPIRO系统的基本内容包括:1素因指
43、脓毒症患者病前的基础状况、年龄、性别、文化、宗教习俗、对疾病及治疗的反应性、对脓毒症的易感性(遗传背景与基因多态性)等;2感染或损伤主要涉及感染的部位、性质和程度、致病微生物种类及其毒性产物、药物敏感性等;3要求所采用的指标和(或)标示物能够准确、客观地反映机体反应严重程度,通过临床流行病学观察以确定新的指标是否有助于脓毒症患者的分层分析;4希望建立一个类似肿瘤患者诊断的肿瘤淋巴结转移(TNM)分类系统,清晰而又准确地反映器官功能障碍程度。Sepsis Sepsis分级的依据系统分级的依据系统 项目项目 现有指标现有指标 可能新增指标可能新增指标l易感性易感性 基础疾病及其对寿命的影响基础疾病
44、及其对寿命的影响 炎症反应因子的基因多态性炎症反应因子的基因多态性(、1 1、14);14);文化及宗教背景文化及宗教背景;年龄年龄;性别性别 病原体与宿主疾病相互作用的不同特点病原体与宿主疾病相互作用的不同特点l感染状况感染状况 病原体培养及药敏试验病原体培养及药敏试验;病原体产物的检测病原体产物的检测 脂多糖脂多糖()、感染控制状况感染控制状况;甘露聚糖、细菌甘露聚糖、细菌;基因转录因子基因转录因子 因控制感染引发的病变因控制感染引发的病变 l宿宿主主反反应应 ;其其他他脓脓毒毒症症反反应应;炎炎症症激激活活的的非非特特异异性性标标记记物物(如如前前降降钙钙素素 6);6);休克休克;反应
45、蛋白反应蛋白 宿主免疫受损指标宿主免疫受损指标 如人类白细胞抗原如人类白细胞抗原 ();特异性治疗靶向特异性治疗靶向 蛋白、血小板活化因子蛋白、血小板活化因子()l器官功能障碍器官功能障碍 受损或衰竭器官数受损或衰竭器官数;细胞对损伤反应的动态评价细胞对损伤反应的动态评价 器官受损评分器官受损评分MODSMODS、(细胞凋亡细胞凋亡,细胞病理性缺氧细胞病理性缺氧,细胞应激反应细胞应激反应)脓毒症相关器官衰竭评估脓毒症相关器官衰竭评估(SOFA)(SOFA)等等 SSC-Phase2lSurvivingSepsisCampaignguidelinesformanagement of severe
46、 sepsis and septicshock-CritCareMed2004,32(3):858-873-Intensive Care Med2004;30:5365.指南的制定(指南的制定(SSC-Phase2)l11个国际组织包括美国危重病医学会(SCCM)、欧洲危重病医学会(ESICM)、国际感染论坛(ISF)、澳大利亚新西兰危重病医学会(ANZICS)、美国危重病护理学会(AACCN)、美国胸科医师学会(ACCP)、美国急诊医师学会(ACEP)、美国胸腔学会(ATS)、欧洲呼吸学会(ERS)、欧洲微生物与感染学会和外科感染学会(SIS)。危重病、呼吸、感染、外科和护理专家的共同参与,
47、充分反映了指南的权威性和普遍性,该指南将成为严重感染和感染性休克治疗的国际纲领性文件。指南的制定(指南的制定(SSC-Phase2)l指南的制订是建立在循证医学基础上的。l首先从Medline检索过去10年的临床研究文献。l检索范围包括感染(infection)、全身性感染、严重感染、感染性休克和感染综合征等相关文献。对每一项临床研究进行评估和分级,评估内容包括研究方法是否随机、双盲,结果是否清晰。所有文献被分为不同亚组,并且由23个专家评估,以2830d存活为标准评估存活,根据大样本的全身性感染的研究结果,以预后改善作为制订推荐级别的依据,专家对临床分级有分歧时,增加一名流行病学专家一起讨论
48、,每个专家均提出各自的意见,统一记录,此后进行电视、电话会议交流。SSC委员会的主要成员于2003年10月就制订指南召开第2次会议,并在2003年12月定稿。最终来自上述11个组织的44位危重病、呼吸和感染疾病专家,完成了成人与儿科治疗指南,其中成人指南中共提出46条推荐意见。指南的分级指南的分级l指南中的推荐意见依据2001年ISF提出的Delphi分级标准推荐级别标准研究课题分级标准lA至少有2项I级研究结果支持I大样本、随机研究、结果清晰,假阳性或假阴性的错误很低lB仅有1项I级研究结果支持II小样本、随机研究,结果不确定,假阳性和(或)假阴性的错误较高lC仅有II级研究结果支持III非
49、随机、同期控制研究lD至少有1项III级研究结果支持IV非随机、历史控制和专家意见lE仅有IV级或V级研究结果支持V病例报道,非控制研究和专家意见 治疗指南概要治疗指南概要1 1 早早期期复复苏苏(早早期期目目标标治治疗疗Early Early goal-directed goal-directed therapy therapy EGDT EGDT-N Engl J Med.2001 Nov 8;345(19):1368-77.-N Engl J Med.2001 Nov 8;345(19):1368-77.)1.1 1.1 一一旦旦临临床床诊诊断断严严重重感感染染,应应尽尽快快进进行行积积
50、极极的的液液体体复复苏苏6h6h内内达到复苏目标达到复苏目标:l中心静脉压中心静脉压(CVP(CVP)8-12mmHg(l cmH8-12mmHg(l cmH2 2O=7.5mmHg);O=7.5mmHg);机机械械通通气气和和腹腹高高压压可可导导致致患患者者胸胸腔腔内内压压增增高高,因因此此本本指指南南特特别别提提出对于机械通气和腹高压的患者出对于机械通气和腹高压的患者,CVPl2-15mmHg,CVPl2-15mmHg作为复苏目标。作为复苏目标。l平均动脉压平均动脉压65mm Hg;(MAP=65mm Hg;(MAP=舒张压舒张压+1/3+1/3脉压差脉压差)l尿量尿量 0.5ml kg