《(本科)第7章关联规则ppt课件.pptx》由会员分享,可在线阅读,更多相关《(本科)第7章关联规则ppt课件.pptx(43页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、课程主讲人:第7章关联规则医学大数据分析关联规则高等教育出版社CONTENTS目 录1基本概念2 Apriori算法3 FP-Growth算法4关联规则评估方法1基本概念关联规则就是在数据集中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。基本概念u疾病疾病与症状间的关联与症状间的关联规则规则u疾病疾病并发症的关联并发症的关联研究研究u用药用药和方剂配方规则和方剂配方规则研究研究u病症病症辨证处方关联辨证处方关联研究研究u药物药物间相互作用分析间相互作用分析、u药品药品分类和剂型关联分类和剂型关联分析分析u症状症状与药物间的关联与药物间的关联关系关系 .在医学领域的应用关
2、联规则支持度项集项的集合。基本概念事务与事务集置信度关联规则的支持度基本概念0101关联规则的置信度基本概念0102最小支持度和最小置信度基本概念0103频繁项集基本概念0104强关联规则05支持度和置信度都大于等于阈值的规则称为强关联规则,否则称为弱关联规则。Apriori算法该算法主要包含两个步骤:第一步找出事务数据库中所有大于等于用户指定的最小支持度的数据项集;第二步是利用频繁项集生成所需要的关联规则,根据用户设定的最小置信度进行取舍,最后得到强关联规则。FP-Growth算法该算法采用分而治之的策略,在经过第一遍扫描之后,把数据库中的频集压缩进一颗频繁模式树(FP-tree),同时依然
3、保留其中的相关信息,随后再将FP-tree分化成一些条件库,每个库和一个长度为1的频集相关,然后再对这些条件库分别进行挖掘。数据降维主要有以下两种方法关联规则算法2Apriori算法(1)找出所有频繁项集;(2)有频繁项集产生强关联规则。算法基本思想Apriori算法0101算法步骤Apriori算法0102利用Apriori算法分析疾病之间的联系。分析高血压、糖尿病、脑血栓、肺结核和风湿这几种疾病是否存在关联,初始数据如表7-1所示。假设最小支持度是50%,最小置信度是70%,可以得到哪些关联规则?算法举例Apriori算法0103患者编号患者编号患病情况患病情况1高血压、脑血栓、肺结核2糖
4、尿病、脑血栓、风湿3高血压、糖尿病、脑血栓、风湿4糖尿病、风湿算法举例Apriori算法0103项集项集支持度计数支持度计数是否频繁项集是否频繁项集高血压高血压2Y糖尿病糖尿病3Y脑血栓脑血栓3Y肺结核肺结核1N风湿风湿3Y算法举例Apriori算法0103项集项集支持度计数支持度计数是否频繁项集是否频繁项集高血压,糖尿病高血压,糖尿病1N高血压,脑血栓高血压,脑血栓2Y高血压,风湿高血压,风湿1N糖尿病,脑血栓糖尿病,脑血栓2Y糖尿病,风湿糖尿病,风湿3Y脑血栓,风湿脑血栓,风湿2Y算法举例Apriori算法0103项集项集支持度计数支持度计数是否频繁项集是否频繁项集糖尿病,脑血栓,风湿糖尿
5、病,脑血栓,风湿2Y求置信度Apriori算法0103根据最小置信度,根据最小置信度,得到得到如下规则:如下规则: 糖尿病糖尿病,脑血栓,脑血栓-风湿;风湿; 脑血栓脑血栓,风湿,风湿-糖尿病;糖尿病;算法举例Apriori算法01033FP-Grown算法将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree),该树仍保留项集的关联信息。然后,把这种压缩后的数据库划分成一组条件数据库(一种特殊类型的投影数据库),每个数据库关联一个频繁项或“模式段”,并分别挖掘每个条件数据库。算法基本思想FP-Grown算法0101输入:事务数据库D,最小支持度阈值min_sup。输出:频繁模式的完全集。
6、第一步:构造FP-tree:第二步:根据FP-tree挖掘频繁项集。算法描述FP-Grown算法0102(1)扫描数据库D一次。收集频繁项的集合F和它们的支持度。对F按支持度降序排序,结果为频繁项表L;(2)创建FP-Tree的根节点,以“null”标记它。对于D中每个事物T,执行:选择T中的频繁项,并按L中的次序排序。设排序后的频繁项表为p|P,其中p是第一个元素,而P是剩余元素的表。调用insert_tree(p|P,T)。第一步:构造FP-treeFP-Grown算法0102第二步:根据FP-tree挖掘频繁项集FP-Grown算法0102利用FP-growth算法分析疾病之间的联系。假
7、设最小支持度计数是3,找出高血压的频繁集。算法举例FP-Grown算法0103患者编号患病情况1风湿,脑血栓,糖尿病,高血压2肺结核,糖尿病3糖尿病,风湿4脑血栓,风湿 ,肺结核5肺炎,糖尿病,脑血栓,高血压6脑血栓,高血压,糖尿病,风湿频繁1-项集算法举例FP-Grown算法0103患病项目支持计数是否频繁项集糖尿病5Y脑血栓4Y风湿4Y高血压3Y肺结核2N肺炎1N按照频繁项次序重新排序后的患病情况算法举例FP-Grown算法0103患者编号患病情况1糖尿病,脑血栓,风湿,高血压2糖尿病,肺结核3糖尿病,风湿4脑血栓,风湿 ,肺结核5糖尿病,脑血栓,高血压,肺炎6糖尿病,脑血栓,风湿,高血压
8、生成FP-树FP-Grown算法0103Root糖尿病:糖尿病:1脑血栓:脑血栓:1风湿:风湿:1高血压:高血压:1Root糖尿病:糖尿病:2脑血栓:脑血栓:1风湿:风湿:1高血压:高血压:1Root糖尿病:糖尿病:3脑血栓:脑血栓:1风湿:风湿:1高血压:高血压:1风湿:风湿:1生成FP-树FP-Grown算法0103Root糖尿病:糖尿病:5脑血栓:脑血栓:3风湿:风湿:2高血压:高血压:2高血压:高血压:1脑血栓:脑血栓:1风湿:风湿:1糖尿病:糖尿病:5 脑血栓:脑血栓:4 风湿:风湿:4 高血压:高血压:3 风湿:风湿:1高血压频繁模式算法举例FP-Grown算法0103支持计数高血
9、压3糖尿病, 高血压3脑血栓, 高血压3糖尿病, 脑血栓, 高血压34关联规则方法评估提升度相关分析0101 如果式lift的值小于1,则A的出现和B的出现是负相关的,意味一个出现可能导致另一个不出现。如果结果值大于1,则A和B是正相关的,意味每一个的出现都蕴涵另一个的出现。如果结果值等于1,则A和B是独立的,它们之间没有相关性。提升度相关分析0101 使用提升度进行相关分析,分析口罩和面巾纸是否存在负相关。提升度举例相关分析0102购买口罩 没有购买口罩合计购买面巾纸400035007500没有购买面巾纸20005002500合计6000400010000提升度举例相关分析0102提升度举例
10、相关分析0102数据集: 乳腺癌复发数据集来自OpenML,是由南斯拉夫卢布尔雅那大学肿瘤研究所的M. Zwitter 和 M. Soklic 于1988年捐赠。数据集一共有286个实例,其中复发85例,没有复发的是201例。每个实例有10个属性关联规则应用案例 分析乳腺癌复发数据,提取有用规则关联规则应用案例 分析乳腺癌复发数据,提取有用规则属性名属性名含义含义取值范围取值范围age年龄20-29, 30-39, 40-49, 50-59, 60-69, 70-79menopause绝经情况lt40(40岁之前绝经), ge40(40岁之后绝经), premeno(还未绝经)tumor-si
11、ze肿瘤大小0-4, 5-9, 10-14, 15-19, 20-24, 25-29, 30-34, 35-39, 40-44, 45-49, 50-54inv-nodes受侵淋巴结数0-2, 3-5, 6-8, 9-11, 12-14, 15-17, 18-20node-caps有无结节冒yes, nodeg-malig恶性肿瘤程度1, 2, 3breast肿块位置left, rightbreast-quad肿块所在象限left-up, left-low, right-up, right-low, centralirradiat是否放疗yes, noClass是否复发no-recurrenc
12、e-events, recurrence-events关联规则应用案例 分析乳腺癌复发数据,提取有用规则属性名属性名含义含义取值范围取值范围age年龄A1,A2,A3,A4,A5,A6menopause绝经情况M1,M2,M3tumor-size肿瘤大小T1,T2,T3,T4,T5,T6,T7,T8,T9,T10,T11inv-nodes受侵淋巴结数IN1,IN2,IN3,IN4,IN5,IN6,IN7node-caps有无结节冒N1,N0deg-malig恶性肿瘤程度D1,D2,D3breast-quad肿块所在象限BQ1,BQ2,BQ3,BQ4,BQ5irradiat是否放疗IR1,IR0Class是否复发C0,C1将原始数据转换成字符关联规则应用案例 分析乳腺癌复发数据,提取有用规则显示前15条规则THANKS本讲结束高等教育出版社