《GRI关联规则与clementine实现.ppt》由会员分享,可在线阅读,更多相关《GRI关联规则与clementine实现.ppt(22页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、9.3 Clementine的GRI算法及应用(Generalized Rule Induction in Clementine),GRI关联规则,关联规则,提出: 关联法则最早由Agrawal、Imielinski和Swami于1993年首先提出挖掘顾客事务数据库中项集间的关联规则问题。 定义: 关联规则是发现事务数据库中不同商品(项)之间的联系,这些规则找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响。 应用: 发现这样的规则可以应用于商品货架设计、货存安排以及根据购买模式对用户进行分类。,Generalized Rule Induction,概念: GRI是关联法则的一種算法。
2、 目的:发现数据库间的关联规则,找出某种行为模式。 关联规则语句形式为: if antecedent(前提) thenconsequent(结果) 例子:如果一名顾客购买了一把刮胡刀,则有80的把握说顾客会购买刮胡膏。 GRI从数据中提取一组规则,找出信息容量最高的规则。信息容量的度量采用指数衡量,该指数把规则的普适性(支持度Support)和精确性(置信度confidence)都考虑在内。,Generalized Rule Induction,支持度(Support):指在训练集中满足前提条件记录占全部记录的百分比。 可信度(Confidence):前提条件为真的记录中结论也为真的记录所占的
3、百分比。 比如说,在一百笔交易的数据中,买铁锤也同时买铁钉的人有62笔。假设我们将support值定为60%,那么买铁锤也同时会买铁钉这样的关联已经超过support值了。可是得在进一步分析其confidence值。假设在100笔资料中买铁槌的有80笔,那么confidence值算法是:买铁锤也同时会买铁钉的比数/买铁锤的总比数=62/80=77.5%。 关联规则:产生支持度和可信度分别大於设定的最小支持度和最小可信度的关联规则。,Generalized Rule Induction,算法步骤,Generalized Rule Induction,J-值是GRI算法的核心,主要是利用交互熵的概
4、念,J-值的公式如下(其中 表前项, 表后项):(见258页表9-4,给出了关联规则的生成),Generalized Rule Induction,要求:要建立GRI规则组,需要 一个以上的In字段和一个以上的Out字段。 输出字段(方向为Out或Both)必须爲字符型字段。 优点:与其他如NeuralNetwork方法不同,规则组通常相当容易解释。 GRI节点也可以处理多重输出字段。 GRI节点既能处理字符型输入字段又能处理数值型输入字段。,Generalized Rule Induction,与Apriori对比 GRI可以处理多重输出栏位。与Apriori不同,GRI既能处理字符型输入字
5、段又能处理数值型输入字段,Apriori要求输入和输出字段均為分类型字段。 对于大型问题,Apriori通常比GRI训练得快。Apriori对可保留规则数量没有专门的限制,可以处理有多达32个前提的规则。Apriori提供五种训练方法,在使数据采矿方法配合可能出现的问题方面有更大的灵活性。,GRI in Clementine,节点和模型的名字,如果用户定义了分割数据集,选择训练集作为建模数据集,并利用测试集对模型评价。,最小的条件支持度,最小的可信度,指定规则的最大前提条件数(即antecedent里条件的个数)。这是限制规则复杂程度的一种方法。如果规则过于复杂或者过于具体,或计算时间过长,可
6、以尝试降低该项设置。,保留在规则集中的规则数,即结果中consequent的数目。规则按照重要性(由GRI算法计算出)递减的顺序排列。规则集所含规则数可能会比指定的要少,特别是在使用严格的信赖准则或支持准则时。,如果选择了该选项,只有真值会出现在最终的规则中,只有支持度和可信度大于上述两个的最小值时,该规则才成立,GRI in Clementine,可以使用type节点定义的输出和输入变量,也可以另外自己选择输入、输出变量。,GRI in Clementine,生成的节点的名字:可以为默认的名称(以输出变量为名),也可以自定义,案例分析,数据情况: 来源:BASKETS1n 变量: 购物篮概貌
7、: cardid.该购物篮用户的VIP卡卡号 value.该购物篮付款总额. pmethod.该购物篮付款方法.(card/cash/cheque) 持卡者详细的个人信息: sex性别 homeown.持有信用卡的人是否是有自己的住房 income收入 age年龄,案例分析,购物篮内容: fruitveg水果蔬菜 freshmeat新鲜肉品 dairy牛奶 cannedveg罐装蔬菜 cannedmeat罐装肉品 frozenmeal冷冻肉品 beer啤酒 wine酒 softdrink苏打饮料 fish鱼 confectionery糖果,案例分析,考察的案例: 探寻不同购买物品之间的联系,为
8、货架的摆放提供依据,案例分析,案例分析,输入变量(in):所有购物篮内容 输出变数(out):所有购物篮内容,NOTE:因为这里只是使用举例,所以为了结果的简洁和计算的效率,采用了如图所设的参数设定,案例分析,Maximum number of rules=1030,Maximum number of antecedents=2,后项,案例分析,可信度越高,说明该条规则分类预测准确率越高,越重要。,案例分析,符合分析条件的购物篮内容关联规则如下: cannedveg and frozenmeal frozenmeal beer Cannedveg frozenmeal and beer Frozenmeal Beer cannedveg cannedveg and beer wine confectionery,cannedveg,frozenmeal,案例分析,可以看到,基本可以分为两类: cannedveg(罐装蔬菜 )、frozenmeal(冷冻肉品)、beer(啤酒) wine(酒) 、confectionery(糖果),案例分析,案例结论: 在摆放货架时,应该把罐装蔬菜、冷冻肉品和啤酒放在相邻的位置,把酒和糖果放在一起。,Thanks for your listening,