数据挖掘技术十课Bayes分类方法.ppt-淘文阁

资源描述

《数据挖掘技术十课Bayes分类方法.ppt》由会员分享，可在线阅读，更多相关《数据挖掘技术十课Bayes分类方法.ppt（39页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、数据挖掘技术十课Bayes分类方法 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望主要内容主要内容u朴素朴素Bayes分类分类uBayes网络网络u集成方法集成方法Bayes分类器分类器u一个用于解决分类问题的概率框架u条件概率:u Bayes定理:Bayes定理举例定理举例u给定:50%的脑膜炎患者脖子僵硬人得脑膜炎的概率是1/50,000脖子僵硬的人的概率是 1/20u若某个患者脖子僵硬,则他患脑膜炎的概率是多少?Bayes分类器分类器u将每个属性及类别标记视

4、:non-mammalsP(A|M)P(M)P(A|N)P(N)=Mammals朴素朴素Bayes分类器小结分类器小结u抗噪声能力强u在概率估算阶段，通过忽略整条记录来处理缺失值u抗无关属性的能力强u属性独立的假设可能对某些属性不成立可以使用Bayes信度网络(Bayesian Belief Networks,BBN)主要内容主要内容u朴素朴素Bayes分类分类uBayes网络网络u集成方法集成方法Bayes网络网络u20世纪80年代，Bayes网络(Bayes Network)成功应用于专家系统，成为表示不确定性专家知识和推理的一种流行的方法。在不确定性表示、可信度计算上还是使用概率方法。实

6、(XN-2|XN-1XN)P(X1|X2,XN)u实际应用中就是利用条件独立来简化网络。Bayes网络网络u一系列变量的联合概率分布的图形表示。u一个表示变量之间相互依赖关系的数据结构，图论与概率论的结合。Bayes网络（续）网络（续）u两部分结构图，有向无环图(Directed Acyclic Graph,DAG)，每个节点代表相应的变量。条件概率表(Conditional Probability Table,CPT)，一系列的概率值，表示局部条件概率分布，即P(node|parents)。Bayes网络的构造网络的构造u选择变量，生成节点u从左至右（从上到下），排列节点u填充网络连接弧，表

7、示节点之间的关系u得到条件概率关系表u条件概率表示的概率网络有时叫“Belief Nets”由由Bayes网络计算概率网络计算概率u简单的联合概率可以直接从网络关系上得到，如：uP(X,Y,Z)=P(X)P(Y)P(Z|X,Y)XZYP(X)P(Z|Y,X)P(Y)Bayes网络举例网络举例假设：命题S(Smoker)：该患者是一个吸烟者命题C(Coal Miner)：该患者是一个煤矿矿井工人命题L(Lung Cancer)：他患了肺癌命题E(Emphysema)：他患了肺气肿u已知：S对L和E有因果影响，C对E也有因果影响。u命题间的关系可以描绘成Bayes网络。每个节点代表一个证据每

10、)P(E|C,S)*P(C,S)/P(S)P(E|C,S)*P(C)同理可得右边的第二项为：P(E,C|S)=P(E|C,S)*P(C)。由此可得：P(E|S)=P(E|C,S)*P(C)+P(E|C,S)*P(C)P(C)=1 P(C)，则有：P(E|S)0.9*0.3+0.3*(1-0.3)=0.48Bayes网络的诊断推理网络的诊断推理u在Bayes网中，从一个子节点出发计算父节点的条件概率，即从结果推测起因。u主要操作：使用Bayes公式把诊断推理转换成因果推理。诊断推理举例诊断推理举例计算在不得肺气肿的人中，不是矿工的概率，即P(C|E)。P(C|E)=P(E|C)*P(C)/P(E

12、ttp:/ u给定S个样本。u在S中做有替代的抽样，其结果记为T，S中原来的样本在T中可出现多次，也可一次都不出现。u重复这种抽样，得到k个独立的训练集。u使用同样的算法在这些训练集上构建k个分类器C1,C2,Ck。u对一个待分类样本i，每个分类器都独立对其进行分类。u样本i的类别标记为大多数分类器给出的类别。Boosting:核心思想核心思想u弱分类器:每个分类器的正确率都不高。uBoosting:顺序将弱分类器应用于不断修改的训练数据。u最终也是采用投票，类别取多数的原则。u最初，所有数据的权重都相等。u每次使用一个分类器对数据进行分类后，都相应修改数据的权重。在使用第m个分类器Cm对数据进行分类时，被Cm-1分错的数据的权重增加，分对的数据的权重降低。u每个分类器都关注于被前面的分类器所分错的数据。Bagging与与Boosting训练集的选择预测/分类函数的权重预测/分类函数的生成Bagging随机的，各轮训练集间相互独立无权重并行生成Boosting训练集不独立，各轮训练集的选择与前面的结果有关有权重顺序生成

展开阅读全文