决策树算法及应用拓展.ppt

上传人:wuy****n92 文档编号:80419779 上传时间:2023-03-23 格式:PPT 页数:41 大小:752.50KB
返回 下载 相关 举报
决策树算法及应用拓展.ppt_第1页
第1页 / 共41页
决策树算法及应用拓展.ppt_第2页
第2页 / 共41页
点击查看更多>>
资源描述

《决策树算法及应用拓展.ppt》由会员分享,可在线阅读,更多相关《决策树算法及应用拓展.ppt(41页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、决策树算法及应用拓展内容简介:概述预备知识决策树生成(Building Decision Tree)决策树剪枝(Pruning Decision Tree)捕捉变化数据的挖掘方法小结概述(一)传统挖掘方法的局限性只重视从数据库中提取规则,忽视了库中数据的变化挖掘所用的数据来自稳定的环境,人为干预较少概述(二)捕捉新旧数据变化的目的:挖掘出变化的趋势例:啤酒尿布阻止/延缓不利变化的发生例:金融危机银行的信贷策略差异挖掘算法的主要思想:合理比较新/旧数据的挖掘结果,并清晰的描述其变化部分预备知识一(Building Tree)基本思想:用途:提取分类规则,进行分类预测判定树分类算法output训练

2、集决策树input使用决策树进行分类决策树 一个树性的结构内部节点上选用一个属性进行分割每个分叉都是分割的一个部分叶子节点表示一个分布决策树生成算法分成两个步骤树的生成开始,数据都在根节点递归的进行数据分片树的修剪去掉一些可能是噪音或者异常的数据决策树使用:对未知数据进行分割按照决策树上采用的分割属性逐层往下,直到一个叶子节点决策树算法基本算法(贪心算法)自上而下分而治之的方法开始时,所有的数据都在根节点属性都是种类字段(如果是连续的,将其离散化)所有记录用所选属性递归的进行分割属性的选择是基于一个启发式规则或者一个统计的度量(如,information gain)停止分割的条件一个节点上的数

3、据都是属于同一个类别没有属性可以再用于对数据进行分割伪代码(Building Tree)Procedure BuildTree(S)用数据集S初始化根节点R 用根结点R初始化队列QWhile Q is not Empty do 取出队列Q中的第一个节点Nif N 不纯(Pure)for 每一个属性 A估计该节点在A上的信息增益 选出最佳的属性,将N分裂为N1、N2属性选择的统计度量信息增益Information gain(ID3/C4.5)所有属性假设都是种类字段经过修改之后可以适用于数值字段基尼指数Gini index(IBM IntelligentMiner)能够适用于种类和数值字段信息增

4、益度度量(ID3/C4.5)任意样本分类的期望信息:I(s1,s2,sm)=Pi log2(pi)(i=1.m)其中,数据集为S,m为S的分类数目,PiCi为某分类标号,Pi为任意样本属于Ci的概率,si为分类Ci上的样本数由A划分为子集的熵:E(A)=(s1j+smj)/s*I(s1j+smj)A为属性,具有V个不同的取值信息增益:Gain(A)=I(s1,s2,sm)E(A)训练集(举例)ID3算法使用信息增益进行属性选择gClass P:buys_computer=“yes”gClass N:buys_computer=“no”gI(p,n)=I(9,5)=0.940gCompute t

5、he entropy for age:HenceSimilarlyDecision Tree(结果输出)age?overcaststudent?credit rating?noyesfairexcellent40nonoyesyesyes30.40基尼指数 Gini Index(IBM IntelligentMiner)集合T包含N个类别的记录,那么其Gini指标就是pj 类别j出现的频率如果集合T分成两部分 N1 and N2。那么这个分割的Gini就是提供最小Ginisplit 就被选择作为分割的标准(对于每个属性都要遍历所有可以的分割方法).预备知识二(Pruning Tree)目的:消

6、除决策树的过适应(OverFitting)问题实质:消除训练集中的异常和噪声两种方法:先剪枝法(Public 算法)后剪枝法(Sprint 算法)两种剪枝标准最小描述长度原则(MDL)思想:最简单的解释最期望的做法:对Decision-Tree 进行二进位编码,编码所需二进位最少的树即为“最佳剪枝树”期望错误率最小原则思想:选择期望错误率最小的子树进行剪枝对树中的内部节点计算其剪枝/不剪枝可能出现的期望错误率,比较后加以取舍Cost of Encoding Data Records对n条记录进行分类编码的代价(2种方法)n 记录数,k 类数目,ni属于类i的记录数Cost of Encodin

7、g Tree编码树结构本身的代价编码每个分裂节点的代价确定分类属性的代价确定分类属性值的代价&其中,v是该节点上不同属性值的个数编码每个树叶上的记录分类的代价剪枝算法设N为欲计算其最小代价的节点两种情形:N是叶结点C(S)+1 Cost1N是内部节点,有两个子节点N1、N2已剪去N1、N2,N成为叶子节点 Cost1计算N节点及其子树的代价,使用递归过程 Csplit(N)+1+minCost1+minCost2 Cost2 比较Cost1和Cost2,选取代价较小者作为返回值计算最小子树代价的伪代码Procedure ComputeCost&Prune(Node N)if N 是叶子节点,r

8、eturn(C(S)+1)minCost1=Compute&Prune(Node N1)minCost2=Compute&Prune(Node N2)minCostN=minC(S)+1,Csplit(N)+1+minCost1 +minCost2 if minCostN=C(S)+1 Prune child nodes N1 and N2 return minCostN引入Public算法一般做法:先建树,后剪枝Public算法:建树的同时进行剪枝思想:在一定量(用户定义参数)的节点分裂后/周期性的进行部分树的剪枝存在的问题:可能高估(Over-Estimate)被剪节点的值改进:采纳低估(

9、Under-Estimate)节点代价的策略具体思路三种叶节点:有待扩展:需计算子树代价下界不能扩展(纯节点)剪枝后的结点C(S)+1改进算法的伪代码Procedure ComputCoste&Prune(Node N)If N是仍待扩展的结点,return N节点的代价下界 If N是纯节点或不可扩展的叶节点,return(C(S)+1)两个子节点N1、N2 minCost1=Compute&Prune(Node N1)minCost2=Compute&Prune(Node N2)minCostN=minC(S)+1,Csplit(N)+1+minCost1 +minCost2 if min

10、CostN=C(S)+1 Prune child nodes N1 and N2 return minCostN计算子树代价下界Public(1)假设节点N的代价至少是1Public(S)S split计算以N为根且包含S个分裂点的子树代价的下界(包括确定分裂节点属性的代价)Public(V)V split value同上,还包括确定分裂节点值的代价Public(S)算法(一)相关概念Public(S)算法(二)定理:任何以N为根结点且有S个分裂点的子树的代价至少是2*S+1+S*log a+ni i=s+2.k 证明:编码树结构代价 2*S+1确定节点分裂属性的代价 S*log a 编码S+

11、1个叶子结点的代价 ni i=s+2.k Public(S)算法(证明一)证明:编码S+1个叶子节点的代价至少为 ni i=s+2.k 相关概念:1.主要类(Majority Class):if ,有 ,则Ci为主要类2.少数类(Minority Class):if thenCj为少数类Public(S)算法(证明二)题设:子树N有S个分裂点(Split),K个类 S+1个叶子节点 至多有S+1个主要类 至少有K-S-1个少数类 取Ci为某少数类,C(Sj)为编码叶子节点j上记录的代价 又有 C(S)nij 编码具有类 i 且位于叶子节点 j 的记录的代价是nij 所有少数类的代价 Cost=

12、ni i少数类计算minCost_S的代码Procedure computeMinCostS(Node N)If k=1 return(C(S)+1)S=1tmpCost=2*S+1+S*log a+i ni i=s+2.k While s+12+log a dotmpCost=tmpCost+2+log a-ns+2S+Return minC(S)+1,tmpCostPublic(S)示例16,truck,high24,sports,high1+log21+11N65,family,low34,truck,low32,sports,mediN1+log21+log21116,truck,hi

13、gh24,sports,high32,sports,medi65,family,low34,truck,low1Public(V)算法计算分类节点值的代价:编码叶子节点记录的代价 i=1.k (1)在所有内部节点编码分裂节点值的代价 (2)总代价 (1)+(2)其中,Cj是叶子节点j上的主要类;M是S+1个叶子节点上的主要类的集合算法比较Sprint:传统的二阶段“构造剪枝”算法Public(1):用保守的估计值1取代欲扩展节点的代价下界Public(S):考虑具有分裂点的子树,同时计算为确定分裂节点及其属性的代价下界Public(V):比前者准确,需计算确定结点上属性值的代价下界实验数据(R

14、eal-life)实验结果(一)产生的节点数目产生的节点数目实验结果(二)执行时间执行时间(S)算法结果分析总体上,比Sprint算法有较大改进相对于最后的剪枝树仍有多余的结点,有待改进挖掘效率与数据分布及噪声有关言归正传捕捉数据变化的挖掘方法新生成一棵决策树与旧树完全没有关系生成一棵相关的树未达到旧树中叶节点的深度超出了旧树中相应节点的深度相同的属性,最好的划分(best cut)相同的属性,相同的划分方法三的对应算法使新树与旧树有相同的属性和划分,且能及早停止测试在旧树中每个叶子节点的错误变化的情况进一步生成新的树剪枝移除那些无预测特性的分枝比较新、旧树,识别变化部分标识几种不同的变化类型

15、区域的连接:旧树中的划分不必要边界的移动:旧树中的划分移到了新的位置进一步细化(Refinement):旧树中的叶结点不足以描述新生成数据类标号变化:旧树中的节点类标号发生了变化错误率的变化覆盖率的变化:某个节点具有的数据量的比率小结Building Decision Tree算法Pruning Decision Tree算法Public 算法Public(1)算法Public(s)算法Public(v)算法识别数据变化的挖掘算法个人观点计算分裂点属性代价下界的算法代码Procedure ComputeMinCostS(Node N)If K=1 return(C(S)+1)S=1tmpCost=2*S+1+S*log a+ni i=s+1.kWhile S+12+log a do tmpCost=tmpCost+2+log a s+Return min C(S)+1,tmpCost

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁