《决策树优秀课件.ppt》由会员分享,可在线阅读,更多相关《决策树优秀课件.ppt(60页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、决策树课件1第1页,本讲稿共60页主要内容n决策树算法概述决策树算法概述n从学习角度看,决策树属有指导学习算法从学习角度看,决策树属有指导学习算法n目标:用于分类和回归目标:用于分类和回归nC5.0C5.0算法及应用算法及应用n分类回归树及应用分类回归树及应用nCHAIDCHAID算法及应用算法及应用nQUESTQUEST算法及应用算法及应用n模型的对比分析模型的对比分析第2页,本讲稿共60页决策树算法概述:基本概念n得名其分析结论的展示方式类似一棵倒置的树得名其分析结论的展示方式类似一棵倒置的树根节点根节点叶节点叶节点中间节点中间节点2 2叉树和多叉树和多叉树叉树第3页,本讲稿共60页决策树
2、算法概述:特点体现了对样本数据的不断分组过程体现了对样本数据的不断分组过程决策树分为分类树和回归树决策树分为分类树和回归树体现了输入变量和输出变量取值的逻辑关系体现了输入变量和输出变量取值的逻辑关系逻辑比较形式表述的是一种推理规则逻辑比较形式表述的是一种推理规则每个叶节点都对应一条推理规则每个叶节点都对应一条推理规则对新数据对象的分类预测对新数据对象的分类预测第4页,本讲稿共60页决策树算法概述:几何理解决策树建立的过程就是决策树各个分枝依次形成的过决策树建立的过程就是决策树各个分枝依次形成的过程程决策树的每个分枝在一定规则下完成对决策树的每个分枝在一定规则下完成对n n维特征空间维特征空间的
3、区域划分的区域划分决策树建立好后,决策树建立好后,n n维特征空间会被划分成若干个小的边维特征空间会被划分成若干个小的边界平行或垂直于坐标轴的矩形区域界平行或垂直于坐标轴的矩形区域第5页,本讲稿共60页确定每一步特征空间划分标准时,都同时兼顾由此将形确定每一步特征空间划分标准时,都同时兼顾由此将形成的两个区域,希望划分形成的两个区域所包含的样本成的两个区域,希望划分形成的两个区域所包含的样本点尽可能同时点尽可能同时“纯正纯正”第6页,本讲稿共60页决策树算法概述:核心问题第一,决策树的生长第一,决策树的生长利用训练样本集完成决策树的建立过程利用训练样本集完成决策树的建立过程第二,决策树的剪枝第
4、二,决策树的剪枝利用测试样本集对所形成的决策树进行精简利用测试样本集对所形成的决策树进行精简第7页,本讲稿共60页决策树算法概述:树生长决策树的生长是对训练样本集的不断分组决策树的生长是对训练样本集的不断分组分枝准则的确定涉及:分枝准则的确定涉及:第一,如何从众多的输入变量第一,如何从众多的输入变量中选择一个当前最佳的分组变中选择一个当前最佳的分组变量量第二,如何从分组变量的众第二,如何从分组变量的众多取值中找到一个最佳的分多取值中找到一个最佳的分割点割点第8页,本讲稿共60页决策树算法概述:树剪枝树剪枝的原因:完整的决策树对训练样本特征的捕捉树剪枝的原因:完整的决策树对训练样本特征的捕捉“过
5、过于精确于精确”-过拟和(过拟和(OverfittingOverfitting)常用的修剪技术:常用的修剪技术:预修剪(预修剪(pre-pruningpre-pruning):用来限制决策树的):用来限制决策树的充分生长。策略:充分生长。策略:事先指定决策树生长的最大深度事先指定决策树生长的最大深度事先指定树节点样本量的最小值事先指定树节点样本量的最小值后修剪(后修剪(post-pruningpost-pruning):待决策树充分生长):待决策树充分生长完毕后再进行剪枝完毕后再进行剪枝第9页,本讲稿共60页决策树算法概述:树剪枝后修剪:待决策树生长完毕,根据一定规则,剪去不具一后修剪:待决策
6、树生长完毕,根据一定规则,剪去不具一般代表性的子树。策略:般代表性的子树。策略:事先指定允许的最事先指定允许的最大误差值大误差值通常依据测试样本通常依据测试样本集剪枝集剪枝第10页,本讲稿共60页C5.0算法C5.0C5.0是在是在ID3(J R Quinlan,1979)ID3(J R Quinlan,1979)基础上发展起来。基础上发展起来。C5.0C5.0是是C4.5C4.5算法的商业化版本算法的商业化版本特点:特点:C5.0C5.0用于建立多叉分类树用于建立多叉分类树输入变量是分类型或数值型,输出变量应为分输入变量是分类型或数值型,输出变量应为分类型类型以信息增益率确定最佳分组变量和分
7、割点以信息增益率确定最佳分组变量和分割点第11页,本讲稿共60页C5.0算法:熵信息熵是信息论信息熵是信息论(C.E.Shannon,1948)(C.E.Shannon,1948)中的基本概念。中的基本概念。信息论主要用于解决信息传递过程中的问题,也称统信息论主要用于解决信息传递过程中的问题,也称统计通信理论计通信理论信息论的基本出发点认为:信息论的基本出发点认为:信息传递通过由信源、信道和信宿组成的传递信息传递通过由信源、信道和信宿组成的传递系统实现系统实现信道信道信源信源(发送端发送端)信宿信宿(接收端接收端)第12页,本讲稿共60页C5.0算法:熵信息论的基本出发点认为:信息论的基本出发
8、点认为:传递系统存在于一个随机干扰环境之中传递系统存在于一个随机干扰环境之中将发送的信息记为将发送的信息记为U U,接收的信息记为,接收的信息记为V V,那么,那么信道可看作为信道模型,记为信道可看作为信道模型,记为P(U|V)P(U|V)信道信道信源信源(发送端发送端)U Uu1,u2,.uru1,u2,.ur信宿信宿(接收端接收端)V Vv1,v2,.vqv1,v2,.vqP(U|V)P(U|V)第13页,本讲稿共60页C5.0算法:熵信道模型是一个条件概率矩阵信道模型是一个条件概率矩阵P(U|V)P(U|V),称为信道传输概,称为信道传输概率矩阵率矩阵P(ui|vj)是信宿收到是信宿收到
9、vj而信源发出而信源发出ui的概率的概率,且,且信源也同样被看做是某种随机过程,有:信源也同样被看做是某种随机过程,有:第14页,本讲稿共60页C5.0算法:熵例如:二元信道模型例如:二元信道模型第15页,本讲稿共60页C5.0算法:熵先验不确定性:通信发生前,信宿对信源的状态具有不先验不确定性:通信发生前,信宿对信源的状态具有不确定性确定性后验不确定性:通信发生后,信宿收到发自信源的信息,先后验不确定性:通信发生后,信宿收到发自信源的信息,先验不确定性部分被消除,信宿对信源仍有一定程度的不确定验不确定性部分被消除,信宿对信源仍有一定程度的不确定性性后验不确定性等于先验不确定性,表示信宿没有后
10、验不确定性等于先验不确定性,表示信宿没有收到信息;收到信息;后验不确定性等于零,表示信宿收到了全部信息后验不确定性等于零,表示信宿收到了全部信息信息是用来消除随机不确定性的,信息量的大小信息是用来消除随机不确定性的,信息量的大小可由所消除的不确定性大小来计量可由所消除的不确定性大小来计量第16页,本讲稿共60页C5.0算法:熵信息量的数学定义:信息量的数学定义:信息熵是信息量的数学期望,是信源发出信息前的平均不信息熵是信息量的数学期望,是信源发出信息前的平均不确定性,也称先验熵。信息熵的数学定义:确定性,也称先验熵。信息熵的数学定义:信息熵等于信息熵等于0,表示只存在唯一的信息发送可能表示只存
11、在唯一的信息发送可能,P(ui)=1,没有发送的不确定性没有发送的不确定性;如果信源的如果信源的k个信号有相同的发送概率个信号有相同的发送概率,P(ui)=1/k,则信息则信息发送的不确定性最大,信息熵达到最大发送的不确定性最大,信息熵达到最大P(ui)差别小,信息熵大,平均不确定性大;反之差别小,信息熵大,平均不确定性大;反之第17页,本讲稿共60页C5.0算法:信息增益已知信号已知信号U的概率分布的概率分布P(U)且收到信号且收到信号V=vj,发出信号的发出信号的概率分布为概率分布为P(U|vj),信源的平均不确定性:信源的平均不确定性:称为后验熵。后验熵的期望称为后验熵。后验熵的期望(条
12、件熵或信道疑义条件熵或信道疑义度度):信息增益信息增益信息消除随机不确定性的程度信息消除随机不确定性的程度第18页,本讲稿共60页C5.0:生长算法如何从众多输入变量中选择一个最佳分组变量:如何从众多输入变量中选择一个最佳分组变量:C5.0C5.0以信息增益率为标准。例如:以信息增益率为标准。例如:决策树建立之前:决策树建立之前:第19页,本讲稿共60页决策树建立过程中,考察输入变量,如决策树建立过程中,考察输入变量,如T1T1:第20页,本讲稿共60页问题:类别值多的输入变量比类别值少的输入变量有更多的问题:类别值多的输入变量比类别值少的输入变量有更多的机会成为当前最佳分组变量机会成为当前最
13、佳分组变量第21页,本讲稿共60页信息增益率:信息增益率:如何评价数值型输入变量消除平均不确定性的能力如何评价数值型输入变量消除平均不确定性的能力首先分箱:首先分箱:Clementine Clementine的的C5.0C5.0节点包含了节点包含了MDLPMDLP分箱算法分箱算法然后再根据上述方法判定然后再根据上述方法判定C5.0:生长算法第22页,本讲稿共60页如何从分组变量的众多取值中找到最佳分割点如何从分组变量的众多取值中找到最佳分割点默认策略默认策略:对分类型分组变量:有对分类型分组变量:有k个类别,将样本分成个类别,将样本分成k组,组,形成树的形成树的k个分支个分支对数值型分组变量:
14、以对数值型分组变量:以MDLPMDLP分箱所得的最小组限分箱所得的最小组限值为界,将小于组限的样本划为一组,大于的划值为界,将小于组限的样本划为一组,大于的划为另一组,形成两个分叉为另一组,形成两个分叉数值型其他策略数值型其他策略:ChiMerge分箱法,合并分组变量的多个类别后再分箱法,合并分组变量的多个类别后再分支分支C5.0:生长算法第23页,本讲稿共60页C5.0:剪枝算法采用后修剪方法,从叶节点向上逐层剪枝,关键:采用后修剪方法,从叶节点向上逐层剪枝,关键:误差的估计、剪枝标准的设置误差的估计、剪枝标准的设置误差估计:利用统计学置信区间的估计方法,直接在训练样误差估计:利用统计学置信
15、区间的估计方法,直接在训练样本集上估计误差本集上估计误差ClementineClementine中中1-1-默认默认75%75%。置信度用于控制剪枝。置信度用于控制剪枝的程度,决定了所允许的误差上限的程度,决定了所允许的误差上限第24页,本讲稿共60页C5.0:剪枝算法剪枝标准:剪枝标准:“减少误差(减少误差(reduce-errorreduce-error)”法法k为待剪子树中叶节点的个数为待剪子树中叶节点的个数,pi为第为第i个叶节点个叶节点所含样本占子树所含样本的比例所含样本占子树所含样本的比例,ei为第为第i个叶节个叶节点的估计误差点的估计误差,e为父节点的估计误差为父节点的估计误差第
16、25页,本讲稿共60页C5.0:剪枝算法例:能否剪掉例:能否剪掉C C节点下的节点下的3 3个叶节点(个叶节点(E E、F F、G G)估计估计3 3个节点的误差:个节点的误差:0.550.55、0.910.91、0.550.55加权求和:加权求和:计算计算C C节点的误差估计:节点的误差估计:0.500.50可剪掉叶节点可剪掉叶节点E E、F F、G G第一个数字是本节点所含样本第一个数字是本节点所含样本量量N,第二个数为错判样本数第二个数为错判样本数E第26页,本讲稿共60页C5.0的推理规则集决策树对逻辑关系的表述并非是最简洁的决策树对逻辑关系的表述并非是最简洁的IF a AND b T
17、HEN yesELSE IF c AND d THEN yesOTHERWISE no第27页,本讲稿共60页推理规则集的生成算法PRISMPRISM(Patient Rule Induction Space MethodPatient Rule Induction Space Method,CendrowskaCendrowska,19871987),),“覆盖覆盖”算法,规则在训练样本集上算法,规则在训练样本集上100100正确正确基本思路:确定输出变量的某个类别为期望类别基本思路:确定输出变量的某个类别为期望类别在当前样本范围内,寻找能最大限度在当前样本范围内,寻找能最大限度“覆盖覆盖”
18、期望类别样本的推期望类别样本的推理规则理规则在在M M个样本范围内,按照正确覆盖率最大原则确定附加条件,得到个样本范围内,按照正确覆盖率最大原则确定附加条件,得到一个再小些的样本范围,直到推理规则不再一个再小些的样本范围,直到推理规则不再“覆盖覆盖”属于期望类属于期望类别外的样本别外的样本从当前样本集合中剔除已经被正确从当前样本集合中剔除已经被正确“覆盖覆盖”的样本,检查剩余样本的样本,检查剩余样本中是否还有属于期望类别的样本。如果有则回到第一步。否则结束。中是否还有属于期望类别的样本。如果有则回到第一步。否则结束。第28页,本讲稿共60页年龄段年龄段=A(2/5)=A(2/5),年龄段,年龄
19、段=B(4/4)=B(4/4),年龄段,年龄段=C(3/5)=C(3/5),性别,性别=0(6/8)=0(6/8),性别,性别=1(3/6)=1(3/6),推理规则为:,推理规则为:IF IF 年龄段年龄段=B THEN=B THEN 是否购买是否购买=yes=yes。剔除已被正。剔除已被正确覆盖的确覆盖的4 4个样本个样本年龄段年龄段=A(2/5)=A(2/5),年龄段,年龄段=C(3/5)=C(3/5),性别,性别=0(4/6)=0(4/6),性别,性别=1(1/4)=1(1/4),推理规则为:推理规则为:IF IF 性别性别=0 THEN=0 THEN 是否购买是否购买=yes=yes需
20、附加逻辑与条件,样本范围为表中灰色部分。需附加逻辑与条件,样本范围为表中灰色部分。年龄段年龄段=A(1/3)=A(1/3),年龄段,年龄段=C(3/3)=C(3/3)。推理规则修正为:。推理规则修正为:IF IF 性别性别=0 AND=0 AND 年龄段年龄段=C THEN=C THEN 是否购买是否购买=yes=yesYes为期望类别为期望类别第29页,本讲稿共60页C5.0其他:损失矩阵不同错误类型所造成的实际损失可能不同,置信度会影不同错误类型所造成的实际损失可能不同,置信度会影响决策,错判损失同样会影响决策响决策,错判损失同样会影响决策损失矩阵损失矩阵使用损失矩阵的策略:使用损失矩阵的
21、策略:数据建模型阶段使用损失矩阵数据建模型阶段使用损失矩阵样本预测时使用损失矩阵样本预测时使用损失矩阵第30页,本讲稿共60页C5.0其他:损失矩阵C5.0C5.0对损失矩阵的使用对损失矩阵的使用剪枝时采用剪枝时采用“减少损失减少损失”法,判断待剪子树中法,判断待剪子树中叶节点的加权损失是否大于父层节点的损失,如叶节点的加权损失是否大于父层节点的损失,如果大于则可以剪掉果大于则可以剪掉第31页,本讲稿共60页C5.0其他:损失矩阵损失矩阵对预测的影响:损失矩阵对预测的影响:c(i|j)是损失矩阵中将是损失矩阵中将j类错判为类错判为i类的损失类的损失,p(j|t)是被节点是被节点t判为判为j类的
22、归一化概率,定义为:类的归一化概率,定义为:例如:例如:预测值123实际值1c(2|1)c(3|1)2c(1|2)c(3|2)3c(1|3)c(2|3)第32页,本讲稿共60页C5.0其他:N折交叉验证偏差和方差:预测的差异性来自两个方面,定义输出变偏差和方差:预测的差异性来自两个方面,定义输出变量量Y Y的均方误差(的均方误差(Mean Squared ErrorMean Squared Error)为:)为:模型复杂度是导致偏差大小的重要因素:模型复杂度是导致偏差大小的重要因素:常数预测和复杂模型的预测常数预测和复杂模型的预测方差较大的预测仍是无法令人满意的方差较大的预测仍是无法令人满意的
23、方差测度了模型对训练样本的敏感程度方差测度了模型对训练样本的敏感程度偏差总是未知的,方差的测度显得较为重要偏差总是未知的,方差的测度显得较为重要N N折交叉验证:估计模型参数的方差,估计预测精度的方折交叉验证:估计模型参数的方差,估计预测精度的方差差第33页,本讲稿共60页C5.0其他偏差和方差的存在,使建立在一组训练样本集上的一个偏差和方差的存在,使建立在一组训练样本集上的一个模型,所给出的预测往往缺乏稳健性模型,所给出的预测往往缺乏稳健性数据挖掘中的策略数据挖掘中的策略BoostingBoosting技术技术均包括建模和投票两个阶段均包括建模和投票两个阶段第34页,本讲稿共60页C5.0其
24、他:Boosting技术建立建立k k个模型;个模型;k k个模型投票个模型投票第35页,本讲稿共60页C5.0其他:Boosting技术建模过程(输入:训练样本集建模过程(输入:训练样本集T T,训练次数,训练次数k k;输出:多个决;输出:多个决策树模型策树模型C1,C2,Ck)C1,C2,Ck)初始化样本权数:初始化样本权数:w wj j(1)=1/n(1)=1/n对每次迭代:对每次迭代:根据样本权数根据样本权数w wj j(i)(i),从,从T T中有放回地抽取中有放回地抽取n n个样本形个样本形成训练样本集成训练样本集T Ti i;根据训练集根据训练集T Ti i得到模型得到模型C
25、Ci i;计算模型的误差计算模型的误差e(i)e(i)如果如果e(i)0.5 e(i)0.5 或者或者e(i)=0e(i)=0,则终止建模过程;,则终止建模过程;第36页,本讲稿共60页C5.0其他:Boosting技术建模过程建模过程对每次迭代:对每次迭代:根据误差更新每个样本的权数:根据误差更新每个样本的权数:正确分类的样本权数:正确分类的样本权数:w wj j(i+1)=w(i+1)=wj j(i)*(i)(i)*(i),(i)(i)e(i)/(1-e(i)e(i)/(1-e(i)错误分类的样本权数保持不变错误分类的样本权数保持不变w wj j(i+1)=w(i+1)=wj j(i)(i
26、)调整调整w wj j(i+1)(i+1)使得各样本的权重之和等于使得各样本的权重之和等于1 1经过经过k k次迭代,将得到次迭代,将得到k k个模型和个模型和k k个误差个误差第37页,本讲稿共60页C5.0其他:Boosting技术投票过程(决策过程)投票过程(决策过程)采用加权投票,给不同的模型赋予不同的权数,采用加权投票,给不同的模型赋予不同的权数,权数与模型的误差成反比,具体为:权数与模型的误差成反比,具体为:对新样本对新样本X X,每个模型,每个模型CiCi都给出预测值都给出预测值Ci(X)Ci(X),给预,给预测类测类Ci(X)Ci(X)加权:加权:求各类权数的总和,总权数最高的
27、类即为最终的分类求各类权数的总和,总权数最高的类即为最终的分类结果结果嵌套建模技术,弱嵌套建模技术,弱(Weak(Weak)模型到强()模型到强(StrongStrong)模型)模型第38页,本讲稿共60页分类回归树分类回归树(分类回归树(Classification And Regression TreeClassification And Regression Tree,CART,Breiman,1984)CART,Breiman,1984)特点:特点:既可建立分类树也可建立回归树既可建立分类树也可建立回归树只能建立只能建立2 2叉树叉树以以GiniGini系数和方差作为建树依据系数和方差
28、作为建树依据依据测试样本集进行剪枝依据测试样本集进行剪枝39第39页,本讲稿共60页CART:生长算法选择当前最佳分组变量选择当前最佳分组变量分类树和回归树、数值型输入变量和分类型输分类树和回归树、数值型输入变量和分类型输入变量,计算策略存在差异入变量,计算策略存在差异分类树分类树数值型输入变量:分成两组(数值型输入变量:分成两组(2 2叉树)叉树)依次以相邻数值的中间值为组限分组依次以相邻数值的中间值为组限分组计算两组样本输出变量值的异质性计算两组样本输出变量值的异质性分组应尽量使两组的异质性总和较小,使分组应尽量使两组的异质性总和较小,使两组异质性随着分组而快速下降两组异质性随着分组而快速
29、下降40第40页,本讲稿共60页CART:生长算法(分类树)异质性指标:异质性指标:GINIGINI系数系数p p(j j|t t)是节点是节点t t中样本输出变量取第中样本输出变量取第j j类的归一化概率类的归一化概率异质性最小时,异质性最小时,GiniGini系数为系数为0 0;异质性最大时,;异质性最大时,GiniGini系数为系数为1 11/k1/k异质性下降指标:异质性下降指标:使上式达到最大的组限应为当前最佳分割点使上式达到最大的组限应为当前最佳分割点41第41页,本讲稿共60页CART:生长算法(分类树)分类型输入变量:形成分类型输入变量:形成2 2个超类(个超类(2 2叉树)叉
30、树)多分类型输入变量:合并为超类多分类型输入变量:合并为超类同上,应使两组的异质性总和达到最小,异质性同上,应使两组的异质性总和达到最小,异质性下降最快下降最快TwoingTwoing策略:找到使两个超类差异足够大的合并策略:找到使两个超类差异足够大的合并点点s sOrderedOrdered策略:适用于定序型输入变量,只有两个策略:适用于定序型输入变量,只有两个连续的别类才可合并成超类连续的别类才可合并成超类42第42页,本讲稿共60页CART:生长算法(回归树)异质性指标:方差异质性指标:方差异质性下降指标:异质性下降指标:从分组变量的众多取值中找到最佳分割点:同上从分组变量的众多取值中找
31、到最佳分割点:同上43第43页,本讲稿共60页CART:剪枝算法预修剪策略预修剪策略决策树最大深度决策树最大深度父节点和子节点所包含的最少样本量或比例父节点和子节点所包含的最少样本量或比例树节点中输出变量的最小异质性减少量树节点中输出变量的最小异质性减少量后修剪策略后修剪策略根据一定的规则,剪去决策树中的那些不具有根据一定的规则,剪去决策树中的那些不具有一般代表性的叶节点或子树一般代表性的叶节点或子树CARTCART依次给出所有可能子树,从中挑选一棵依次给出所有可能子树,从中挑选一棵如何得到这些子树?挑选标准是什么?如何得到这些子树?挑选标准是什么?44第44页,本讲稿共60页CART:剪枝算
32、法最小代价复杂性剪枝法(最小代价复杂性剪枝法(Minimal Cost Complexity Minimal Cost Complexity PruningPruning,MCCPMCCP)目标:得到恰当的树,具有一定的预测精度,目标:得到恰当的树,具有一定的预测精度,且复杂程度恰当且复杂程度恰当代价(误差)和复杂度之间的权衡是必要的代价(误差)和复杂度之间的权衡是必要的为复杂度系数为复杂度系数基于最小代价复杂性原则基于最小代价复杂性原则 等于等于0 0时怎样?时怎样?很大时怎样?很大时怎样?45第45页,本讲稿共60页tt的代价复杂度的代价复杂度tt的子树的子树TtTt的代价复杂的代价复杂度
33、度判断能否剪掉一个中间节点判断能否剪掉一个中间节点tt下的子树下的子树TtTt保留子树,此时:保留子树,此时:剪掉子树剪掉子树剪掉子树剪掉子树越小且小于剪掉确定可算,关键是46第46页,本讲稿共60页CART:剪枝算法 是一个不断调整过程是一个不断调整过程从从0 0到到 的过程中的过程中:此时应剪掉子树此时应剪掉子树T Tt t47第47页,本讲稿共60页剪枝过程:产生子树序列剪枝过程:产生子树序列T1,T2,T3,Tk。T1为最为最大树,大树,Tk只包含根节点只包含根节点 初始为初始为0 0,无枝可剪,无枝可剪增大增大 找到找到 小于小于 的所有子树中最小的所有子树中最小值对应的子树,剪掉,
34、计算剪枝后树的代价复值对应的子树,剪掉,计算剪枝后树的代价复杂度值杂度值在当前在当前 值下判断是否仍有小于值下判断是否仍有小于 的子树,有的子树,有则依从小到大顺序剪掉,并计算代价复杂度;则依从小到大顺序剪掉,并计算代价复杂度;否则,继续增大否则,继续增大,直到得到,直到得到Tk随着随着 值增大,得到值增大,得到子树序列。它们的复杂度子树序列。它们的复杂度依次降低,但代价复杂度的变化情况并不确定依次降低,但代价复杂度的变化情况并不确定CART:剪枝算法48第48页,本讲稿共60页剪枝过程剪枝过程选择选择k个子树中代价复杂度最低的子树,也可个子树中代价复杂度最低的子树,也可以允许考虑误差项以允许
35、考虑误差项CART:剪枝算法放大因子代价复杂度最小子树在测试样本集上的预测误差的误差49第49页,本讲稿共60页50第50页,本讲稿共60页CART应用示例以以Telephone.savTelephone.sav为例,目标:找到影响客户流失的重为例,目标:找到影响客户流失的重要因素要因素分类回归树的交互建模分类回归树的交互建模可以使决策树的实际含义更贴近业务可以使决策树的实际含义更贴近业务51第51页,本讲稿共60页交互建模中的模型评价交互建模中分类树的评价交互建模中分类树的评价风险评价和收益评价风险评价和收益评价风险评价:模型误差风险评价:模型误差效益评价效益评价收益收益(Gains)(Ga
36、ins):模型对数据规律提炼的能力:模型对数据规律提炼的能力利润利润(Profit)(Profit):财务角度反映模型价值:财务角度反映模型价值角度:每条推理规则、决策树整体角度:每条推理规则、决策树整体52第52页,本讲稿共60页效益评价:收益评价(单个节点)收益:对具有某类特征的数据,输入和输出变量取值收益:对具有某类特征的数据,输入和输出变量取值规律的提炼的能力规律的提炼的能力针对用户关心的针对用户关心的“目标目标”类别。例:流失类别。例:流失yesyes收益评价指标收益评价指标【收益收益:n:n】:节点中样本属目标类别的样本量:节点中样本属目标类别的样本量【响应响应(%)(%)】:节点
37、中样本属目标类别的样本:节点中样本属目标类别的样本量占本节点样本的百分比(置信程度)量占本节点样本的百分比(置信程度)【收益收益(%)(%)】:节点中样本属目标类别的样本:节点中样本属目标类别的样本量占目标类别总样本的百分比(适用广泛性)量占目标类别总样本的百分比(适用广泛性)53第53页,本讲稿共60页效益评价:收益评价(单个节点)响应响应%和收益和收益%:意味追求高响应:意味追求高响应%吗?吗?低响应低响应%和低收益和低收益%的规则,不理想的规则,不理想例:甲壳虫人群例:甲壳虫人群100100人,人,9090人购买,人购买,1010不购买不购买IF IF 年轻富婆年轻富婆 THNE THN
38、E 买买1010人,响应人,响应%=100%(%=100%(高高),收益,收益%=10/90(%=10/90(低低)9090人,响应人,响应%=70%(%=70%(中低中低),),收益收益%=63/90(%=63/90(高高)高响应高响应%和低收益和低收益%的规则,可能是没有意义的的规则,可能是没有意义的低响应低响应%和高收益和高收益%的规则,可能是值得的的规则,可能是值得的54第54页,本讲稿共60页效益评价:收益评价(单个节点)响应响应%和收益和收益%:意味追求高响应:意味追求高响应%吗?吗?高响应高响应%和高收益和高收益%的规则,可能并没有太多价的规则,可能并没有太多价值值55第55页,
39、本讲稿共60页效益评价:收益评价(单个节点)收益评价指标收益评价指标【指数指数(%)(%)】:节点的响应:节点的响应(%)(%)是同类别样本占是同类别样本占总样本比例的百分之几倍,称为提升度总样本比例的百分之几倍,称为提升度(lift)(lift)(价值)(价值)56第56页,本讲稿共60页效益评价:利润评价(单个节点)总体利润:正利润和负利润(针对输出变量所有类总体利润:正利润和负利润(针对输出变量所有类别计算)别计算)定义单位利润定义单位利润利润评价指标利润评价指标【利润利润:】:节点的平均利润节点的平均利润【投资回报率投资回报率】:总利润:总利润/总投资总投资【指数指数(%)(%)】:节
40、点的投资回报率是总投资回:节点的投资回报率是总投资回报率的倍数报率的倍数57第57页,本讲稿共60页效益评价(整体)累计收益图:横坐标分位点,纵坐标累计收益累计收益图:横坐标分位点,纵坐标累计收益(%)(%)累计响应图:横坐标分位点,纵坐标累积响应累计响应图:横坐标分位点,纵坐标累积响应(%)(%)累计提升图:横坐标分位点,纵坐标累计提升度累计提升图:横坐标分位点,纵坐标累计提升度累计利润图:横坐标分位点,纵坐标累积利润累计利润图:横坐标分位点,纵坐标累积利润累计投资回报率图:横坐标分位点,纵坐标累积累计投资回报率图:横坐标分位点,纵坐标累积ROIROI58第58页,本讲稿共60页决策树说明决策树算法在处理不同类型数据时的优势和劣势决策树算法在处理不同类型数据时的优势和劣势数值型的优势和劣势数值型的优势和劣势不受数量级的影响不受数量级的影响忽略分布特征忽略分布特征分类型的优势和劣势分类型的优势和劣势建树效率高建树效率高类别较多时,树太茂盛类别较多时,树太茂盛容易处理容易处理“混合类型混合类型”的输入变量的输入变量59第59页,本讲稿共60页第60页,本讲稿共60页