《第4章分类基本概念决策树与模型评估.ppt》由会员分享,可在线阅读,更多相关《第4章分类基本概念决策树与模型评估.ppt(91页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第4章分类基本概念决策树与模型评估 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望l 分类的是利用一个分类函数(分类模型、分类的是利用一个分类函数(分类模型、分类器),该模型能把数据库中的数据影射到分类器),该模型能把数据库中的数据影射到给定类别中的一个。给定类别中的一个。分类分类l训训练练集集:数数据据库库中中为为建建立立模模型型而而被被分分析析的的数数据元组形成训练集。据元组形成训练集。l训练集中的单个元组称为训练集中的单个元组称为训练样本训练样本,每个训每个
2、训练样本有一个类别标记。练样本有一个类别标记。l一个具体样本的形式可为一个具体样本的形式可为:(v1,v2,.,:(v1,v2,.,vn;c);vn;c);其中其中vivi表示属性值表示属性值,c,c表示类别。表示类别。l测试集:用于评估分类模型的准确率测试集:用于评估分类模型的准确率数据分类数据分类一个两步过程一个两步过程(1)l第一步,建立一个模型,描述预定数据类集和概念集假定每个元组属于一个预定义的类,由一个类标号属性确定学习模型可以用分类规则、决策树或数学公式的形式提供数据分类数据分类一个两步过程一个两步过程(2)l第二步,使用模型,对将来的或未知的对象进行分类首先评估模型的预测准确率
3、u对每个测试样本,将已知的类标号和该样本的学习模型类预测比较u模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比u测试集要独立于训练样本集,否则会出现“过分适应数据”的情况l如果准确性能被接受,则分类规则就可用来对新数如果准确性能被接受,则分类规则就可用来对新数据进行分类据进行分类 有监督的学习有监督的学习 VS.无监督的学习无监督的学习l有监督的学习(用于分类)模型的学习在被告知每个训练样本属于哪个类的“监督”下进行新数据使用训练数据集中得到的规则进行分类l无监督的学习(用于聚类)每个训练样本的类编号是未知的,要学习的类集合或数量也可能是事先未知的通过一系列的度量、观察来建立数据中
4、的类编号或进行聚类分类模型的构造方法分类模型的构造方法l1.1.机器学习方法:机器学习方法:l决策树法决策树法l规则归纳规则归纳l2.2.统计方法:统计方法:知识表示是判别函数和原型事例知识表示是判别函数和原型事例l贝叶斯法贝叶斯法l非参数法非参数法(近邻学习或基于事例的学习近邻学习或基于事例的学习)l3.3.神经网络方法神经网络方法:lBPBP算法算法,模型表示是前向反馈神经网络模型模型表示是前向反馈神经网络模型l4.4.粗糙集粗糙集(rough set)(rough set)知识表示是产生式规则知识表示是产生式规则一个决策树的例子一个决策树的例子categoricalcategorical
5、continuousclassRefundMarStTaxIncYESNONONOYesNoMarried Single,Divorced 80KSplitting Attributes训练数据训练数据模型模型:决策树决策树决策树的另一个例子决策树的另一个例子categoricalcategoricalcontinuousclassMarStRefundTaxIncYESNONONOYesNoMarried Single,Divorced 80K用决策树归纳分类用决策树归纳分类l什么是决策树?类似于流程图的树结构每个内部节点表示在一个属性上的测试每个分枝代表一个测试输出每个树叶节点代表类或类分
6、布l决策树的生成由两个阶段组成决策树构建u开始时,所有的训练样本都在根节点u递归的通过选定的属性,来划分样本(必须是离散值)树剪枝u许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检测和剪去这种分枝l决策树的使用:对未知样本进行分类通过将样本的属性值与决策树相比较决策树分类任务决策树分类任务Decision Tree一个决策树的例子一个决策树的例子categoricalcategoricalcontinuousclassRefundMarStTaxIncYESNONONOYesNoMarried Single,Divorced 80KSplitting Attributes训练数据训练数据
7、模型模型:决策树决策树应用决策树进行分类应用决策树进行分类RefundMarStTaxIncYESNONONOYesNoMarried Single,Divorced 80K测试数据测试数据Start from the root of tree.应用决策树进行分类应用决策树进行分类RefundMarStTaxIncYESNONONOYesNoMarried Single,Divorced 80K测试数据测试数据应用决策树进行分类应用决策树进行分类RefundMarStTaxIncYESNONONOYesNoMarried Single,Divorced 80K测试数据测试数据应用决策树进行分类
8、应用决策树进行分类RefundMarStTaxIncYESNONONOYesNoMarried Single,Divorced 80K测试数据测试数据应用决策树进行分类应用决策树进行分类RefundMarStTaxIncYESNONONOYesNoMarried Single,Divorced 80K测试数据测试数据应用决策树进行分类应用决策树进行分类RefundMarStTaxIncYESNONONOYesNoMarried Single,Divorced 80K测试数据测试数据Assign Cheat to“No”决策树分类决策树分类Decision Tree决策树决策树l有许多决策树算法
9、:l lHuntHunt算法算法算法算法l l信息增益信息增益信息增益信息增益Information gainInformation gain(ID3)l l增益比率增益比率增益比率增益比率Gain rationGain ration(C4.5)l l基尼指数基尼指数基尼指数基尼指数Gini indexGini index(SLIQ,SPRINT)Hunt 算法算法l设 Dt 是与结点 t相关联的训练记录集l算法步骤:如果Dt 中所有记录都属于同一个类 yt,则t是叶结点,用yt标记如果 Dt 中包含属于多个类的记录,则选择一个属性测试条件,将记录划分成较小的子集。对于测试条件的每个输出,创建
10、一个子结点,并根据测试结果将Dt中的记录分布到子结点中。然后,对于每个子结点,递归地调用该算法Dt?Hunt算法算法Dont CheatRefundDont CheatDont CheatYesNoRefundDont CheatYesNoMaritalStatusDont CheatCheatSingle,DivorcedMarriedTaxableIncomeDont Cheat=80KRefundDont CheatYesNoMaritalStatusDont CheatCheatSingle,DivorcedMarried决策树决策树lHunt算法采用贪心策略构建决策树.在选择划分数据
11、的属性时,采取一系列局部最优决策来构造决策树.l决策树归纳的设计问题如何分裂训练记录u怎样为不同类型的属性指定测试条件?u怎样评估每种测试条件?如何停止分裂过程决策树决策树lHunt算法采用贪心策略构建决策树.在选择划分数据的属性时,采取一系列局部最优决策来构造决策树.l决策树归纳的设计问题如何分裂训练记录u怎样为不同类型的属性指定测试条件?u怎样评估每种测试条件?如何停止分裂过程怎样为不同类型的属性指定测试条件怎样为不同类型的属性指定测试条件?l依赖于属性的类型标称序数连续l依赖于划分的路数2路划分多路划分基于标称属性的分裂基于标称属性的分裂l多路划分:划分数(输出数)取决于该属性不同属性值
12、的个数.l二元划分:划分数为2,这种划分要考虑创建k个属性值的二元划分的所有2k-1-1种方法.CarTypeFamilySportsLuxuryCarTypeFamily,LuxurySportsCarTypeSports,LuxuryFamilyORCarTypeFamily,SportsLuxury l多路划分:划分数(输出数)取决于该属性不同属性值的个数.l二元划分:划分数为2,需要保持序数属性值的有序性.基于序数属性的划分基于序数属性的划分SizeSmallMediumLargeSizeMedium,LargeSmallSizeSmall,MediumLargeORSizeSmall
13、,LargeMedium基于连续属性的划分基于连续属性的划分l多路划分:viAvi+1(i=1,k)l二元划分:(A v)or(A v)考虑所有的划分点,选择一个最佳划分点v基于连续属性的划分基于连续属性的划分决策树决策树l决策树归纳的设计问题如何分裂训练记录u怎样为不同类型的属性指定测试条件?u怎样评估每种测试条件?如何停止分裂过程怎样选择最佳划分?怎样选择最佳划分?在划分前在划分前:10 个记录个记录 class 0,10 个记录个记录 class 1怎样选择最佳划分?怎样选择最佳划分?l选择最佳划分的度量通常是根据划分后子结点不纯性的程度。不纯性的程度越低,类分布就越倾斜 l结点不纯性的
14、度量:不纯性大不纯性大不纯性小不纯性小怎样找到最佳划分?怎样找到最佳划分?B?YesNoNode N3Node N4A?YesNoNode N1Node N2划分前划分前:M0M1M2M3M4M12M34Gain=M0 M12 vs M0 M34结点不纯性的测量结点不纯性的测量lGinilEntropylclassification error不纯性的测量不纯性的测量:GINIl给定结点t的Gini值计算:(p(j|t)是在结点t中,类j发生的概率).当类分布均衡时,Gini值达到最大值(1-1/nc)相反当只有一个类时,Gini值达到最小值0计算计算 GINI的例子的例子P(C1)=0/6=
15、0 P(C2)=6/6=1Gini=1 P(C1)2 P(C2)2=1 0 1=0 P(C1)=1/6 P(C2)=5/6Gini=1 (1/6)2 (5/6)2=0.278P(C1)=2/6 P(C2)=4/6Gini=1 (2/6)2 (4/6)2=0.444基于基于 GINI的划分的划分l当一个结点 p 分割成 k 个部分(孩子),划分的质量可由下面公式计算 ni=孩子结点 i的记录数,n =父结点 p的记录数.二元属性二元属性:计算计算 GINIl对于二元属性,结点被划分成两个部分l得到的GINI值越小,这种划分越可行.B?YesNoNode N1Node N2Gini(N1)=1 (
16、5/6)2 (2/6)2=0.194 Gini(N2)=1 (1/6)2 (4/6)2=0.528Gini split=7/12*0.194+5/12*0.528=0.333标称属性标称属性:计算计算Ginil多路划分l二元划分l一般多路划分的Gini值比二元划分小,这一结果并不奇怪,因为二元划分实际上合并了多路划分的某些输出,自然降低了子集的纯度Multi-way splitTwo-way split(find best partition of values)连续属性连续属性:计算计算 Ginil使用二元划分l划分点v选择N个记录中所有属性值作为划分点l对每个划分进行类计数,A v and
17、 A vl计算每个候选点v的Gini指标,并从中选择具有最小值的候选划分点l时间复杂度为(n2)连续属性连续属性:计算计算 Gini.l降低计算复杂性的方法,将记录进行排序从两个相邻的排过序的属性值之间选择中间值作为划分点计算每个候选点的Gini值时间复杂度为nlogn划分点划分点排序后的值排序后的值 l定义:给定一个概率空间 事件的自信息定义为 因 自信息反映了事件 发生所需要的信息量。值越大说明需要越多的信息才能确定事件 的发生,其随机性也越大,而当 发生时所携带的信息量也越大。反过来,值越小,需要较少信息量就能确定 的发生,即事件 随机性较小。当其发生时所携信息量就少。是对不确定性大小的
18、一种刻画 熵熵-定义定义熵熵-定义定义l1.定义:在概率空间 上定义的随机变量 I(X)的数学期望 称为随机变量X的平均自信息,又称X的信息熵或熵记为H(x)l非负性:H大于等于0 l连续性:H对任意q连续l极值性:当q都等于1K时 H达到最大值logK熵熵-定义定义基于基于 Information Gain的划分的划分l给定结点t的 Entropy值计算:(p(j|t)是在结点t中,类j发生的概率).当类分布均衡时,Entropy值达到最大值(log nc)相反当只有一个类时,Gini值达到最小值0Entropy 与 GINI相似计算计算 Entropy的例子的例子P(C1)=0/6=0 P
19、(C2)=6/6=1Entropy=0 log 0 1 log 1=0 0=0 P(C1)=1/6 P(C2)=5/6Entropy=(1/6)log2(1/6)(5/6)log2(1/6)=0.65P(C1)=2/6 P(C2)=4/6Entropy=(2/6)log2(2/6)(4/6)log2(4/6)=0.92基于基于 Information Gain的划分的划分.lInformation Gain:ni=孩子结点 i的记录数,n =结点 p的记录数.在 ID3 and C4.5中使用基于基于 Information Gain的划分的划分.l增益率(Gain Ratio):熵和Gini
20、指标等不纯性趋向于有利于具有大量不同值的属性!如:利用雇员id产生更纯的划分,但它却毫无用处每个划分相关联的记录数太少,将不能做出可靠的预测解决该问题的策略有两种:限制测试条件只能是二元划分使用增益率。K越大Split Info越大增益率越小基于基于 Classification Error的划分的划分l给定结点t的 Classification Error值计算:u当类分布均衡时,error值达到最大值(1-1/nc)u相反当只有一个类时,error值达到最小值0例子例子P(C1)=0/6=0 P(C2)=6/6=1Error=1 max(0,1)=1 1=0 P(C1)=1/6 P(C2)
21、=5/6Error=1 max(1/6,5/6)=1 5/6=1/6P(C1)=2/6 P(C2)=4/6Error=1 max(2/6,4/6)=1 4/6=1/3不纯性度量之间的比较不纯性度量之间的比较二元分类问题二元分类问题:决策树决策树lHunt算法采用贪心策略构建决策树.在选择划分数据的属性时,采取一系列局部最优决策来构造决策树.l决策树归纳的设计问题如何分裂训练记录u怎样为不同类型的属性指定测试条件?u怎样评估每种测试条件?如何停止分裂过程停止分裂过程停止分裂过程l当所有的记录属于同一类时,停止分裂l当所有的记录都有相同的属性时,停止分裂l提前终止树的生长三种著名的决策树三种著名的
22、决策树lCart:基本的决策树算法lId3:利用增益比不纯性,树采用二叉树,停止准则为当所有的记录属于同一类时,停止分裂,或当所有的记录都有相同的属性时,停止分裂lC4.5:id3的改进版本,也是最流行的分类数算法。采用多重分支和剪枝技术。决策树决策树l特点:决策树是一种构建分类模型的非参数方法不需要昂贵的的计算代价决策树相对容易解释决策树是学习离散值函数的典型代表决策数对于噪声的干扰具有相当好的鲁棒性冗余属性不会对决策树的准确率造成不利影响数据碎片问题。随着数的生长,可能导致叶结点记录数太少,对于叶结点代表的类,不能做出具有统计意义的判决子树可能在决策树中重复多次。使决策树过于复杂子树重复问
23、题子树重复问题 Same subtree appears in multiple branches决策边界决策边界 斜决策树斜决策树x+y 1Class=+Class=模型过分拟合和拟合不足模型过分拟合和拟合不足l分类模型的误差大致分为两种:训练误差:是在训练记录上误分类样本比例泛化误差:是模型在未知记录上的期望误差l一个好的分类模型不仅要能够很好的拟合训练数据,而且对未知样本也要能准确分类。l换句话说,一个好的分类模型必须具有低训练误差和低泛化误差。l当训练数据拟合太好的模型,其泛化误差可能比具有较高训练误差的模型高,这种情况成为模型过分拟合模型过分拟合和拟合不足模型过分拟合和拟合不足l当决
24、策树很小时,训练和检验误差都很大,这种情况称为模型拟合不足。出现拟合不足的原因是模型尚未学习到数据的真实结构。l随着决策树中结点数的增加,模型的训练误差和检验误差都会随之下降。l当树的规模变得太大时,即使训练误差还在继续降低,但是检验误差开始增大,导致模型过分拟合模型模型过分拟合和拟合不足模型模型过分拟合和拟合不足过分拟合过分拟合导致过分拟合的原因导致过分拟合的原因导致过分拟合的原因导致过分拟合的原因l噪声导致的过分拟合例子:哺乳动物的分类问题十个训练记录中有两个被错误标记:蝙蝠和鲸如果完全拟合训练数据,决策树1的训练误差为0,但它在检验数据上的误差达30%.人和海豚,针鼹误分为非哺乳动物相反
25、,一个更简单的决策树2,具有较低的检验误差(10%),尽管它的训练误差较高,为20%决策树1过分拟合了训练数据。因为属性测试条件4条腿具有欺骗性,它拟合了误标记的训练纪录,导致了对检验集中记录的误分类噪声导致的过分拟合(例子)噪声导致的过分拟合(例子)噪声导致决策边界的改变噪声导致决策边界的改变缺乏代表性样本导致的过分拟合缺乏代表性样本导致的过分拟合l根据少量训练记录做出分类决策的模型也容易受过分拟合的影响。l由于训练数据缺乏具有代表性的样本,在没有多少训练记录的情况下,学习算法仍然细化模型就会产生过分拟合。l例子:五个训练记录,所有的记录都是正确标记的,对应的决策树尽管训练误差为0,但检验误
26、差高达30%l人、大象和海豚被误分类,因为决策树把恒温但不冬眠的动物分为非哺乳动物。决策树做出这样的分类决策是因为只有一个训练记录(鹰)具有这些特征。l这个例子清楚的表明,当决策树的叶结点没有足够的代表性样本时,很可能做出错误的预测。过分拟合与多重比较过分拟合与多重比较l模型的过分拟合可能出现在使用多重比较过程的算法中l多重比较的例子:考虑未来十个交易日股市是升还是降一个人十次猜测至少正确预测八次的概率是:0.0547假设从50个股票分析家中选择一个投资顾问,策略是选择在未来的十个交易日做出最多正确预测的分析家。该策略的缺点是,即使所有的分析家都用随机猜测做出预测,至少有一个分析家做出八次正确
27、预测的概率是:1-(1-0.0547)50=0.9399,这一结果相当高。l多重比较过程与模型过分拟合有什么关系?在决策树增长过程中,可以进行多种测试,以确定哪个属性能够最好的划分训练数据。在这种情况下,算法实际上是使用多重比较过程来决定是否需要扩展决策树。当候选属性多,训练记录数少时,这种影响就变得更加明显。泛化误差估计泛化误差估计l过分拟合的主要原因一直是个争辩的话题,但大家还是普遍同意模型的复杂度对模型的过分拟合有影响。l如何确定正确的模型复杂度?理想的复杂度是能产生最低泛化误差的模型的复杂度。l估计泛化误差的方法使用再代入估计。用训练误差提供对泛化误差的乐观估计结合模型复杂度估计统计上
28、界使用确定集结合模型复杂度结合模型复杂度l奥卡姆剃刀(Occams Razor):给定两个具有相同泛化误差的模型,较简单的模型比复杂的模型更可取l 因为复杂模型中的附加成分很大程度上是偶然的拟合。因此,分类模型评估应把模型复杂度考虑进去l方法:悲观误差估计、最小描述长度原则(MDL)悲观误差评估悲观误差评估l悲观误差估计公式:lQ(ti)为每个结点ti的罚分,e(T)为训练样本集的错分样本数,Nt为训练样本总数,k为叶结点数。l例子1:如果罚分等于0.5,训练样本集中样本数为24个,我们构建了7个叶结点的决策树,训练样本集的错分样本数为4l根据公式我们得e(T)=(4+7*0.5)/24=0.
29、3125l例子2:如果罚分等于0.5,训练样本集中样本数为24个,我们构建了4个叶结点的决策树,训练样本集的错分样本数为6l根据公式我们得e(T)=(6+4*0.5)/24=0.3333l当罚分等于1时,例1,2为0.458,0.417l0.5的罚分项表示只要至少能够改进一个训练记录的分类,结点就应当扩充,因为扩展一个结点等价于总误差增加0.5,代价比犯一个训练错误小最小描述长度最小描述长度(MDL)lCost(Model,Data)=Cost(Data|Model)+Cost(Model)Cost 是传输总代价.最小化cost值.lCost(Data|Model)是误分类记录编码的开销.lC
30、ost(Model)是模型编码的开销.使用确认集使用确认集l该方法中,不是用训练集估计泛化误差,而是把原始的训练数据集分为两个较小的子集,一个子集用于训练,而另一个称为确认集,用于估计泛化误差。l该方法为评估模型在未知样本上的性能提供了较好办法。处理决策树中的过分拟合处理决策树中的过分拟合l先剪枝(Early Stopping Rule)树增长算法在产生完全拟合整个训练数据集的之前就停止决策树的生长为了做到这一点,需要采用更具限制性的结束条件:u 当结点的记录数少于一定阈值,则停止生长u当不纯性度量的增益低于某个确定的阈值时,则停止生长(e.g.,information gain).缺点:很难
31、为提前终止选取正确的阈值:u 阈值太高,导致拟合不足u阈值太低,导致不能充分解决过分拟合的问题。处理决策树中的过分拟合处理决策树中的过分拟合l后剪枝在该方法中,初始决策树按照最大规模生长,然后进行剪枝的步骤,按照自底向上的方式修剪完全增长的决策树。修剪有两种做法:u 用新的叶结点替换子树,该叶结点的类标号由子树下记录中的多数类确定u用子树中最常用的分支代替子树处理决策树中的过分拟合处理决策树中的过分拟合与先剪枝相比,后剪枝技术倾向于产生更好的结果。因为不像先剪枝,后剪枝是根据完全增长的决策树作出的剪枝决策,先剪枝则可能过早终止决策树的生长。然而,对于后剪枝,当子树被剪掉后,生长完全决策树的额外
32、开销就被浪费了。不平衡类问题PREDICTED CLASSACTUALCLASSClass=YesClass=NoClass=Yesa(TP)b(FN)Class=Noc(FP)d(TN)准确率的缺点准确率的缺点l考虑2类问题类0的样本数=9990类1的样本数=10l如果模型预测所有的样本为类0,准确率为 9990/10000=99.9%准确率的值具有欺骗性模型并没有分对类1的任何样本度量度量l精度确定在分类器断言为正类的那部分记录中实际为正类的记录所占的比例。精度越高,分类器的假正类错误率就越低。l召回率度量被分类器正确预测的正样本的比例。具有高召回率的分类器很少将正样本误分为负样本。ROC(Receiver Operating Characteristic)lROC曲线是显示分类器真正率(TPR)和假正率(FPR)之间折中的一种图形化方法。lROC 曲线上有几个关键点,它们有公认的解释:(TPR=0,FPR=0):把每个实例都预测为负类的模型(TPR=1,FPR=1):把每个实例都预测为正类的模型(TPR=1,FPR=0):理想模型使用使用ROC曲线比较模型曲线比较模型l没有哪个模型能够压倒对方lFRR0.36,M2较好lROC曲线下方的面积l理想情况:面积=1l随机猜测:面积=0.5怎样产生怎样产生ROC曲线曲线Threshold=ROC 曲线曲线: