《数据挖掘模型评价学习教案.pptx》由会员分享,可在线阅读,更多相关《数据挖掘模型评价学习教案.pptx(48页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据挖掘模型数据挖掘模型(mxng)评价评价第一页,共48页。217.1基于损失函数的标准17.1.1混淆矩阵17.1.2准确率及误差的度量(dling)17.1.3两个评价模型成本的可视化工具17.1.4评估分类器的准确率17.2基于统计检验的准则17.2.1统计模型之间的距离17.2.2统计模型的离差17.3基于记分函数的标准17.4贝叶斯标准17.5计算标准17.5.1交叉(jioch)验证标准17.5.2自展标准17.5.3遗传算法17.6小结第1页/共48页第二页,共48页。17.1基于损失(snsh)函数的标准17.1.1混淆矩阵混淆矩阵混淆矩阵(混淆矩阵(confusionmat
2、rix)用来)用来(ynli)作为分类规则作为分类规则特征的表示,它包括了每一类的特征的表示,它包括了每一类的样本个数,包括正确的和错误的样本个数,包括正确的和错误的分类。分类。主对角线给出了每一类正确分类主对角线给出了每一类正确分类的样本的个数,非对角线上的元的样本的个数,非对角线上的元素则表示未被正确分类的样本个素则表示未被正确分类的样本个数。数。第2页/共48页第三页,共48页。对于对于 m类的分类问题,误差可能有类的分类问题,误差可能有m2-m。如果仅有。如果仅有2类(正样本和类(正样本和负样本,用负样本,用T和和F或或1和和0来象征性来象征性地代表地代表(dibio)),就只有两类)
3、,就只有两类误差。误差。期望为期望为T,但分类为,但分类为F:称为假负。:称为假负。期望为期望为F,但分类为,但分类为T:称为假正。:称为假正。此外此外期望为期望为T,但分类为,但分类为T:称为真正。:称为真正。期望为期望为F,但分类为,但分类为F:称为真负。:称为真负。第3页/共48页第四页,共48页。我们可以把它们汇总在表我们可以把它们汇总在表我们可以把它们汇总在表我们可以把它们汇总在表17-117-1正、正、正、正、负样本的混淆负样本的混淆负样本的混淆负样本的混淆(hnxio)(hnxio)矩阵中。矩阵中。矩阵中。矩阵中。实际的类预测的类C1C2C1真正假负C2假正真负总计真正+假正假负
4、+真负表表17-1 正、负样本的混淆正、负样本的混淆(hnxio)矩阵矩阵第4页/共48页第五页,共48页。当分类数当分类数当分类数当分类数mm为为为为3 3时,对角线给出正确的预测。时,对角线给出正确的预测。时,对角线给出正确的预测。时,对角线给出正确的预测。如表如表如表如表17-2317-23个类的混淆矩阵所示。个类的混淆矩阵所示。个类的混淆矩阵所示。个类的混淆矩阵所示。在本例中,总共在本例中,总共在本例中,总共在本例中,总共(znggng)(znggng)是是是是150150个检验样本。个检验样本。个检验样本。个检验样本。有有有有6 6类误差(类误差(类误差(类误差(m2-m=32-3=
5、6m2-m=32-3=6),在表中它在表中它在表中它在表中它们以粗体字表示。们以粗体字表示。们以粗体字表示。们以粗体字表示。可以看到,这个分类器对于属于可以看到,这个分类器对于属于可以看到,这个分类器对于属于可以看到,这个分类器对于属于B B类的类的类的类的4646中的中的中的中的3838个样本给出了正确的分类;个样本给出了正确的分类;个样本给出了正确的分类;个样本给出了正确的分类;8 8个样本给个样本给个样本给个样本给出了错误的分类,其中出了错误的分类,其中出了错误的分类,其中出了错误的分类,其中2 2个分到了个分到了个分到了个分到了A A类,类,类,类,6 6个分到了个分到了个分到了个分到
6、了C C类。类。类。类。实际的类预测的类A类B类C类总计A类452 23 350B类1010382 250C类4 46 64050总计594645150表表 17-2 3个类的混淆个类的混淆(hnxio)矩阵矩阵第5页/共48页第六页,共48页。17.1.217.1.2准确率及误差的度量准确率及误差的度量准确率及误差的度量准确率及误差的度量 为为为为了了了了度度度度量量量量分分分分类类类类器器器器的的的的预预预预测测测测精精精精度度度度,如如如如果果果果明明明明确确确确或或或或隐隐隐隐含含含含地地地地假假假假设设设设每每每每个个个个被被被被错错错错分分分分的的的的数数数数据据据据会会会会产产产
7、产生生生生相相相相同同同同的的的的成成成成本本本本,我我我我们们们们引引引引入入入入误误误误差差差差率率率率和和和和准准准准确确确确率率率率这这这这两两两两个个个个参数作为它的一个性能度量来对其进行评估。参数作为它的一个性能度量来对其进行评估。参数作为它的一个性能度量来对其进行评估。参数作为它的一个性能度量来对其进行评估。误差率误差率误差率误差率R R是误差数目是误差数目是误差数目是误差数目(shm)E(shm)E和检验集中的样本数和检验集中的样本数和检验集中的样本数和检验集中的样本数S S的比值:的比值:的比值:的比值:(17-117-1)分分分分类类类类器器器器的的的的准准准准确确确确率率
8、率率A A是是是是检检检检验验验验集集集集中中中中正正正正确确确确分分分分类类类类数数数数和和和和检检检检验验验验集集集集中中中中样样样样本本本本数数数数S S的的的的比比比比值,它的计算是:值,它的计算是:值,它的计算是:值,它的计算是:(17-217-2)第6页/共48页第七页,共48页。到目前为止,我们所假设的是每个误差同等成本,如果对于不同的错误有不同的成本的话,即使一个模型有低的准确率,它也比一个有高准确率但是(dnsh)成本高的模型更好。例如,在表17-23个类的混淆矩阵中如果假定每一个正确分类的成本为1000元,关于A类分错的成本是500元,关于B类分错的成本是1000元,关于C
9、类分错的成本是2000元,则通过矩阵计算模型成本为(1231000)(5500)(121000)(102000)=88500元。第7页/共48页第八页,共48页。因此当不同类型的误差对应不同的权值时,我们要将每个误差乘以对应的权值因子cij 如果混淆矩阵中的误差元素为eij,那么总成本函数C(替代(tdi)精度计算中的误差数)可以计算为:(17-3)第8页/共48页第九页,共48页。要描述模型的质量,必须有更加复杂和全局性的度量。为此我们(w men)引入5个参数:敏感性(sensitivity),特 异 性(specificity),精度(precision),错误正例(false posi
10、tives),错 误 负 例(false negatives)。敏感性(sensitivity)=(17-4)特异性(specificity)=(17-5)第9页/共48页第十页,共48页。以上(yshng)两个参数分别评估分类器识别正样本的情况和识别负样本的情况。精度(precision)=(17-6)错误正例(false positives)=1-(17-7)错误负例(false negatives)=1-(17-8)第10页/共48页第十一页,共48页。其中,t_pos是真正(zhnzhng)的样本个数,pos是正样本数,t_neg是真负的样本个数,neg是负样本的个数,f_pos是假正
11、的样本个数。最终准确率为:A=+(17-9)第11页/共48页第十二页,共48页。例例17-1基于表基于表17-1正、负样本的混淆矩正、负样本的混淆矩阵。事件阵。事件(Event)这个这个(zhge)术语代表二术语代表二值响应变量的值值响应变量的值Y,Event(1)表示成功,表示成功,Event(0)表示失败。可以把一个检验数据集表示失败。可以把一个检验数据集中的样本数据分为可能的中的样本数据分为可能的4类,如表类,如表17-3事事件(件(Event)的混淆矩阵)的混淆矩阵:预测值实际值Event(1)Event(1)Event(0)Event(0)总计总计Event(1)Event(1)a
12、 ab ba+ba+bEvent(0)Event(0)c cd dc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+d表表 17-3 事件(事件(Event)的混淆)的混淆(hnxio)矩矩阵阵第12页/共48页第十三页,共48页。该模型的敏感性(该模型的敏感性(sensitivitysensitivity),特异性(),特异性(specificityspecificity),精度(),精度(precisionprecision),错误),错误正例(正例(false positivesfalse positives),错误负例(),错误负例(false negativesf
13、alse negatives)5 5个参数个参数(cnsh)(cnsh)分别为:分别为:敏感性(敏感性(sensitivitysensitivity)=特异性(特异性(specificityspecificity)=精度(精度(precisionprecision)=错误正例(错误正例(false positivesfalse positives)=错误负例(错误负例(false negativesfalse negatives)=第13页/共48页第十四页,共48页。介介介介绍绍绍绍liftlift图图图图和和和和ROCROC曲曲曲曲线线线线,这这这这两两两两个个个个图图图图都都都都可可可可
14、以以以以用用用用来来来来评评评评价价价价模模模模型型型型成成成成本本本本。它它它它们们们们都都都都是是是是关关关关于于于于二二二二值值值值响响响响应应应应变变变变量量量量的的的的,而而而而 二二二二 值值值值 响响响响 应应应应 变变变变 量量量量 是是是是 评评评评 价价价价 方方方方 法法法法(fngf)(fngf)发展最快的领域。发展最快的领域。发展最快的领域。发展最快的领域。17.1.3.1lift17.1.3.1lift图图图图liftlift图图图图把把把把验验验验证证证证数数数数据据据据集集集集中中中中的的的的观观观观测测测测数数数数据据据据根根根根据据据据它它它它们们们们的的的
15、的分分分分数数数数以以以以升升升升序序序序或或或或降降降降序序序序排排排排列列列列,分分分分数数数数是是是是基基基基于于于于训训训训练练练练数数数数据据据据集集集集估估估估计计计计的的的的响响响响应应应应事事事事件件件件(成成成成功功功功)的的的的概概概概率率率率。把把把把这这这这些些些些分分分分数数数数再再再再细细细细分分分分成成成成1010分分分分位位位位点点点点,然然然然后后后后对对对对验验验验证证证证数数数数据据据据集集集集中中中中的的的的每每每每个个个个1010分分分分位位位位点点点点计计计计算算算算和和和和图图图图示示示示成成成成功功功功的的的的预预预预测测测测概概概概率率率率。如
16、如如如果果果果这这这这些些些些成成成成功功功功的的的的预预预预测测测测概概概概率率率率与与与与估估估估计计计计概概概概率率率率具具具具有有有有相相相相同同同同的的的的顺顺顺顺序序序序(升升升升序序序序或或或或降降降降序序序序),那么模型就是有效的。那么模型就是有效的。那么模型就是有效的。那么模型就是有效的。17.1.3 两个评价模型成本(chngbn)的可视化工具图图17-1lift图示例比较了两个图示例比较了两个(lin)分类模型的分类模型的lift图图 第14页/共48页第十五页,共48页。图中可看出分数以降序排列,所以曲线减少越多表明(biomng)模型越好。因此模型classifica
17、tion tree看起来比另一个更好,特别是在第3个10分位点,它具有较好的成功率。用每个曲线的值除以基本线,可得到性能的相对指标,称为lift,它测量一个模型的价值。对于模型classification tree,在第3个10分位点的lift值为2.77(即2.27/1.0),这意味着使用模型classification tree的成功率是随机选择(基本线)的3倍。第15页/共48页第十六页,共48页。17.1.3.2ROC曲线曲线ROC曲曲线线显显示示了了给给定定模模型型的的真真正正率率即即敏敏感感性性与与假假正正率率(错错误误正正例例)之之间间的的比比较较(bjio)评评定定。也也就就是
18、是说说,给给定定一一个个二二类类问问题题,我我们们可可以以对对检检验验集集的的不不同同部部分分,显显示示模模型型可可以以正正确确识识别别正正样样本本的的比比例例与与模模型型将将负负样样本本错错误误标标识识为为正正样样本本的的比比例例之之间间的的比比较较(bjio)评评定定。敏敏感感性性的的增增加加以以错错误误正正例例的增加为代价。的增加为代价。第16页/共48页第十七页,共48页。ROCROC曲线的画出以错误正曲线的画出以错误正例为水平抽,以敏感性为垂例为水平抽,以敏感性为垂直轴,截止点是任意特定点。直轴,截止点是任意特定点。在模型比较方面,理想的曲在模型比较方面,理想的曲线是和垂直轴一致的曲
19、线。线是和垂直轴一致的曲线。所以所以(suy)(suy)最佳曲线是最靠最佳曲线是最靠左边的曲线。左边的曲线。图图17-2 317-2 3个分类模型的个分类模型的ROCROC曲线给出了对曲线给出了对3 3个分类模型个分类模型的的ROCROC曲线,它说明最佳曲线,它说明最佳模型是模型是reg2reg2。不过三个模型。不过三个模型实际上是相似的。实际上是相似的。图图17-2:3个分类个分类(fn li)模型的模型的ROC曲线曲线第17页/共48页第十八页,共48页。通常(tngchng)把数据集分为训练集和检验集,在训练集上建立模型,然后在检验集上评估其质量。怎样将可用样本分为训练样本和检验样本呢?
20、这里我们将讨论将较小数据集划分为训练样本集和检验样本集的不同技术,这种技术通常(tngchng)叫做再取样方法。17.1.4.1 再替换方法 所有可用的数据集都既用于训练集也用于检验集。换句话说,训练集和检验集是相同的 17.1.4 评估(pn)分类器的准确率第18页/共48页第十九页,共48页。17.1.4.2保保持持方方法法和和随随机子抽样机子抽样保保持持(holdout)方方法法是是我我们们目目前前为为止止讨讨论论准准确确率率时时默默认认的的方方法法(见见图图17-3用用保保持持方方法法估估计计准准确确率率)。在在这这种种方方法法中中,给给定定数数据据随随机机地地划划分分到到两两个个独独
21、立立(dl)的的集集合合:训训练练集集和和检检验验集集。通通常常,三三分分之之二二的的数数据据分分配配到到训训练练集集,其其余余三三分分之之一一分分配配到到检检验验集集。使使用用训训练练集集导导出出模模型型,其其准准确确率率用用检检验验集集估估计。计。随随机机子子抽抽样样(randomsubsampling)是是保保持持方方法法的的一一种种变变形形,它它随随机机地地选选择择训训练练集集和和检检验验集集,将将保保持持方方法法重重复复k次次。总总准准确确率率估估计计取取每每次次迭迭代代准准确确率率的平均值。的平均值。图图17-3:用保持方法用保持方法(fngf)估计准确率图估计准确率图第19页/共
22、48页第二十页,共48页。17.1.4.3交叉确认交叉确认在在 k折折 交交 叉叉 确确 认认(k-foldcross-validation)中中,初初始始数数据据随随机机划划分分成成k个个互互不不相相交交的的子子集集或或“折折”D1,D2,Dk,每每个个折折的的大大小小大大致致相相等等。训训练练和和检检验验进进行行k次次。在在第第i次次迭迭代代,划划分分Di用用作作检检验验集集,其其余余的的划划分分一一起起用用来来训训练练模模型型。即即在在第第一一次次迭迭代代子子集集D2,Dk一一起起作作为为训训练练集集,得得到到第第一一个个模模型型,并并在在D1上上检检验验;如如此此下下去去。与与上上面面
23、的的保保持持和和随随机机子子抽抽样样方方法法不不同同,这这里里每每个个样样本本用用于于训训练练的的次次数数相相同同,并并且且用用于于检检验验一一次次。对对于于分分类类,准准确确率率估估计计是是k次次迭迭代代正正确确分分类类的的总总数数除除以以初初始始数数据据中中的的样样本本总总数。数。留留一一(leave-one-out)是是k折折交交叉叉确确认认的的特特殊殊情情况况,其其中中k设设置置为为初初始始样样本本数数。用用k-1个个样样本本作作为为训训练练集集,每每次次只只给给检检验验集集“留留出出”一一个个样样本本,由由此此设设计计一一个个模模型型。从从k个个样样本本中中选选k-1个个样样本本有有
24、k中中选选择择,所所以以可可用用不不同同的的大大小小为为k-1训训练练样样本本重重复复进进行行k次次。由由于于要要设设计计k个个不不同同的的模模型型并并对对其其进进行行比比较较(bjio),这这种种方方法法计计算算量量很很大。大。第20页/共48页第二十一页,共48页。17.1.4.4自助法自助法自自助助法法(bootstrapmethod)从从给给定定训训练练样样本本中中有有放放回回均均匀匀抽抽样样。即即每每当当选选中中一一个个样样本本,它它等等可可能能地地被被再再次次选选中中并并再再次次添添加加到训练集中。到训练集中。有有多多种种自自助助法法方方法法。常常用用的的一一种种是是.632自自助
25、助法法,其其方方法法如如下下,设设给给定定的的数数据据集集包包含含d个个样样本本,该该数数据据集集有有放放回回地地抽抽样样d次次,产产生生d个个样样本本的的自自助助样样本本集集或或训训练练集集。原原数数据据样样本本中中的的某某些些样样本本很很可可能能在在该该样样本本集集中中出出现现(chxin)多多次次。没没有有进进入入该该训训练练集集的的数数据据样样本本最最终终形形成成检检验验集。集。第21页/共48页第二十二页,共48页。“数字数字数字数字63.263.263.263.2从何而来?从何而来?从何而来?从何而来?”每个样本被选中的概率是每个样本被选中的概率是每个样本被选中的概率是每个样本被选
26、中的概率是1/d1/d1/d1/d,因此未被选中的概率是(,因此未被选中的概率是(,因此未被选中的概率是(,因此未被选中的概率是(1-1/d1-1/d1-1/d1-1/d)。经过挑选)。经过挑选)。经过挑选)。经过挑选d d d d次,次,次,次,一个一个一个一个(y)(y)(y)(y)样本在全部样本在全部样本在全部样本在全部d d d d次挑选都未被选中的概率是次挑选都未被选中的概率是次挑选都未被选中的概率是次挑选都未被选中的概率是(1-1/d1-1/d1-1/d1-1/d)d d d d。如果。如果。如果。如果d d d d很大,该概率近为很大,该概率近为很大,该概率近为很大,该概率近为e
27、-1=0.368e-1=0.368e-1=0.368e-1=0.368。这。这。这。这样,样,样,样,36.836.836.836.8的样本未被选为训练集而留在检验集中,的样本未被选为训练集而留在检验集中,的样本未被选为训练集而留在检验集中,的样本未被选为训练集而留在检验集中,其余的其余的其余的其余的63.263.263.263.2将形成训练集将形成训练集将形成训练集将形成训练集我们可以重复抽样过程我们可以重复抽样过程我们可以重复抽样过程我们可以重复抽样过程k k k k次,每次迭代,使用当前的检验次,每次迭代,使用当前的检验次,每次迭代,使用当前的检验次,每次迭代,使用当前的检验集得到从当前
28、自助样本得到的模型的准确率估计。模集得到从当前自助样本得到的模型的准确率估计。模集得到从当前自助样本得到的模型的准确率估计。模集得到从当前自助样本得到的模型的准确率估计。模型的总体准确率则用下式估计:型的总体准确率则用下式估计:型的总体准确率则用下式估计:型的总体准确率则用下式估计:(17-1017-1017-1017-10)其中,其中,其中,其中,Acc(Mi)test_setAcc(Mi)test_setAcc(Mi)test_setAcc(Mi)test_set是自助样本是自助样本是自助样本是自助样本i i i i得到的模型用于检验得到的模型用于检验得到的模型用于检验得到的模型用于检验集
29、集集集i i i i的准确率。的准确率。的准确率。的准确率。Acc(Mi)train_setAcc(Mi)train_setAcc(Mi)train_setAcc(Mi)train_set是自助样本是自助样本是自助样本是自助样本i i i i得到的得到的得到的得到的模型用于原数据样本集的准确率。对于小数据集,自模型用于原数据样本集的准确率。对于小数据集,自模型用于原数据样本集的准确率。对于小数据集,自模型用于原数据样本集的准确率。对于小数据集,自助法效果胜过交叉确认。助法效果胜过交叉确认。助法效果胜过交叉确认。助法效果胜过交叉确认。第22页/共48页第二十三页,共48页。17.2基于(jy)统
30、计检验的准则17.2.1统计模型之间的距离统计模型之间的距离(jl)距距离离(jl)函函数数有有不不同同的的类类型型,当当所所考考虑虑的的变变量量是是定定量量变变量量时时,距距离离(jl)是是最最典典型型的的相相似似性性指指标标。如如果果变变量量是是定定性性的的,观观测测数数据据间间的的距距离离(jl)可可以以通通过过相相似似性性指指标标测量。测量。17.2.1.1欧氏距离欧氏距离(jl)(17-11)第23页/共48页第二十四页,共48页。17.2.1.2 熵距离熵距离(jl)(17-12)17.2.1.3 卡方距离卡方距离(jl)(17-13)17.2.1.4 0-1距离距离(jl)(17
31、-14)第24页/共48页第二十五页,共48页。17.2.2 统计(tngj)模型的离差17.2.2.1欧氏离差欧氏离差假假设设f是是总总体体的的未未知知密密度度,g=p是是一一逼逼近近它它的的密密度度函函数数族族(用用有有I个个参参数数的的向向量量标标记记)。一一个个(y)统统计计模模型型g对对于于一一个个(y)目目标标模模型型f的的离差可以用欧氏距离定义:离差可以用欧氏距离定义:(17-15)如如果果知知道道真真正正的的模模型型f,就就能能通通过过对对不不同同近近似似模模型型g的的选选择择使使离离差差最最小小。这这样样可可以以得得到到g的的离离差差(因因为为是是参参数数近近似似)作作为为未
32、未知知概概率率模模型型和和最最佳佳参数统计模型之间的离差参数统计模型之间的离差:(17-16)第25页/共48页第二十六页,共48页。然而然而f f是未知的,因此不能确定谁是最佳的参数统计模型。这是未知的,因此不能确定谁是最佳的参数统计模型。这样用样本估计样用样本估计 来代替来代替f f,而,而I I参数是基于数据估计得到的。参数是基于数据估计得到的。在在 f(x)f(x)样本估计和最佳的统计模型之间的离差称为样本估计和最佳的统计模型之间的离差称为g g的离差的离差(源于估计过程)(源于估计过程)(17-1717-17)在参数近似产生的离差和因为估计产生的离差之间找到一个在参数近似产生的离差和
33、因为估计产生的离差之间找到一个平衡,作为函数平衡,作为函数f f和样本估计量之间的总离差,它由如下等式和样本估计量之间的总离差,它由如下等式给出:给出:(17-1817-18)它表示了两种离差的代数和,一个源自参数近似,另一个来它表示了两种离差的代数和,一个源自参数近似,另一个来自估计过程。一般极小化第一种离差则倾向于复杂的模型,自估计过程。一般极小化第一种离差则倾向于复杂的模型,这样则过分这样则过分(gu(gufn)fn)拟合数据;极小化第二种离差则倾向拟合数据;极小化第二种离差则倾向较简单的模型,这样当观测样本有变化时模型将更稳定。较简单的模型,这样当观测样本有变化时模型将更稳定。第26页
34、/共48页第二十七页,共48页。17.2.2.2Kullback-Leibler离差离差为了定义一个一般的评估为了定义一个一般的评估(pn)量,量,需要用到需要用到Kullback-Leibler离差,这是一个离差,这是一个比欧氏离差更一般的离差,但比欧氏离差更一般的离差,但17.2.2节中的节中的思想仍然适用。思想仍然适用。Kullback-Leibler(KL)离差可以用于任何类型的观测数据,它源离差可以用于任何类型的观测数据,它源自熵距离,其定义如下:自熵距离,其定义如下:(17-19)现在可以给出统计检验并把它用于基于总现在可以给出统计检验并把它用于基于总的的KL离差估计量的模型比较。
35、假设离差估计量的模型比较。假设P是由是由向量向量=(1,I)决定的概率密度函数,决定的概率密度函数,x1,x2,xn是一系列具有独立分布的观测值,是一系列具有独立分布的观测值,所以样本密度函数可以表示为:所以样本密度函数可以表示为:第27页/共48页第二十八页,共48页。(17-20)表示参数的最大似然估计量,似然函数L在这一点计算。对得到的结果表达式取对数并乘以-1/n,得到:(17-21)实际应用中经常考虑对数形式的似然性评分(png fn),它等于:(17-22)第28页/共48页第二十九页,共48页。17.3 基于计分函数(hnsh)的标准 17.2 17.2节解释了一个模型选择策略如
36、何在模型拟合和模型简化之间取得折节解释了一个模型选择策略如何在模型拟合和模型简化之间取得折中。现在从另一个角度看一下这个问题,它是基于中。现在从另一个角度看一下这个问题,它是基于(jy)(jy)偏差和方差之间偏差和方差之间的折中。我们应用估计量均方差原理来测量选择作为目标模型的折中。我们应用估计量均方差原理来测量选择作为目标模型f f最佳逼近最佳逼近模型模型 模型的欧氏距离。模型的欧氏距离。(17-2317-23)第29页/共48页第三十页,共48页。注意到注意到 是基于数据的估计,所以它受样本变化性的影是基于数据的估计,所以它受样本变化性的影响。此外对于响。此外对于 可以定义它的期望值可以定
37、义它的期望值E()E()和方差和方差Var()Var()。根据均方差的性质可以得到:。根据均方差的性质可以得到:(17-2417-24)这表明与一个这表明与一个(y)(y)模型相关联的误差可分为两个部分:模型相关联的误差可分为两个部分:系统误差(偏差),它不依赖于观测数据并反映由于参数系统误差(偏差),它不依赖于观测数据并反映由于参数逼近产生的误差;样本误差(方差),它反映了由于估计逼近产生的误差;样本误差(方差),它反映了由于估计过程产生的误差,因此应精心选择可以平衡这两部分的模过程产生的误差,因此应精心选择可以平衡这两部分的模型。型。第30页/共48页第三十一页,共48页。Akaike信息
38、标准(AIC),1974年Akaike形式化了其思想:(1)参数模型使用最大似然法进行估计;(2)指定的参数族包含(bohn)作为特例的未知分布f(x)。这样Akaike通过采用Kullback-Leibler样本离差函数定义了一个评分函数给每个模型赋予一个分数。在标准形式下,AIC定义为如下等式:(17-25)其中,其中,是对计算最大似然是对计算最大似然估计的似然函数取对数,估计的似然函数取对数,q是模型中参是模型中参数的个数数的个数 第31页/共48页第三十二页,共48页。贝叶斯信息标准(贝叶斯信息标准(BICBIC),也称为),也称为SCSC。它是由。它是由Schwarz(1978)Sc
39、hwarz(1978)制定的并用下列制定的并用下列表达式定义:表达式定义:(17-2617-26)BICBIC与与AICAIC区别仅在于第二部分,现在第二部分也依赖于样本规模区别仅在于第二部分,现在第二部分也依赖于样本规模n n。当。当n n增长增长时,时,BICBIC比比AICAIC更倾向于简单的模型。当更倾向于简单的模型。当n n变大时,与变大时,与n n是线性关系的第一项的是线性关系的第一项的影响压倒了与影响压倒了与n n是对数关系的第二项占支配地位。这对应是对数关系的第二项占支配地位。这对应(duyng)(duyng)着这样的着这样的事实:对于一个很大的事实:对于一个很大的n n来说在
40、来说在MESMES表达式中的方差项可以被忽略。虽然表达式中的方差项可以被忽略。虽然BICBIC与与AICAIC表面相似,但表面相似,但AICAIC是用经典的渐进的论断来证明,而是用经典的渐进的论断来证明,而BICBIC是用贝叶斯构是用贝叶斯构架证明。架证明。第32页/共48页第三十三页,共48页。17.4 贝叶斯标准(biozhn)在贝叶斯推导中每一个模型给一个对应于在贝叶斯推导中每一个模型给一个对应于模型后验概率的分数模型后验概率的分数,一个模型成为一个在一个模型成为一个在所有候选模型空间中取值的离散随机变量。所有候选模型空间中取值的离散随机变量。这个概率可以由贝叶斯规则这个概率可以由贝叶斯
41、规则(guz)计算:计算:(17-27)贝叶斯评分方法首先要解决的问题是计算贝叶斯评分方法首先要解决的问题是计算模型的似然。对于一个有参数向量模型的似然。对于一个有参数向量指定的指定的模型模型M,需要计算:,需要计算:(17-28)第33页/共48页第三十四页,共48页。贝叶斯方法更大的优点在于模型的评分数是概率,所以还可以用于从各种竞争模型中得到推论,而不是只基于一个(y)选定的模型得到推论,这考虑了模型的不确定性。考虑预测某个变量Y值的问题,对于在K个可选模型中,选定模型的不确定性,贝叶斯预测是:(17-29)第34页/共48页第三十五页,共48页。17.5计算(j sun)标准17.5.
42、1交叉验证标准交叉验证标准(biozhn)交交叉叉验验证证的的思思想想是是把把样样本本分分为为两两个个样样本本子子集集:一一个个是是训训练练样样本本集集,包包括括n-m个个样样本本;一一个个是是检检验验样样本本集集,包包括括m个个样样本本。第第一一个个样样本本用用来来拟拟合合模模型型,第第二二个个样样本本用用来来估估计计期期望望离离差差或或者者估估算算一一个个距距离离。比比如如,在在有有定量输入的神经网络中,通常用高斯离差:定量输入的神经网络中,通常用高斯离差:(17-30)第35页/共48页第三十六页,共48页。进一步的改进方法称为k-fold交叉验证。方法将所有的数据分成(fn chn)k
43、个相同大小的子集,模型进行k次拟合,每次留下一个子集用来计算预测错误率。最后的错误率是所得到错误率的算术均值。另一个常用的方法是留一(leaving-one-out)方法,从k个样本子集中各取出一个样本,用这些样本校正预测。第36页/共48页第三十七页,共48页。17.5.2 自展标准(biozhn)自展方法是基于重新产生总体的“真实的”分布并且对观测样本进行重新抽样。为了比较可选择的模型,可以从虚拟的总体(可用样本)中重新抽取(重新抽样)并可以使用先前的模型比较结果。自展方法不仅可以评估一个模型的离差及它自身(zshn)的精确性,还可以提高结果的精确性。装袋(bagging)和提升(boos
44、ting)就是两种这样的技术。第37页/共48页第三十八页,共48页。它们将它们将k k个学习到的模型组合起来,旨在创建一个改进的复合模型。对于个学习到的模型组合起来,旨在创建一个改进的复合模型。对于分类和预测分类和预测 ,如图,如图17-4 17-4 提高模型的准确率所示,他们都产生一系列分类提高模型的准确率所示,他们都产生一系列分类或预测的模型或预测的模型M1,M2MkM1,M2Mk,接着将,接着将k k个学习的得到的模型个学习的得到的模型M1,M2MkM1,M2Mk组组合起来,旨在创建一个改进的复合模型合起来,旨在创建一个改进的复合模型M*M*。使用投票。使用投票(tu pio)(tu
45、pio)策略给策略给定未知样本的预测。定未知样本的预测。图图17-4:提高提高(t go)模型的准确率模型的准确率第38页/共48页第三十九页,共48页。17.5.2.117.5.2.1装袋装袋装袋装袋装袋装袋装袋装袋(bagging)(bagging)方法可以描述如下:在每次循环方法可以描述如下:在每次循环方法可以描述如下:在每次循环方法可以描述如下:在每次循环(xnhun)(xnhun)的过程的过程的过程的过程中,从可用的训练数据集中进行有替换的抽样。给定中,从可用的训练数据集中进行有替换的抽样。给定中,从可用的训练数据集中进行有替换的抽样。给定中,从可用的训练数据集中进行有替换的抽样。给
46、定d d个样本的集个样本的集个样本的集个样本的集合合合合D D,baggingbagging过程如下。对于迭代过程如下。对于迭代过程如下。对于迭代过程如下。对于迭代i(i=1,2,i(i=1,2,,k),dk),d个样本的训练个样本的训练个样本的训练个样本的训练集集集集DiDi采用有放回抽样,由原始样本集采用有放回抽样,由原始样本集采用有放回抽样,由原始样本集采用有放回抽样,由原始样本集D D抽样。每个训练集都是自抽样。每个训练集都是自抽样。每个训练集都是自抽样。每个训练集都是自助样本,由于使用有放回抽样,助样本,由于使用有放回抽样,助样本,由于使用有放回抽样,助样本,由于使用有放回抽样,D
47、D的某些原始样本可能不在的某些原始样本可能不在的某些原始样本可能不在的某些原始样本可能不在DiDi中中中中出现,而其它样本可能会出现多次。由每个训练集出现,而其它样本可能会出现多次。由每个训练集出现,而其它样本可能会出现多次。由每个训练集出现,而其它样本可能会出现多次。由每个训练集DiDi学习,得到学习,得到学习,得到学习,得到一个分类模型一个分类模型一个分类模型一个分类模型MiMi。为了对一个未知的样本。为了对一个未知的样本。为了对一个未知的样本。为了对一个未知的样本x x分类,每个分类器分类,每个分类器分类,每个分类器分类,每个分类器MiMi返回它的类预测,算作一票。返回它的类预测,算作一
48、票。返回它的类预测,算作一票。返回它的类预测,算作一票。第39页/共48页第四十页,共48页。bagging算法(sun f)如下图:第40页/共48页第四十一页,共48页。17.5.2.2提升提升在提升方法中,给每个训练样本赋予权重。在提升方法中,给每个训练样本赋予权重。迭代地学习迭代地学习k个分类器序列。学习得到分类个分类器序列。学习得到分类器器Mi之后,更新它的权重,目的在于使得之后,更新它的权重,目的在于使得其后的分类器其后的分类器Mi+1对对Mi误分类的训练样本误分类的训练样本更关注。最终的提升分类器更关注。最终的提升分类器M*组合组合(zh)每个分类器,其中每个分类器投票的权重每个
49、分类器,其中每个分类器投票的权重是其准确率的函数。是其准确率的函数。Adaboost提升算法提升算法第41页/共48页第四十二页,共48页。给定数据集给定数据集D,D,包含包含(bohn)d(bohn)d个有类标记的样本,其中个有类标记的样本,其中yi yi是样本是样本XiXi的类标的类标号。号。初始,初始,AdaboostAdaboost对每个训练样本赋予相等的权重对每个训练样本赋予相等的权重1/d1/d。执行算法的其余部。执行算法的其余部分分k k轮产生轮产生k k个分类器。个分类器。在第在第i i轮,使用有放回抽样从轮,使用有放回抽样从D D中样本抽样,形成大小为中样本抽样,形成大小为d
50、 d的训练集的训练集DiDi,每,每个样本被抽中的机会由它的权重决定。从训练集个样本被抽中的机会由它的权重决定。从训练集Di Di 导出模型导出模型Mi Mi,计算模,计算模型误差,训练集型误差,训练集Di Di 中的样本根据分类情况调整权重。如果样本不能正确中的样本根据分类情况调整权重。如果样本不能正确的分类,它的权重增加,否则权重减小。的分类,它的权重增加,否则权重减小。然后,分类器使用这些权重产生下一轮的训练样本,这样的目的是在建然后,分类器使用这些权重产生下一轮的训练样本,这样的目的是在建立分类器时,希望它更关注上一轮错误的分类,即建立一个互补的分类立分类器时,希望它更关注上一轮错误的