第七章模型选择和模型评估优秀PPT.ppt-淘文阁

资源描述

《第七章模型选择和模型评估优秀PPT.ppt》由会员分享，可在线阅读，更多相关《第七章模型选择和模型评估优秀PPT.ppt（39页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第七章模型选择和模型评估 MLE3-1现在学习的是第1页，共39页 MLE3-2上节课内容总结q后验的仿真模拟q贝叶斯推理与MLEm例m令为的极大似然估计，在合适的正则条件下，后验均值为q贝叶斯推理的优点m可以方便的结合先验信息m数据和先验同等对待m由后验可以同时推出点估计和区间估计现在学习的是第2页，共39页 MLE3-3第七章：模型选择和模型评估内容：q估计选择（Ch13）q模型选择（Ch14，Ch9，统计学习基础第7章）现在学习的是第3页，共39页 MLE3-4估计选择q有几个不同的估计，哪个估计更好一些？m统计决策理论现在学习的是第4页，共39页 MLE3-5损失函数q损失函数

2、：度量真值与估计之间的差异q损失函数举例平方误差损失绝对误差损失损失0-1损失Kullback Leibler损失现在学习的是第5页，共39页 MLE3-6风险函数q风险函数：损失的均值q一个估计的风险是m对平方误差损失，风险为MSEm风险是的函数q比较不同的估计，转化为比较不同估计的风险m但并不能清楚地回答哪个估计更好现在学习的是第6页，共39页 MLE3-7风险比较没有一个估计的风险在所有的值都超过另外一个现在学习的是第7页，共39页 MLE3-8风险比较q风险函数的两个单值概述q最大风险q贝叶斯风险m其中为的先验。现在学习的是第8页，共39页 MLE3-9决策规则(Decisi

3、on Rules)q决策规则是估计的别名q最小化贝叶斯风险的决策规则成为贝叶斯规则或贝叶斯估计，即为对应先验 f 的贝叶斯估计m其中下界是对所有的估计计算q最小化最大风险的估计称为最小最大规则m其中下界是对所有的估计计算现在学习的是第9页，共39页 MLE3-10贝叶斯估计q给定一个模型（先验和后验）和损失函数，就可以找到贝叶斯规则q若，则贝叶斯规则为后验均值q若，则贝叶斯规则为后验中值q若为0-1损失，则贝叶斯规则为后验众数现在学习的是第10页，共39页 MLE3-11最小最大规则q找最小最大规则，或者证明一个估计是最小最大估计是一件很困难的事情。但还是有一个简单的方法：有些贝叶

4、斯估计（如风险为常数）是最小最大估计q令对应先验 f 的贝叶斯估计：q假设q则为最小最大估计，且f 称为最小受欢迎先验(least favorable prior)。q上述结论一个简单的结果有：如果一个贝叶斯规则的风险为常数，则它是最小最大估计。现在学习的是第11页，共39页 MLE3-12MLE为近似最小最大估计q对满足弱正则条件的参数模型，极大似然估计近似为最小最大估计。对均方误差损失，通常q根据Cramer-Rao 不等式，这是所有无偏估计的方差的下界。现在学习的是第12页，共39页 MLE3-13MLE为近似最小最大估计q因此对所有估计，有q对大数N，MLE为近似最小最大估计。

5、q因此，对大多数参数模型，当有大量样本时，MLE近似为最小最大估计和贝叶斯估计。mMany Normal Means 情况不成立（不是大样本）现在学习的是第13页，共39页 MLE3-14可接受性(Admissibility)q一个估计如果在所有值上都比其它估计的风险大，则该估计不是我们所希望的。如果存在一个其它的规则，使得q则该估计是不可接受的。q否则，是可接受的。至少存在一个现在学习的是第14页，共39页 MLE3-15可接受性q可接受性是与其他表示估计好坏的方法有何关系？q在一些正则条件下，如果为贝叶斯规则且有有限风险，则它是可接受的。q如果的风险为常数且是可接受的，则它是最小最

6、大估计。现在学习的是第15页，共39页 MLE3-16许多正态均值(Many Normal Means)qMany Normal Means是一个原型问题，与一般的非参数回归或密度估计等价。对这个问题，以前许多关于极大似然估计的正面的结论都不再满足。q令，表示数据，表示未知参数，qc0，这里参数的数目与观测数据一样多现在学习的是第16页，共39页 MLE3-17Many Normal MeansqMLE为，损失函数为 MLE的风险为q最小最大估计的风险近似为，且存在这样一个估计能达到该风险。也就是说，存在风险比MLE更小的估计，因此MLE是不可接受的。在实际应用中，风险的差值可能很重要

7、。q因此对高维问题或非参数问题，MLE并不是最优估计。另外在非参数场合，MLE的鲁棒性也不是很好。现在学习的是第17页，共39页 MLE3-18底线根据这些工具，怎样选择估计呢？q如果一个估计是不可接受的，则该估计一定是不好的。q如果你信仰贝叶斯观点，则你可以用贝叶斯规则q如果最小最大性满足应用要求，可以使用最小最大估计。现在学习的是第18页，共39页 MLE3-19模型选择q给定一个估计和风险函数，应该选择哪个模型/参数？现在学习的是第19页，共39页 MLE3-20“模型”q我们说的“模型”有时指的是模型类别，例如所有2个高斯的混合模型和所有3个高斯的混合模型。q有时也指在一个类别的模型

8、中的一员，如参数的值为特定值。也就是说，模型的类别是固定的，而考虑的是不同的参数值。q在实际应用中，我们通常同时考虑上述两种情况，也就是说：现在学习的是第20页，共39页 MLE3-21训练与测试训练数据目标/类别学习模型测试数据应用模型现在学习的是第21页，共39页 MLE3-22训练误差与测试误差q测试误差，亦称泛化误差(generalization error)，是在与训练数据同分布的独立的测试样本上的期望预测误差：q训练误差是在训练样本上的平均损失：现在学习的是第22页，共39页 MLE3-23训练误差与测试误差我们的目标：选择使测试误差最小的模型M，称为模型选择。现在学习的是第23

9、页，共39页 MLE3-24训练误差与测试误差选择次优模型：过拟合/欠拟合现在学习的是第24页，共39页 MLE3-25训练误差与测试误差训练误差为预测风险的过小估计：现在学习的是第25页，共39页 MLE3-26模型选择和模型评估q为了进行模型选择，我们只需知道不同模型的测试误差的相对值。渐近近似有时对比较不同模型的测试误差很有用。q通常对误差的真值没有很好的估计。当样本有限时，渐近近似通常还不能得到足够好的估计。这种情况下我们可以采用重采样(resampling)方法。q当然如过我们对测试误差有一种很好的方法来直接估计，我们可以用它来进行模型选择。现在学习的是第26页，共39页 MLE3-

10、27训练误差的乐观性q训练误差的乐观性定义为q也就是说，欠估计R(M)的量取决于 yi 影响其预测的强度。我们越难拟合数据，乐观性越大。现在学习的是第27页，共39页 MLE3-28训练误差的乐观性q通常我们有q因此，为了选择模型，我们可以m对进行估计，或m以某种方式估计R(M)欠拟合程度+复杂性惩罚现在学习的是第28页，共39页 MLE3-29估计乐观性q通过各种技巧（通常是渐近性）估计乐观性现在学习的是第29页，共39页 MLE3-30Mallows Cp统计量q当取平方误差损失，误差模型为，其中误差的均值为0，方差为q其中为模型中参数的数目。现在学习的是第30页，共39页 MLE

11、3-31Mallows Cp统计量q这样，可以用Mallows Cp统计来估计R(M)q其中为从一个低偏差（的复杂）估计的MSE获得。现在学习的是第31页，共39页 MLE3-32AIC（Akaike Information Criterion）q假设采用log似然作为损失函数m实际上我们采用的是2l(M)q如果模型为，则当时，q其中为的MLE，为训练数据上的似然值现在学习的是第32页，共39页 MLE3-33AIC（Akaike Information Criterion）q这导出R(M)的一个估计：AIC（Akaike Information Criterion）q其中为从一个

12、低偏差（的复杂）估计的MSE获得。q这同Mallows Cp统计量相同，只是适用假设范围更宽（推广）q但是注意：这并不是普遍满足，如0-1损失。现在学习的是第33页，共39页 MLE3-34贝叶斯模型选择q假设我们有一个候选模型M，其参数空间为，后验为q为了比较两个模型M1和M2，可以计算两个模型的相对后验概率，称为后验几率（posterior odds）：q 称为贝叶斯因子(Bayes factor)，是数据对后验的贡献现在学习的是第34页，共39页 MLE3-35BIC(Bayesian Information Criterion)q假设模型的先验是常量且参数的先验平滑，我们用Lapla

13、ce近似来近似计算的积分，再加上某些简化，得到q其中，为的MLE。q这导出了另外一个模型选择计分的准则：贝叶斯信息准则(Bayesian Information Criterion，BIC)现在学习的是第35页，共39页 MLE3-36BIC(Bayesian Information Criterion)q当取平方误差损失，误差模型为，其中误差的均值为0，方差为，有q得到qBIC(M)，其中因子2被logN代替mAIC倾向于过拟合，而BIC倾向于欠拟合现在学习的是第36页，共39页 MLE3-37BICqAIC不是一致的，而BIC是一致的，也就是说，选择最小BIC的模型等价于选择最大后验概率的模型（在渐近意义下）。事实上模型的后验概率为q不仅可以估计最好的模型，而且可以评估所考虑模型的相关指标。现在学习的是第37页，共39页 MLE3-38最小描述长度MDLq最小描述长度MDL(minimum description length)采用与BIC完全相同的选择准则，但它源自数据压缩/最优编码qBIC与MDL都只适用于似然损失。现在学习的是第38页，共39页 MLE3-39下节课内容qVC维与结构风险最小(Chp23)q重采样技术(Chp9)mBoostrapq模型组合(Chp23)mBaggingmBoosting现在学习的是第39页，共39页

展开阅读全文