第七章模型选择和模型评估PPT讲稿.ppt

上传人:石*** 文档编号:70744718 上传时间:2023-01-27 格式:PPT 页数:39 大小:2.16MB
返回 下载 相关 举报
第七章模型选择和模型评估PPT讲稿.ppt_第1页
第1页 / 共39页
第七章模型选择和模型评估PPT讲稿.ppt_第2页
第2页 / 共39页
点击查看更多>>
资源描述

《第七章模型选择和模型评估PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《第七章模型选择和模型评估PPT讲稿.ppt(39页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第七章模型选择和模型评估 MLE3-1第1页,共39页,编辑于2022年,星期一 MLE3-2上节课内容总结q后验的仿真模拟q贝叶斯推理与MLEm例m令 为 的极大似然估计,在合适的正则条件下,后验均值为q贝叶斯推理的优点m可以方便的结合先验信息m数据和先验同等对待m由后验可以同时推出点估计和区间估计 第2页,共39页,编辑于2022年,星期一 MLE3-3第七章:模型选择和模型评估内容:q估计选择(Ch13)q模型选择 (Ch14,Ch9,统计学习基础第7章)第3页,共39页,编辑于2022年,星期一 MLE3-4估计选择q有几个不同的估计,哪个估计更好一些?m统计决策理论第4页,共39页,

2、编辑于2022年,星期一 MLE3-5损失函数q损失函数:度量真值 与估计 之间的差异q损失函数举例平方误差损失绝对误差损失损失0-1损失Kullback Leibler损失第5页,共39页,编辑于2022年,星期一 MLE3-6风险函数q风险函数:损失的均值q一个估计 的风险是m对平方误差损失,风险为MSEm风险是 的函数q比较不同的估计,转化为比较不同估计的风险m但并不能清楚地回答哪个估计更好第6页,共39页,编辑于2022年,星期一 MLE3-7风险比较没有一个估计的风险在所有的值都超过另外一个第7页,共39页,编辑于2022年,星期一 MLE3-8风险比较q风险函数的两个单值概述q最大

3、风险q贝叶斯风险m其中 为的先验。第8页,共39页,编辑于2022年,星期一 MLE3-9决策规则(Decision Rules)q决策规则是估计的别名q最小化贝叶斯风险的决策规则成为贝叶斯规则或贝叶斯估计,即 为对应先验 f 的贝叶斯估计m其中下界是对所有的估计 计算q最小化最大风险的估计称为最小最大规则m其中下界是对所有的估计 计算第9页,共39页,编辑于2022年,星期一 MLE3-10贝叶斯估计q给定一个模型(先验和后验)和损失函数,就可以找到贝叶斯规则q若 ,则贝叶斯规则为后验均值q若 ,则贝叶斯规则为后验中值q若 为0-1损失,则贝叶斯规则为后验众数第10页,共39页,编辑于202

4、2年,星期一 MLE3-11最小最大规则q找最小最大规则,或者证明一个估计是最小最大估计是一件很困难的事情。但还是有一个简单的方法:有些贝叶斯估计(如风险为常数)是最小最大估计q令 对应先验 f 的贝叶斯估计:q假设q则 为最小最大估计,且f 称为最小受欢迎先验(least favorable prior)。q上述结论一个简单的结果有:如果一个贝叶斯规则的风险为常数 ,则它是最小最大估计。第11页,共39页,编辑于2022年,星期一 MLE3-12MLE为近似最小最大估计q对满足弱正则条件的参数模型,极大似然估计近似为最小最大估计。对均方误差损失,通常q根据Cramer-Rao 不等式,这是所

5、有无偏估计的方差的下界。第12页,共39页,编辑于2022年,星期一 MLE3-13MLE为近似最小最大估计q因此对所有估计 ,有q对大数N,MLE为近似最小最大估计。q因此,对大多数参数模型,当有大量样本时,MLE近似为最小最大估计和贝叶斯估计。mMany Normal Means 情况不成立(不是大样本)第13页,共39页,编辑于2022年,星期一 MLE3-14可接受性(Admissibility)q一个估计如果在所有值上都比其它估计的风险大,则该估计不是我们所希望的。如果存在一个其它的规则 ,使得q则该估计 是不可接受的。q否则,是可接受的。至少存在一个第14页,共39页,编辑于202

6、2年,星期一 MLE3-15可接受性q可接受性是与其他表示估计好坏的方法有何关系?q在一些正则条件下,如果 为贝叶斯规则且有有限风险,则它是可接受的。q如果 的风险为常数且是可接受的,则它是最小最大估计。第15页,共39页,编辑于2022年,星期一 MLE3-16许多正态均值(Many Normal Means)qMany Normal Means是一个原型问题,与一般的非参数回归或密度估计等价。对这个问题,以前许多关于极大似然估计的正面的结论都不再满足。q令 ,表示数据,表示未知参数,qc0,这里参数的数目与观测数据一样多第16页,共39页,编辑于2022年,星期一 MLE3-17Many

7、Normal MeansqMLE为 ,损失函数为 MLE的风险为q最小最大估计的风险近似为 ,且存在这样一个估计 能达到该风险。也就是说,存在风险比MLE更小的估计,因此MLE是不可接受的。在实际应用中,风险的差值可能很重要。q因此对高维问题或非参数问题,MLE并不是最优估计。另外在非参数场合,MLE的鲁棒性也不是很好。第17页,共39页,编辑于2022年,星期一 MLE3-18底线根据这些工具,怎样选择估计呢?q如果一个估计是不可接受的,则该估计一定是不好的。q如果你信仰贝叶斯观点,则你可以用贝叶斯规则q如果最小最大性满足应用要求,可以使用最小最大估计。第18页,共39页,编辑于2022年,

8、星期一 MLE3-19模型选择q给定一个估计和风险函数,应该选择哪个模型/参数?第19页,共39页,编辑于2022年,星期一 MLE3-20“模型”q我们说的“模型”有时指的是模型类别 ,例如所有2个高斯的混合模型和所有3个高斯的混合模型。q有时也指在一个类别的模型中的一员,如参数的值为特定值。也就是说,模型的类别是固定的,而考虑的是不同的参数值。q在实际应用中,我们通常同时考虑上述两种情况,也就是说:第20页,共39页,编辑于2022年,星期一 MLE3-21训练与测试训练数据目标/类别学习模型测试数据应用模型第21页,共39页,编辑于2022年,星期一 MLE3-22训练误差与测试误差q测

9、试误差,亦称泛化误差(generalization error),是在与训练数据同分布的独立的测试样本上的期望预测误差:q训练误差是在训练样本上的平均损失:第22页,共39页,编辑于2022年,星期一 MLE3-23训练误差与测试误差我们的目标:选择使测试误差最小 的模型M,称为模型选择。第23页,共39页,编辑于2022年,星期一 MLE3-24训练误差与测试误差选择次优模型:过拟合/欠拟合第24页,共39页,编辑于2022年,星期一 MLE3-25训练误差与测试误差训练误差为预测风险的过小估计:第25页,共39页,编辑于2022年,星期一 MLE3-26模型选择和模型评估q为了进行模型选择

10、,我们只需知道不同模型的测试误差的相对值。渐近近似有时对比较不同模型的测试误差很有用。q通常对误差的真值没有很好的估计。当样本有限时,渐近近似通常还不能得到足够好的估计。这种情况下我们可以采用重采样(resampling)方法。q当然如过我们对测试误差有一种很好的方法来直接估计,我们可以用它来进行模型选择。第26页,共39页,编辑于2022年,星期一 MLE3-27训练误差的乐观性q训练误差的乐观性定义为q也就是说,欠估计R(M)的量取决于 yi 影响其预测的强度。我们越难拟合数据,乐观性越大。第27页,共39页,编辑于2022年,星期一 MLE3-28训练误差的乐观性q通常我们有q因此,为了

11、选择模型,我们可以m对 进行估计,或m以某种方式估计R(M)欠拟合程度+复杂性惩罚第28页,共39页,编辑于2022年,星期一 MLE3-29估计乐观性q通过各种技巧(通常是渐近性)估计乐观性第29页,共39页,编辑于2022年,星期一 MLE3-30Mallows Cp统计量q当取平方误差损失,误差模型为 ,其中误差 的均值为0,方差为q其中 为模型中参数的数目。第30页,共39页,编辑于2022年,星期一 MLE3-31Mallows Cp统计量q这样,可以用Mallows Cp统计来估计R(M)q其中 为从一个低偏差(的复杂)估计的MSE获得。第31页,共39页,编辑于2022年,星期一

12、 MLE3-32AIC(Akaike Information Criterion)q假设采用log似然作为损失函数m实际上我们采用的是2l(M)q如果模型为 ,则当 时,q其中 为 的MLE,为训练数据上的似然值第32页,共39页,编辑于2022年,星期一 MLE3-33AIC(Akaike Information Criterion)q这导出R(M)的一个估计:AIC(Akaike Information Criterion)q其中 为从一个低偏差(的复杂)估计的MSE获得。q这同Mallows Cp统计量相同,只是适用假设范围更宽(推广)q但是注意:这并不是普遍满足,如0-1损失。第33页

13、,共39页,编辑于2022年,星期一 MLE3-34贝叶斯模型选择q假设我们有一个候选模型M,其参数空间为 ,后验为q为了比较两个模型M1和M2,可以计算两个模型的相对后验概率,称为后验几率(posterior odds):q 称为贝叶斯因子(Bayes factor),是数据对后验的贡献第34页,共39页,编辑于2022年,星期一 MLE3-35BIC(Bayesian Information Criterion)q假设模型的先验是常量且参数的先验平滑,我们用Laplace近似来近似计算 的积分,再加上某些简化,得到q其中 ,为 的MLE。q这导出了另外一个模型选择计分的准则:贝叶斯信息准则

14、(Bayesian Information Criterion,BIC)第35页,共39页,编辑于2022年,星期一 MLE3-36BIC(Bayesian Information Criterion)q当取平方误差损失,误差模型为 ,其中误差 的均值为0,方差为 ,有q得到qBIC(M),其中因子2被logN代替mAIC倾向于过拟合,而BIC倾向于欠拟合第36页,共39页,编辑于2022年,星期一 MLE3-37BICqAIC不是一致的,而BIC是一致的,也就是说,选择最小BIC的模型等价于选择最大后验概率的模型(在渐近意义下)。事实上模型的后验概率为q不仅可以估计最好的模型,而且可以评估所考虑模型的相关指标。第37页,共39页,编辑于2022年,星期一 MLE3-38最小描述长度MDLq最小描述长度MDL(minimum description length)采用与BIC完全相同的选择准则,但它源自数据压缩/最优编码qBIC与MDL都只适用于似然损失。第38页,共39页,编辑于2022年,星期一 MLE3-39下节课内容qVC维与结构风险最小(Chp23)q重采样技术(Chp9)mBoostrapq模型组合(Chp23)mBaggingmBoosting第39页,共39页,编辑于2022年,星期一

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁