第6章-贝叶斯学习与EM算法课件.ppt

上传人:飞****2 文档编号:70675593 上传时间:2023-01-24 格式:PPT 页数:127 大小:1.95MB
返回 下载 相关 举报
第6章-贝叶斯学习与EM算法课件.ppt_第1页
第1页 / 共127页
第6章-贝叶斯学习与EM算法课件.ppt_第2页
第2页 / 共127页
点击查看更多>>
资源描述

《第6章-贝叶斯学习与EM算法课件.ppt》由会员分享,可在线阅读,更多相关《第6章-贝叶斯学习与EM算法课件.ppt(127页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、Date:24.01.2023File:ML6.1Machine LearningPeng Kaixiang 2014.All rights reserved.Machine Learning for Control Engineering第第6章章贝叶斯学习与贝叶斯学习与EM算法算法(Bayesian Learning and EM Algorithm)Date:24.01.2023File:ML6.2Machine LearningPeng Kaixiang 2014.All rights reserved.Machine Learning for Control Engineering概

2、述概述贝叶斯推理提供了一种贝叶斯推理提供了一种概率概率手段,基于如下的手段,基于如下的假定:假定:待考察的量遵循某概率分布,且可根据待考察的量遵循某概率分布,且可根据这些概率及已观察到的数据进行推理,以作出这些概率及已观察到的数据进行推理,以作出最优的决策最优的决策。贝叶斯推理为贝叶斯推理为衡量多个假设的置信度衡量多个假设的置信度提供了定提供了定量的方法。量的方法。贝叶斯推理为直接操作概率的学习算法提供了贝叶斯推理为直接操作概率的学习算法提供了基础,也基础,也为其它算法的分析提供了理论框架。为其它算法的分析提供了理论框架。Date:24.01.2023File:ML6.3Machine Lea

3、rningPeng Kaixiang 2014.All rights reserved.Machine Learning for Control Engineering简介简介贝叶斯学习算法与机器学习相关的两个原因:贝叶斯学习算法与机器学习相关的两个原因:贝叶斯学习算法能够计算贝叶斯学习算法能够计算显示的假设概率显示的假设概率显示的假设概率显示的假设概率,比如朴素贝,比如朴素贝叶斯分类器;叶斯分类器;贝叶斯方法为贝叶斯方法为理解多数学习算法理解多数学习算法理解多数学习算法理解多数学习算法提供了一种有效的手段,提供了一种有效的手段,而这些算法不一定直接操纵概率数据,比如:而这些算法不一定直接操纵

4、概率数据,比如:Find-S候选消除算法候选消除算法神经网络学习:神经网络学习:选择使误差平方和最小化的神经网络选择使误差平方和最小化的神经网络选择使误差平方和最小化的神经网络选择使误差平方和最小化的神经网络推导出另一种误差函数:推导出另一种误差函数:交叉熵交叉熵交叉熵交叉熵可分析决策树的归纳偏置可分析决策树的归纳偏置可考察最小描述长度原则可考察最小描述长度原则Date:24.01.2023File:ML6.4Machine LearningPeng Kaixiang 2014.All rights reserved.Machine Learning for Control Engineeri

5、ng贝叶斯学习方法的特性贝叶斯学习方法的特性观察到的每个训练样例可以观察到的每个训练样例可以增量地增量地增量地增量地降低降低降低降低或或或或升高升高升高升高某假某假某假某假设的估计概率设的估计概率设的估计概率设的估计概率。而。而其它算法会在某个假设与任一样其它算法会在某个假设与任一样其它算法会在某个假设与任一样其它算法会在某个假设与任一样例不一致时完全去掉该假设例不一致时完全去掉该假设例不一致时完全去掉该假设例不一致时完全去掉该假设;(最大优点);(最大优点)先验知识先验知识先验知识先验知识可以与可以与可以与可以与观察数据观察数据观察数据观察数据一起决定假设的最终概率一起决定假设的最终概率一起

6、决定假设的最终概率一起决定假设的最终概率,先验知识的形式是:先验知识的形式是:1)每个候选假设的先验概率;)每个候选假设的先验概率;2)每个可能假设在可观察数据上的概率分布;)每个可能假设在可观察数据上的概率分布;贝叶斯方法可允许假设做出贝叶斯方法可允许假设做出不确定性的预测不确定性的预测不确定性的预测不确定性的预测;新的实例分类可由多个假设一起做出预测,新的实例分类可由多个假设一起做出预测,用它们用它们用它们用它们的概率来加权的概率来加权的概率来加权的概率来加权;即使在贝叶斯方法计算复杂度较高时,它们仍可作即使在贝叶斯方法计算复杂度较高时,它们仍可作为一个最优的决策标准衡量其它方法;为一个最

7、优的决策标准衡量其它方法;Date:24.01.2023File:ML6.5Machine LearningPeng Kaixiang 2014.All rights reserved.Machine Learning for Control Engineering贝叶斯方法的难度贝叶斯方法的难度难度之一:难度之一:需要概率的初始知识需要概率的初始知识,当概率预,当概率预先未知时,可以基于背景知识、预先准备好先未知时,可以基于背景知识、预先准备好的数据以及基准分布的假定来估计这些概率;的数据以及基准分布的假定来估计这些概率;难度之二:一般情况下,难度之二:一般情况下,确定贝叶斯最优假确定贝叶斯

8、最优假设的计算代价比较大设的计算代价比较大(在某些特定情形下,(在某些特定情形下,这种计算代价可以大大降低)。这种计算代价可以大大降低)。Date:24.01.2023File:ML6.6Machine LearningPeng Kaixiang 2014.All rights reserved.Machine Learning for Control Engineering内容安排内容安排介绍贝叶斯理论;介绍贝叶斯理论;定义定义极大似然假设(极大似然假设(极大似然假设(极大似然假设(MLML)和和极大后验概率假设极大后验概率假设极大后验概率假设极大后验概率假设(MAPMAP););););将

9、此概率框架应用于将此概率框架应用于分析前面章节的相关问题和学习分析前面章节的相关问题和学习分析前面章节的相关问题和学习分析前面章节的相关问题和学习算法算法算法算法;介绍几种直接操作概率的学习算法;介绍几种直接操作概率的学习算法;贝叶斯最优分类器贝叶斯最优分类器Gibbs算法算法朴素贝叶斯分类器朴素贝叶斯分类器讨论讨论EMEM算法算法算法算法,一类参数估计的方法。,一类参数估计的方法。Date:24.01.2023File:ML6.7Machine LearningPeng Kaixiang 2014.All rights reserved.Machine Learning for Contro

10、l Engineering统计推断中可用的三种信息统计推断中可用的三种信息 美籍波兰统计学家耐曼美籍波兰统计学家耐曼(E.L.Lehmann1894(E.L.Lehmann18941981)1981)高度概括了在统计推断中可用的三种信息:高度概括了在统计推断中可用的三种信息:1 1总体信息总体信息总体信息总体信息,即总体分布或所属分布族给我们的信息。,即总体分布或所属分布族给我们的信息。譬如譬如“总体视察指数分布总体视察指数分布”或或“总体是正态分布总体是正态分布”在在统计推断中都发挥重要作用,只要有总体信息,就要统计推断中都发挥重要作用,只要有总体信息,就要想方设法在统计推断中使用想方设法在

11、统计推断中使用2 2样本信息样本信息样本信息样本信息,即样本提供我们的信息,这是任一种统,即样本提供我们的信息,这是任一种统计推断中都需要计推断中都需要Date:24.01.2023File:ML6.8Machine LearningPeng Kaixiang 2014.All rights reserved.Machine Learning for Control Engineering3 3先先先先验验验验信信信信息息息息,即即在在抽抽样样之之前前有有关关统统计计推推断断的的一一些些信信息。息。譬譬如如,在在估估计计某某产产品品的的不不合合格格率率时时,假假如如工工厂厂保保存存了了过过去去

12、抽抽检检这这种种产产品品质质量量的的资资料料,这这些些资资料料(包包括括历历史史数数据据)有有时时估估计计该该产产品品的的不不合合格格率率是是有有好好处处的的。这些资料所提供的信息就是一种先验信息。这些资料所提供的信息就是一种先验信息。又又如如某某工工程程师师根根据据自自己己多多年年积积累累的的经经验验对对正正在在设设计计的的某某种种彩彩电电的的平平均均寿寿命命所所提提供供的的估估计计也也是是一一种种先先验验信息。信息。由由于于这这种种信信息息是是在在“试试验验之之前前”就就已已有有的的,故故称称为为先验信息先验信息先验信息先验信息。Date:24.01.2023File:ML6.9Machi

13、ne LearningPeng Kaixiang 2014.All rights reserved.Machine Learning for Control Engineering假设假设假设假设 随机变量随机变量X X有一个密度函数有一个密度函数p p(x x;),其中),其中是一个参数,不同的是一个参数,不同的对应不同的密度函数,故从贝对应不同的密度函数,故从贝叶斯观点看,叶斯观点看,p p(x x;)是在给定后)是在给定后是个条件密度是个条件密度函数,因此记为函数,因此记为p p(xx)更恰当一些。这个条件密)更恰当一些。这个条件密度能提供我们的有关的度能提供我们的有关的信息就是信息就是

14、总体信息总体信息总体信息总体信息。假设假设假设假设 当给定当给定后,从总体后,从总体p p(xx)中随机抽取一个)中随机抽取一个样本样本 ,该样本中含有该样本中含有的有关信息。这种信息的有关信息。这种信息就是就是样本信息样本信息样本信息样本信息。贝叶斯公式的密度函数形式贝叶斯公式的密度函数形式Date:24.01.2023File:ML6.10Machine LearningPeng Kaixiang 2014.All rights reserved.Machine Learning for Control Engineering假设假设假设假设 对参数对参数已经积累了很多资料,经过分析、整理

15、已经积累了很多资料,经过分析、整理和加工,可以获得一些有关和加工,可以获得一些有关的有用信息,这种信息就是的有用信息,这种信息就是先验信息先验信息先验信息先验信息。参数。参数不是永远固定在一个值上,而是一个事不是永远固定在一个值上,而是一个事先不能确定的量。从贝叶斯观点来看,未知参数先不能确定的量。从贝叶斯观点来看,未知参数是一个是一个随机变量。而描述这个随机变量的分布可从先验信息中归随机变量。而描述这个随机变量的分布可从先验信息中归纳出来,这个分布称为纳出来,这个分布称为先验分布先验分布先验分布先验分布,其密度函数用,其密度函数用()表示。表示。Date:24.01.2023File:ML6

16、.11Machine LearningPeng Kaixiang 2014.All rights reserved.Machine Learning for Control Engineering前面的分析总结如下前面的分析总结如下前面的分析总结如下前面的分析总结如下:人们根据先验信息对参数:人们根据先验信息对参数已有一个认识,这个认识就是已有一个认识,这个认识就是先验分布先验分布先验分布先验分布()。通过试验,获得样本。从而对通过试验,获得样本。从而对的先验分布进行调的先验分布进行调整,调整的方法就是使用上面的贝叶斯公式,整,调整的方法就是使用上面的贝叶斯公式,调整调整调整调整的结果就是后验

17、分布的结果就是后验分布的结果就是后验分布的结果就是后验分布 。后验分布是三。后验分布是三种信息的综合。获得后验分布使人们对种信息的综合。获得后验分布使人们对的认识又的认识又前进一步,可看出,获得样本的的效果是把我们对前进一步,可看出,获得样本的的效果是把我们对的认识由的认识由()调整到)调整到 。所以对。所以对的统计推断就应建立在后验分布的统计推断就应建立在后验分布 的基的基础上。础上。Date:24.01.2023File:ML6.12Machine LearningPeng Kaixiang 2014.All rights reserved.Machine Learning for Con

18、trol Engineering贝叶斯法则贝叶斯法则机器学习的任务:在给定训练数据机器学习的任务:在给定训练数据D时,确时,确定假设空间定假设空间H中的最佳假设。中的最佳假设。最佳假设:一种方法是把它定义为在给定数最佳假设:一种方法是把它定义为在给定数据据D以及以及H中不同假设的先验概率的有关知中不同假设的先验概率的有关知识下的识下的最可能假设最可能假设。贝叶斯理论提供了贝叶斯理论提供了一种计算假设概率的方法一种计算假设概率的方法,基于假设的先验概率、给定假设下观察到不基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身。同数据的概率以及观察到的数据本身。Date:24.01

19、.2023File:ML6.13Machine LearningPeng Kaixiang 2014.All rights reserved.Machine Learning for Control Engineering先验概率和后验概率先验概率和后验概率用用P(h)表示在没有训练数据前假设表示在没有训练数据前假设h拥有的初始概拥有的初始概率。率。P(h)被称为被称为h的的先验概率先验概率先验概率先验概率;先验概率反映了关于先验概率反映了关于h是一正确假设的机会的背景是一正确假设的机会的背景知识;知识;如果如果没有没有没有没有这一先验知识,可以简单地将每一候选假这一先验知识,可以简单地将每一

20、候选假设赋予设赋予相同的先验概率相同的先验概率相同的先验概率相同的先验概率;类似地,类似地,P(D)表示训练数据表示训练数据D的先验概率,的先验概率,P(D|h)表示假设表示假设h成立时成立时D的概率;的概率;机器学习中,我们关心的是机器学习中,我们关心的是P(h|D),即,即给定给定给定给定D D时时时时h h的成立的概率的成立的概率的成立的概率的成立的概率,称为,称为h h的后验概率的后验概率的后验概率的后验概率。Date:24.01.2023File:ML6.14Machine LearningPeng Kaixiang 2014.All rights reserved.Machine

21、Learning for Control Engineering贝叶斯公式贝叶斯公式贝叶斯公式提供了从先验概率贝叶斯公式提供了从先验概率P(h)、P(D)和和P(D|h)计算后验概率计算后验概率P(h|D)的方法;的方法;(6.1)P(h|D)随着随着P(h)和和P(D|h)的增长而增长,随的增长而增长,随着着P(D)的增长而减少,即的增长而减少,即如果如果D独立于独立于h时时被观察到的可能性越大,那么被观察到的可能性越大,那么D对对h的支持的支持度越小度越小。Date:24.01.2023File:ML6.15Machine LearningPeng Kaixiang 2014.All ri

22、ghts reserved.Machine Learning for Control Engineering极大后验假设极大后验假设学习器在候选假设集合学习器在候选假设集合H中寻找给定数据中寻找给定数据D时可能性最大的假设时可能性最大的假设h,h被称为被称为极大后验假极大后验假设设(MAP););确定确定MAP的方法是用贝叶斯公式计算每个候的方法是用贝叶斯公式计算每个候选假设的后验概率,计算式如下:选假设的后验概率,计算式如下:(6.2)最后一步,去掉了最后一步,去掉了P(D),因为它是不依赖于,因为它是不依赖于h的常量。的常量。Date:24.01.2023File:ML6.16Machin

23、e LearningPeng Kaixiang 2014.All rights reserved.Machine Learning for Control Engineering极大似然假设极大似然假设在某些情况下,在某些情况下,可假定可假定H中每个假设有相同中每个假设有相同的先验概率的先验概率,这样式子,这样式子6.2可以进一步简化,可以进一步简化,只需考虑只需考虑P(D|h)来寻找极大可能假设。来寻找极大可能假设。P(D|h)常被称为常被称为给定给定h时数据时数据D的似然度的似然度,而,而使使P(D|h)最大的假设被称为最大的假设被称为极大似然假设极大似然假设:假设空间假设空间H可扩展为任

24、意的互斥命题集合,可扩展为任意的互斥命题集合,只要这些命题的概率之和为只要这些命题的概率之和为1。Date:24.01.2023File:ML6.17Machine LearningPeng Kaixiang 2014.All rights reserved.Machine Learning for Control Engineering举例:一个医疗诊断问题举例:一个医疗诊断问题有两个可选的假设:病人有癌症、病人无癌症有两个可选的假设:病人有癌症、病人无癌症可用数据来自化验结果:正可用数据来自化验结果:正+和负和负-有先验知识:在所有人口中,患病率是有先验知识:在所有人口中,患病率是0.00

25、8对确实有病的患者的化验准确率为对确实有病的患者的化验准确率为98%,对确实无,对确实无病的患者的化验准确率为病的患者的化验准确率为97%总结如下总结如下P(cancer)=0.008,P(cancer)=0.992P(+|cancer)=0.98,P(-|cancer)=0.02P(+|cancer)=0.03,P(-|cancer)=0.97Date:24.01.2023File:ML6.18Machine LearningPeng Kaixiang 2014.All rights reserved.Machine Learning for Control Engineering举例:一个

26、医疗诊断问题(举例:一个医疗诊断问题(2)问题:假定有一个新病人,化验结果为正,是否应将病人问题:假定有一个新病人,化验结果为正,是否应将病人断定为有癌症?求后验概率断定为有癌症?求后验概率P(cancer|+)和和P(cancer|+)利用式子利用式子6.2找到极大后验假设找到极大后验假设P(+|cancer)P(cancer)=0.0078P(+|cancer)P(cancer)=0.0298hMAP=cancer确切的后验概率可将上面的结果归一化以使它们的和为确切的后验概率可将上面的结果归一化以使它们的和为1P(canner|+)=0.0078/(0.0078+0.0298)=0.21P

27、(cancer|+)=0.79贝叶斯推理的结果很大程度上依赖于先验概率,另外贝叶斯推理的结果很大程度上依赖于先验概率,另外不是不是不是不是完全接受或拒绝假设,只是在观察到较多的数据后增大或完全接受或拒绝假设,只是在观察到较多的数据后增大或完全接受或拒绝假设,只是在观察到较多的数据后增大或完全接受或拒绝假设,只是在观察到较多的数据后增大或减小了假设的可能性减小了假设的可能性减小了假设的可能性减小了假设的可能性Date:24.01.2023File:ML6.19Machine LearningPeng Kaixiang 2014.All rights reserved.Machine Learni

28、ng for Control Engineering基本概率公式表基本概率公式表乘法规则:乘法规则:P(A B)=P(A|B)P(B)=P(B|A)P(A)加法规则:加法规则:P(A B)=P(A)+P(B)-P(A B)贝叶斯法则:贝叶斯法则:P(h|D)=P(D|h)P(h)/P(D)全概率法则:如果事件全概率法则:如果事件A1.An互斥,且满足互斥,且满足,则则Date:24.01.2023File:ML6.20Machine LearningPeng Kaixiang 2014.All rights reserved.Machine Learning for Control Engin

29、eering贝叶斯法则和概念学习贝叶斯法则和概念学习贝叶斯法则为计算贝叶斯法则为计算给定训练数据下任一假设的后验给定训练数据下任一假设的后验给定训练数据下任一假设的后验给定训练数据下任一假设的后验概率概率概率概率提供了原则性方法,因此可以直接将其作为一提供了原则性方法,因此可以直接将其作为一个基本的学习方法:个基本的学习方法:计算每个假设的概率,再输出计算每个假设的概率,再输出计算每个假设的概率,再输出计算每个假设的概率,再输出其中概率最大的其中概率最大的其中概率最大的其中概率最大的。这个方法称为。这个方法称为Brute-Force贝叶斯贝叶斯概念学习算法。概念学习算法。将上面方法与第将上面方

30、法与第2章介绍的概念学习算法比较,可章介绍的概念学习算法比较,可以看到:在特定条件下,它们学习得到相同的假设,以看到:在特定条件下,它们学习得到相同的假设,不同的是第不同的是第2章的方法不明确计算概率,而且效率章的方法不明确计算概率,而且效率更高。更高。Date:24.01.2023File:ML6.21Machine LearningPeng Kaixiang 2014.All rights reserved.Machine Learning for Control EngineeringBrute-Force贝叶斯概念学习贝叶斯概念学习概念学习问题:有限假设空间概念学习问题:有限假设空间H

31、定义在实例定义在实例空间空间X上,任务是学习某个目标概念上,任务是学习某个目标概念c。Brute-ForceMAP学习算法学习算法对于对于H中每个假设中每个假设h,计算后验概率,计算后验概率输出有最高后验概率的假设输出有最高后验概率的假设上面算法需要较大计算量,因为它要计算每上面算法需要较大计算量,因为它要计算每个假设的后验概率,对于大的假设空间显得个假设的后验概率,对于大的假设空间显得不切实际,但是不切实际,但是它提供了一个标准以判断其它提供了一个标准以判断其它概念学习算法的性能它概念学习算法的性能Date:24.01.2023File:ML6.22Machine LearningPeng

32、Kaixiang 2014.All rights reserved.Machine Learning for Control Engineering特定情况下的特定情况下的MAP假设假设假定假定训练数据训练数据D是无噪声的,即是无噪声的,即di=c(xi)目标概念目标概念c包含在假设空间包含在假设空间H中中每个假设的先验概率相同每个假设的先验概率相同求得求得由于所有假设的概率之和是由于所有假设的概率之和是1,因此,因此由于训练数据无噪声,那么给定假设由于训练数据无噪声,那么给定假设由于训练数据无噪声,那么给定假设由于训练数据无噪声,那么给定假设h h时,与时,与时,与时,与h h一致的一致的一

33、致的一致的D D的概率为的概率为的概率为的概率为1 1,不一致的概率为,不一致的概率为,不一致的概率为,不一致的概率为0 0,因此,因此Date:24.01.2023File:ML6.23Machine LearningPeng Kaixiang 2014.All rights reserved.Machine Learning for Control Engineering特定情况下的特定情况下的MAP假设(假设(2)考虑考虑Brute-ForceMAP算法的第一步算法的第一步h与与D不一致,不一致,h与与D一致,一致,VSH,D是关于是关于D的变型空间(见第的变型空间(见第2章,即与章,即

34、与D一一致的假设集)致的假设集)Date:24.01.2023File:ML6.24Machine LearningPeng Kaixiang 2014.All rights reserved.Machine Learning for Control Engineering特定情况下的特定情况下的MAP假设(假设(3)P(D)的推导的推导P(D)图图6-1假设的概率演化情况如图假设的概率演化情况如图6-1所示,初始时所有假设所示,初始时所有假设具有相同的概率,当训练数据逐步出现后,不一致具有相同的概率,当训练数据逐步出现后,不一致假设的概率变为假设的概率变为0,而整个概率的和为,而整个概率的和

35、为1,它们均匀,它们均匀分布到剩余的一致假设中分布到剩余的一致假设中每个与每个与D一致的假设都是一致的假设都是MAP假设假设hP(h|D1,D2)P(h)P(h|D1)hhDate:24.01.2023File:ML6.25Machine LearningPeng Kaixiang 2014.All rights reserved.Machine Learning for Control EngineeringMAP假设和一致学习器假设和一致学习器一致学习器一致学习器一致学习器一致学习器:如果某个学习器输出的假设在训练样:如果某个学习器输出的假设在训练样例上为例上为0错误率,则称为一致学习器;

36、错误率,则称为一致学习器;如果如果H上有均匀的先验概率,且训练数据是确定性上有均匀的先验概率,且训练数据是确定性和无噪声的,和无噪声的,任意一致学习器将输出一个任意一致学习器将输出一个任意一致学习器将输出一个任意一致学习器将输出一个MAPMAP假假假假设设设设;Find-S算法按照特殊到一般的顺序搜索假设空间算法按照特殊到一般的顺序搜索假设空间H,并输出一个极大特殊的一致假设,因此可知在上,并输出一个极大特殊的一致假设,因此可知在上面定义的面定义的P(h)和和P(D|h)概率分布下,它概率分布下,它输出输出输出输出MAPMAP假假假假设设设设;更一般地,对于先验概率偏袒于更特殊假设的任何更一般

37、地,对于先验概率偏袒于更特殊假设的任何概率分布,概率分布,Find-S输出的假设都是输出的假设都是MAP假设。假设。Date:24.01.2023File:ML6.26Machine LearningPeng Kaixiang 2014.All rights reserved.Machine Learning for Control EngineeringMAP假设和一致学习器(假设和一致学习器(2)贝叶斯框架提出了一种刻画学习算法行为的方法,贝叶斯框架提出了一种刻画学习算法行为的方法,即便该学习算法不进行概率操作,通过确定算法输即便该学习算法不进行概率操作,通过确定算法输出最优假设时使用的概

38、率分布出最优假设时使用的概率分布P(h)和和P(D|h),可以,可以刻画出算法具有最优行为时的隐含假定刻画出算法具有最优行为时的隐含假定刻画出算法具有最优行为时的隐含假定刻画出算法具有最优行为时的隐含假定;使用贝叶斯方法刻画学习算法,与揭示学习器中的使用贝叶斯方法刻画学习算法,与揭示学习器中的归纳偏置在思想上是类似的;归纳偏置在思想上是类似的;在第在第2章,将学习算法的归纳偏置定义为断言集合章,将学习算法的归纳偏置定义为断言集合B,通过它可充分地演绎推断出学习器所执行的归纳,通过它可充分地演绎推断出学习器所执行的归纳推理结果,即推理结果,即学习器的输出是由其输入和隐含的归学习器的输出是由其输入

39、和隐含的归学习器的输出是由其输入和隐含的归学习器的输出是由其输入和隐含的归纳偏置所演绎得出的。纳偏置所演绎得出的。纳偏置所演绎得出的。纳偏置所演绎得出的。Date:24.01.2023File:ML6.27Machine LearningPeng Kaixiang 2014.All rights reserved.Machine Learning for Control EngineeringMAP假设和一致学习器(假设和一致学习器(3)贝叶斯解释对于贝叶斯解释对于描述学习算法中的隐含假定描述学习算法中的隐含假定提供了另一种方法提供了另一种方法,用基于贝叶斯理论的一,用基于贝叶斯理论的一个等效

40、的概率推理系统来建模;个等效的概率推理系统来建模;贝叶斯解释隐含的假定形式为:贝叶斯解释隐含的假定形式为:H上的先验上的先验概率由概率由P(h)分布给出,数据拒绝或接受假设分布给出,数据拒绝或接受假设的强度由的强度由P(D|h)给出给出;在已知这些假定的概率分布后,一个基于贝在已知这些假定的概率分布后,一个基于贝叶斯理论的概率推理系统将产生等效于叶斯理论的概率推理系统将产生等效于Find-S、候选消除等算法的输入、候选消除等算法的输入-输出行为;输出行为;Date:24.01.2023File:ML6.28Machine LearningPeng Kaixiang 2014.All right

41、s reserved.Machine Learning for Control Engineering极大似然和最小误差平方假设(极大似然和最小误差平方假设(1)前面分析表明:某些学习算法即使没有显示地使用前面分析表明:某些学习算法即使没有显示地使用贝叶斯规则,或以某种形式计算概率,贝叶斯规则,或以某种形式计算概率,但它们输出但它们输出但它们输出但它们输出的结果符合贝叶斯原理,是一个的结果符合贝叶斯原理,是一个的结果符合贝叶斯原理,是一个的结果符合贝叶斯原理,是一个MAPMAP假设假设假设假设;通过简单的贝叶斯分析,可以表明在特定前提下,通过简单的贝叶斯分析,可以表明在特定前提下,任一学习算法

42、如果使输出的假设预测和训练数据之任一学习算法如果使输出的假设预测和训练数据之间的间的误差平方和最小化误差平方和最小化误差平方和最小化误差平方和最小化,它将输出一极大似然假设,它将输出一极大似然假设,它将输出一极大似然假设,它将输出一极大似然假设;上面结论的意义是,对于许多神经网络和曲线拟合上面结论的意义是,对于许多神经网络和曲线拟合的方法,如果它们试图在训练数据上使误差平方和的方法,如果它们试图在训练数据上使误差平方和最小化,此结论最小化,此结论提供了基于贝叶斯的理论依据提供了基于贝叶斯的理论依据提供了基于贝叶斯的理论依据提供了基于贝叶斯的理论依据。Date:24.01.2023File:ML

43、6.29Machine LearningPeng Kaixiang 2014.All rights reserved.Machine Learning for Control Engineering极大似然和最小误差平方假设(极大似然和最小误差平方假设(2)问题框架:问题框架:学习器学习器L工作在实例空间工作在实例空间X和假设空间和假设空间H上,上,H中的假设中的假设为为X上定义的上定义的某种实数值函数某种实数值函数某种实数值函数某种实数值函数;L面临的问题是面临的问题是学习一个从学习一个从学习一个从学习一个从HH中抽取出的未知目标函数中抽取出的未知目标函数中抽取出的未知目标函数中抽取出的未知

44、目标函数f f,给定,给定m个训练样例的集合,每个样例的目标值被某随个训练样例的集合,每个样例的目标值被某随机噪声干扰,此机噪声干扰,此随机噪声服从正态分布随机噪声服从正态分布随机噪声服从正态分布随机噪声服从正态分布;更精确地讲,每个训练样例是序偶更精确地讲,每个训练样例是序偶,di=f(xi)+ei,ei是代表噪声的随机变量,假定是代表噪声的随机变量,假定ei的值是独立抽取的,并的值是独立抽取的,并且它们的分布服从且它们的分布服从0均值的正态分布;均值的正态分布;学习器的任务是在所有假设有相等的先验概率前提下,学习器的任务是在所有假设有相等的先验概率前提下,输出输出极大似然假设极大似然假设极

45、大似然假设极大似然假设(即(即ML假设);假设);Date:24.01.2023File:ML6.30Machine LearningPeng Kaixiang 2014.All rights reserved.Machine Learning for Control Engineering极大似然和最小误差平方假设(极大似然和最小误差平方假设(3)用一个简单情况,即用一个简单情况,即线性函数来说明线性函数来说明线性函数来说明线性函数来说明问题问题问题问题。如图所示,实线表示线性目标。如图所示,实线表示线性目标函数函数f,实点表示有噪声的训练样例,实点表示有噪声的训练样例集,虚线对应有最小平方

46、训练误差的集,虚线对应有最小平方训练误差的假设假设hML,即,即极大似然假设极大似然假设极大似然假设极大似然假设。对于对于e这样的连续变量上的概率,使这样的连续变量上的概率,使用用概率密度概率密度概率密度概率密度表示概率分布,它在所有表示概率分布,它在所有值上的积分为值上的积分为1,用小写的,用小写的p表示。有表示。有限概率限概率P有时又称为有时又称为概率质量概率质量概率质量概率质量;概率密度函数:概率密度函数:Date:24.01.2023File:ML6.31Machine LearningPeng Kaixiang 2014.All rights reserved.Machine Lea

47、rning for Control Engineering极大似然和最小误差平方假设(极大似然和最小误差平方假设(4)假定有一固定的训练实例集合,因此只考虑相应的假定有一固定的训练实例集合,因此只考虑相应的目标值序列目标值序列D=,这里,这里di=f(xi)+ei。假定训练样例是假定训练样例是相互独立的相互独立的相互独立的相互独立的,给定,给定h时,可将时,可将P(D|h)写成各写成各p(di|h)的积的积如果误差如果误差ei服从服从0均值和未知方差均值和未知方差 2的正态分的正态分布,那么每个布,那么每个di服从均值为服从均值为f(xi),方差不变的,方差不变的正态分布。因此,正态分布。因此

48、,p(di|h)可写为方差可写为方差 2、均值、均值f(xi)的正态分布的正态分布;使用第使用第5章中的章中的正态分布公式正态分布公式并将相应的参数并将相应的参数代入,由于概率代入,由于概率di的表达式是在的表达式是在h为目标函数为目标函数f的正确描述条件下的,所以替换的正确描述条件下的,所以替换=f(xi)=h(xi)Date:24.01.2023File:ML6.32Machine LearningPeng Kaixiang 2014.All rights reserved.Machine Learning for Control Engineering极大似然和最小误差平方假设(极大似然

49、和最小误差平方假设(5)hML上式说明了上式说明了极大似然假设等价于使训练值和假设预极大似然假设等价于使训练值和假设预极大似然假设等价于使训练值和假设预极大似然假设等价于使训练值和假设预测值之间的误差的平方和最小的那个假设测值之间的误差的平方和最小的那个假设测值之间的误差的平方和最小的那个假设测值之间的误差的平方和最小的那个假设;这个结论的这个结论的前提前提前提前提是:训练值等于真实目标值加上随是:训练值等于真实目标值加上随机噪声,其中随机噪声从一个均值为机噪声,其中随机噪声从一个均值为0的正态分布的正态分布中独立抽取。中独立抽取。Date:24.01.2023File:ML6.33Machi

50、ne LearningPeng Kaixiang 2014.All rights reserved.Machine Learning for Control Engineering采用正态分布的合理性采用正态分布的合理性数学计算的简洁性;数学计算的简洁性;对许多物理系统的噪声都有良好的近似;对许多物理系统的噪声都有良好的近似;第第5章中心极限定理显示,章中心极限定理显示,足够多的独立同分布随足够多的独立同分布随足够多的独立同分布随足够多的独立同分布随机变量的和服从正态分布机变量的和服从正态分布机变量的和服从正态分布机变量的和服从正态分布;由许多独立同分布的因素的和所生成的噪声将成为由许多独立同

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁