多元统计:第八章-判别分析课件.ppt

上传人:飞****2 文档编号:92228509 上传时间:2023-06-01 格式:PPT 页数:91 大小:2.67MB
返回 下载 相关 举报
多元统计:第八章-判别分析课件.ppt_第1页
第1页 / 共91页
多元统计:第八章-判别分析课件.ppt_第2页
第2页 / 共91页
点击查看更多>>
资源描述

《多元统计:第八章-判别分析课件.ppt》由会员分享,可在线阅读,更多相关《多元统计:第八章-判别分析课件.ppt(91页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、判别分析判别分析Discriminant Analysis判别分析的相关例子(判别分析的相关例子(1)在经济中的应用:中小企业的破产模型在经济中的应用:中小企业的破产模型为了研究中小企业的破产模型,选定为了研究中小企业的破产模型,选定4个经济指标:个经济指标:nX1总负债率(现金收益总负债率(现金收益/总负债)总负债)nX2收益性指标(纯收入收益性指标(纯收入/总财产)总财产)nX3短期支付能力(流动资产短期支付能力(流动资产/流动负债)流动负债)nX4生产效率性指标(流动资产生产效率性指标(流动资产/纯销售额)纯销售额)对对17个破产企业(个破产企业(1类)和类)和21个正常运行企业(个正常

2、运行企业(2类)类)进行了调查,得到关于上述四个指标的资料进行了调查,得到关于上述四个指标的资料 现有现有8个未知类型的企业的四个经济指标的数据,判个未知类型的企业的四个经济指标的数据,判断其属于破产企业一类还是正常运行企业一类?断其属于破产企业一类还是正常运行企业一类?判别分析的相关例子(判别分析的相关例子(2)在天气预报中的应用在天气预报中的应用根据经验,下列两个因素是预报明天下雨与根据经验,下列两个因素是预报明天下雨与不下雨的重要因素:不下雨的重要因素:n n今天与昨天的今天与昨天的今天与昨天的今天与昨天的湿度差湿度差湿度差湿度差 x x1 1n n今天的今天的今天的今天的压温差压温差压

3、温差压温差(气压与温度之差)(气压与温度之差)(气压与温度之差)(气压与温度之差)x x2 2今测得今测得x1 1 与与x2 2,应预报明天下雨还是不下雨,应预报明天下雨还是不下雨?判别分析的其他例子判别分析的其他例子预测新产品的成功或失败预测新产品的成功或失败判断一个人是否患有某种疾病判断一个人是否患有某种疾病按职业兴趣对学生分组按职业兴趣对学生分组确定某人信用风险的种类确定某人信用风险的种类前前 言言判别分析是一种进行统计判别和分组的技术手段。判别分析是一种进行统计判别和分组的技术手段。判别分析是一种进行统计判别和分组的技术手段。判别分析是一种进行统计判别和分组的技术手段。判别分析与聚类分

4、析的不同之处在于判别分析带有判别分析与聚类分析的不同之处在于判别分析带有判别分析与聚类分析的不同之处在于判别分析带有判别分析与聚类分析的不同之处在于判别分析带有“预测预测预测预测”意义。意义。意义。意义。判别分析的目的判别分析的目的判别分析的目的判别分析的目的就是从现有已知类别的样本数据中就是从现有已知类别的样本数据中就是从现有已知类别的样本数据中就是从现有已知类别的样本数据中训练出一个训练出一个训练出一个训练出一个判别函数判别函数判别函数判别函数,以后再有未知类别的数据进,以后再有未知类别的数据进,以后再有未知类别的数据进,以后再有未知类别的数据进入,就入,就入,就入,就利用建立的函数来判断

5、其类别(判别规则)利用建立的函数来判断其类别(判别规则)利用建立的函数来判断其类别(判别规则)利用建立的函数来判断其类别(判别规则)。各类判别问题的前提有所不同,进行划分或寻找各类判别问题的前提有所不同,进行划分或寻找各类判别问题的前提有所不同,进行划分或寻找各类判别问题的前提有所不同,进行划分或寻找判判判判别函数的准则别函数的准则别函数的准则别函数的准则也可以不同,判别分析的方法有:也可以不同,判别分析的方法有:也可以不同,判别分析的方法有:也可以不同,判别分析的方法有:距距距距离判别,费歇判别,贝叶斯判别离判别,费歇判别,贝叶斯判别离判别,费歇判别,贝叶斯判别离判别,费歇判别,贝叶斯判别等

6、。等。等。等。判别分析与聚类分析的联系与区别判别分析与聚类分析的联系与区别都要求对样本进行分类,但分析的内容和要求不都要求对样本进行分类,但分析的内容和要求不都要求对样本进行分类,但分析的内容和要求不都要求对样本进行分类,但分析的内容和要求不一样一样一样一样n n聚类分析事先并不知道存在什么类别,完全按照反映聚类分析事先并不知道存在什么类别,完全按照反映聚类分析事先并不知道存在什么类别,完全按照反映聚类分析事先并不知道存在什么类别,完全按照反映对象特征的数据把对象进行分类对象特征的数据把对象进行分类对象特征的数据把对象进行分类对象特征的数据把对象进行分类n n判别分析是在事先有了某种判别分析是

7、在事先有了某种判别分析是在事先有了某种判别分析是在事先有了某种分类标准分类标准分类标准分类标准之后,判定一个之后,判定一个之后,判定一个之后,判定一个新的研究对象应该归属到哪一类别新的研究对象应该归属到哪一类别新的研究对象应该归属到哪一类别新的研究对象应该归属到哪一类别 某些思想和方法相同某些思想和方法相同某些思想和方法相同某些思想和方法相同 两者往往结合起来使用两者往往结合起来使用两者往往结合起来使用两者往往结合起来使用n n当分类不清楚时,可以先用聚类分析对原有样品进行当分类不清楚时,可以先用聚类分析对原有样品进行当分类不清楚时,可以先用聚类分析对原有样品进行当分类不清楚时,可以先用聚类分

8、析对原有样品进行分类,然后再用判别分析建立判别函数以对新样品进分类,然后再用判别分析建立判别函数以对新样品进分类,然后再用判别分析建立判别函数以对新样品进分类,然后再用判别分析建立判别函数以对新样品进行归类行归类行归类行归类例例8.18.1根据经验,今天与昨天的根据经验,今天与昨天的湿度差湿度差x1及今及今天的天的压温差压温差(气压与温度之差)(气压与温度之差)x2是预报是预报明天下雨或不下雨的两个重要因素。明天下雨或不下雨的两个重要因素。今测得今测得x1=8.1,x2=2.0,试问应预报明天,试问应预报明天下雨还是预报明天不下雨?下雨还是预报明天不下雨?例例8.1X120100-10-20X

9、220100-10-20新样本点新样本点U(xU(x1 1,x,x2 2)D2-D2-D2-D2-非雨区非雨区非雨区非雨区D1-D1-D1-D1-雨区雨区雨区雨区这是一个最简单的判别分析问题这是一个最简单的判别分析问题由由判别因子判别因子x1 1和和x2 2:1.1.1.1.将二维样本空间划分成两个互不相交的将二维样本空间划分成两个互不相交的区域区域D1 1和和D2 2,根据新样品判别因子的观,根据新样品判别因子的观察值,若它落在区域察值,若它落在区域Di,就判该样品属,就判该样品属于于i类类2.2.2.2.构造一个构造一个判别函数判别函数u(x1 1,x2 2),然后根据,然后根据新样品的函

10、数值判断其属于哪一类新样品的函数值判断其属于哪一类数学模型(概率论的角度)数学模型(概率论的角度)模型:模型:模型:模型:GG个总体:个总体:个总体:个总体:1 1,2 2,g g,G G 其中其中其中其中 g g 是是是是 p p 维随机变量维随机变量维随机变量维随机变量 对应的分布函数对应的分布函数对应的分布函数对应的分布函数 F Fg g(x x1 1,x x2 2,x xp p)g g=1,2,G=1,2,G(x x1 1,x x2 2,x xp p)是表征总体特性的是表征总体特性的是表征总体特性的是表征总体特性的p p维随机变量的维随机变量的维随机变量的维随机变量的取值,在判别分析中

11、称之为取值,在判别分析中称之为取值,在判别分析中称之为取值,在判别分析中称之为判别因子。判别因子。判别因子。判别因子。现有一个新的样本点现有一个新的样本点 x=(x1,x2,xp)要判断此样本点是属于哪一个总体的?要判断此样本点是属于哪一个总体的?假如能掌握每一个总体假如能掌握每一个总体g的的分布规律分布规律或某些或某些数字特征数字特征,则这类问题的解决是不难的,则这类问题的解决是不难的实际处理方法实际处理方法在每一个总体中在每一个总体中取一个容量为取一个容量为ng的样本的样本 (g=1,2,G),然后然后根据根据已知类别的已知类别的样本样本所提供的所提供的信息信息,判断判断新的样本点属于哪一

12、类新的样本点属于哪一类一般判别分析的模型一般判别分析的模型需要判别的类型有需要判别的类型有需要判别的类型有需要判别的类型有GG类类类类,起,起,起,起判别作用的因子有判别作用的因子有判别作用的因子有判别作用的因子有p p个个个个:(x x1 1,x x2 2,x xp p),),从第从第从第从第g g类中取得类中取得类中取得类中取得 n n g g 个样品,其第个样品,其第个样品,其第个样品,其第 i i 个个个个样品的样品的样品的样品的 p p个判别因子的取值为:个判别因子的取值为:个判别因子的取值为:个判别因子的取值为:x xi i(g g)=(=(x xi i1 1(g g),x xi

13、i2 2(g g),x xipip (g g)对对对对p p维空间作出一个维空间作出一个维空间作出一个维空间作出一个划分:划分:划分:划分:D D1 1,D D2 2,D DGG互不相交互不相交互不相交互不相交或者构造一个或者构造一个或者构造一个或者构造一个判别函数:判别函数:判别函数:判别函数:u u(x x1 1,x x2 2,x xp p)以以以以u u(x x1 1,x x2 2,x xp p)作为新样品所属类型的判断作为新样品所属类型的判断作为新样品所属类型的判断作为新样品所属类型的判断常用的判别方法常用的判别方法n n距离判别距离判别n nFisher判别判别n nBayes判别判

14、别n n逐步判别逐步判别距离判别距离判别距离判别距离判别判别准则判别准则1.1.根据各类的根据各类的 ng 个样本,求出每类的中心个样本,求出每类的中心坐标坐标2.2.再根据新样品离开每个类中心的距离远近再根据新样品离开每个类中心的距离远近作出它属于哪一类的判断作出它属于哪一类的判断(1)(1)两类距离判别:两类距离判别:设有两个总体:设有两个总体:设有两个总体:设有两个总体:1 1 1 1,2 2 2 2d(x,g)的计算的计算选用选用选用选用马氏距离马氏距离马氏距离马氏距离 d2(x,g)=(x-g)-1(x-g)此距离表示此距离表示x与随机向量与随机向量g(x到总体到总体g的距离)的距离

15、)的距离,即的距离,即x到到g的均值的均值g的的马氏距离。马氏距离。马氏距离。马氏距离。判别规则判别规则判别规则判别规则判别函数:判别函数:为线性判别函数,其中为线性判别函数,其中为线性判别函数,其中为线性判别函数,其中a a 称为称为称为称为判别系数判别系数判别系数判别系数利用判别函数进行判别利用判别函数进行判别 判别规则为:判别规则为:判别规则为:判别规则为:若若若若u u(x x)0 0 0 0,则判,则判,则判,则判 x x1 1 1 1 若若若若u u(x x)0 0 0 0,则判,则判,则判,则判 x x2 2 2 2利用利用 u(x)将样本空间将样本空间 RP 进行进行划分划分划

16、划 分分当当1 1、2 2、未知未知(2)(2)两类距离判别:两类距离判别:12*p1时时 可按多类判别中可按多类判别中G=2时的特殊情况处理时的特殊情况处理注意要点(注意要点(1)122只有当两个总体的均值有显著差异时判只有当两个总体的均值有显著差异时判别分析才有意义别分析才有意义注意要点(注意要点(2)为减少误判的可能性,有时可划定一个为减少误判的可能性,有时可划定一个待判区域待判区域bc多类距离判别:多类距离判别:设有多个总体:设有多个总体:设有多个总体:设有多个总体:1 1,2 2,GG判别规则:判别规则:判别规则:判别规则:若若若若d(d(x x,g g)=min d()=min d

17、(x x,i i )则判则判则判则判 x x g g选用马氏距离选用马氏距离选用马氏距离选用马氏距离 d d 2 2(x x,g g)=()=(x x-g g)-1(x x-g g)当当当当 g g、g g(g=1,2,G)(g=1,2,G)未知未知未知未知多类距离判别:多类距离判别:1 1=2 2=G G距离判别的特点距离判别的特点距离判别只要求知道总体的数字特征,不涉距离判别只要求知道总体的数字特征,不涉及总体的分布函数,当参数和协方差未知时,及总体的分布函数,当参数和协方差未知时,就用样本的均值和协方差矩阵来估计。就用样本的均值和协方差矩阵来估计。距离判别方法简单实用,但没有考虑到每个距

18、离判别方法简单实用,但没有考虑到每个总体出现的机会大小,即先验概率,没有考总体出现的机会大小,即先验概率,没有考虑到错判的损失。虑到错判的损失。Fisher判别判别Fisher判别判别FisherFisher判别是根据判别是根据判别是根据判别是根据方差分析方差分析方差分析方差分析的思想建立起来的,的思想建立起来的,的思想建立起来的,的思想建立起来的,即按即按即按即按类内方差尽量小,类间方差尽量大类内方差尽量小,类间方差尽量大类内方差尽量小,类间方差尽量大类内方差尽量小,类间方差尽量大的准则来的准则来的准则来的准则来求求求求判别函数判别函数判别函数判别函数的。的。的。的。FisherFisher

19、判别的基本思想是判别的基本思想是判别的基本思想是判别的基本思想是投影投影投影投影,即将原来在,即将原来在,即将原来在,即将原来在p p维空维空维空维空间的间的间的间的自变量组合投影到自变量组合投影到自变量组合投影到自变量组合投影到维度较低的维度较低的维度较低的维度较低的D D维空间去,维空间去,维空间去,维空间去,然后在然后在然后在然后在D D维空间中再进行分类。维空间中再进行分类。维空间中再进行分类。维空间中再进行分类。投影的原则投影的原则投影的原则投影的原则是使是使是使是使得每一类内的离差尽可能小,而不同类间投影的得每一类内的离差尽可能小,而不同类间投影的得每一类内的离差尽可能小,而不同类

20、间投影的得每一类内的离差尽可能小,而不同类间投影的离差尽可能大。离差尽可能大。离差尽可能大。离差尽可能大。对总体的分布不做任何要求对总体的分布不做任何要求对总体的分布不做任何要求对总体的分布不做任何要求Fisher判别的图示判别的图示两个总体的两个总体的两个总体的两个总体的FisherFisher判别法:旋转坐标轴至总体单位判别法:旋转坐标轴至总体单位判别法:旋转坐标轴至总体单位判别法:旋转坐标轴至总体单位尽可能分开的方向,此时分类变量被简化为一个尽可能分开的方向,此时分类变量被简化为一个尽可能分开的方向,此时分类变量被简化为一个尽可能分开的方向,此时分类变量被简化为一个设有设有G个总体:个总

21、体:1,2,G对任给一个样品对任给一个样品x,考虑一个,考虑一个判别函数判别函数u(x),记,记FisherFisher判别准则:判别准则:寻找寻找u(x):使类内偏差平方和使类内偏差平方和 W0 最小,最小,类间偏差平方和类间偏差平方和 B0 最大最大即即 要找要找 u(x),使,使达到达到最大最大判别规则:判别规则:对新样品对新样品 x,若若u(x)-ui=min u(x)-ug 则判则判 xiu u(x x)可以是可以是可以是可以是x x的任意函数,通常只考虑线性判别函的任意函数,通常只考虑线性判别函的任意函数,通常只考虑线性判别函的任意函数,通常只考虑线性判别函数:数:数:数:u u(

22、x x)=)=a ax x=a a1 1x x1 1+a a2 2x x2 2+a ap px xp p重点重点重点重点转为线性判别函数的转为线性判别函数的转为线性判别函数的转为线性判别函数的系数系数系数系数 a a 的的的的确定确定确定确定u u(x x)的线性函数的线性函数的线性函数的线性函数 亦为亦为亦为亦为FisherFisher准则下的准则下的准则下的准则下的判别函数判别函数判别函数判别函数线性判别函数的系数线性判别函数的系数a 确定确定一般地,总体的一般地,总体的,未知,可以用样本来未知,可以用样本来估计估计将将B0、W0分别改用样本的判别函数值的组分别改用样本的判别函数值的组间和

23、组内离差平方和表示:间和组内离差平方和表示:在在 aW a=1的条件下,求的条件下,求 a,使,使 I 达到达到最大最大根据线性代数知识,根据线性代数知识,a为为B-W=0 的最大特征根所对应的的最大特征根所对应的特征向量特征向量,为最大特征根。为最大特征根。两类两类Fisher判别判别假设建立的判别函数为假设建立的判别函数为 u(x)=ax=a1x1+a2x2+apxp假设有两个总体假设有两个总体1、2,分别从两个总体中抽,分别从两个总体中抽取取n1和和n2个样品,每个样品观测个样品,每个样品观测p个指标个指标将属于不同总体的样品观测值代入判别函数中将属于不同总体的样品观测值代入判别函数中

24、分别对上面两式左右相加,再除以样品个分别对上面两式左右相加,再除以样品个数,可得两个总体的重心数,可得两个总体的重心:n n最佳的线性判别函数应该是:两个重心的距离最佳的线性判别函数应该是:两个重心的距离最佳的线性判别函数应该是:两个重心的距离最佳的线性判别函数应该是:两个重心的距离越大越好,两个组内的离差平方和越小越好。越大越好,两个组内的离差平方和越小越好。越大越好,两个组内的离差平方和越小越好。越大越好,两个组内的离差平方和越小越好。综上,也就是要求综上,也就是要求 越大越好越大越好组间离差组间离差组间离差组间离差平方和平方和平方和平方和组内离差组内离差组内离差组内离差平方和平方和平方和

25、平方和利用微积分求极值的必要条件可求出使利用微积分求极值的必要条件可求出使I达达到最大值的到最大值的a1,a2,ap.当然,也可以限定在当然,也可以限定在 F=1的条件下,求出的条件下,求出使使I达到最大值的达到最大值的a1,a2,ap 定义临界值:定义临界值:不妨假设不妨假设如果由原始数据求得判别函数得分为如果由原始数据求得判别函数得分为u0,对,对与一个样品代入判别函数中,若与一个样品代入判别函数中,若u0 u*,则,则判给第一类,否则判给第二类。判给第一类,否则判给第二类。两类两类Fisher判别分析步骤判别分析步骤建立判别函数(关键求判别系数)建立判别函数(关键求判别系数)计算判别临界

26、值,根据判别准则对新样品计算判别临界值,根据判别准则对新样品判别分类判别分类 检验判别效果检验判别效果n n即检验两个总体的均值向量是否相等即检验两个总体的均值向量是否相等即检验两个总体的均值向量是否相等即检验两个总体的均值向量是否相等n n因为判别分析是假设两组样品取自不同总体,因为判别分析是假设两组样品取自不同总体,因为判别分析是假设两组样品取自不同总体,因为判别分析是假设两组样品取自不同总体,如果两个总体的均值向量在统计上差异不显著,如果两个总体的均值向量在统计上差异不显著,如果两个总体的均值向量在统计上差异不显著,如果两个总体的均值向量在统计上差异不显著,作判别分析的意义就不大。作判别

27、分析的意义就不大。作判别分析的意义就不大。作判别分析的意义就不大。判别效果的检验判别效果的检验检验的前提检验的前提n n要求两个总体协方差阵相同且总体服从正态分布要求两个总体协方差阵相同且总体服从正态分布要求两个总体协方差阵相同且总体服从正态分布要求两个总体协方差阵相同且总体服从正态分布 检验的假设形式检验的假设形式检验统计量检验统计量检验的决策规则检验的决策规则n n给定检验水平给定检验水平给定检验水平给定检验水平,查,查,查,查F F分布表,确定临界值分布表,确定临界值分布表,确定临界值分布表,确定临界值F F 。若。若。若。若F F F F,则,则,则,则HH0 0被否定,认为判别有效;

28、否则认为判被否定,认为判别有效;否则认为判被否定,认为判别有效;否则认为判被否定,认为判别有效;否则认为判别无效。别无效。别无效。别无效。多个总体的多个总体的Fisher判别法判别法Fisher判别法实际上是致力于寻找一个或几判别法实际上是致力于寻找一个或几个最能反映组和组之间差异的投影方向,个最能反映组和组之间差异的投影方向,即寻找线性判别函数:即寻找线性判别函数:n n设有设有设有设有k k个总体个总体个总体个总体 1 1,2 2,k k ,分别有均值向量,分别有均值向量,分别有均值向量,分别有均值向量 1 1,2 2 ,,k k,和协方差阵和协方差阵和协方差阵和协方差阵 1 1,2 2,

29、k k,分别各总体中得到分别各总体中得到分别各总体中得到分别各总体中得到样品:样品:样品:样品:如果组数如果组数 k 太大,讨论的指标太多,则一个判别函数太大,讨论的指标太多,则一个判别函数是不够的,这时需要寻找第二个,甚至第三个线性判是不够的,这时需要寻找第二个,甚至第三个线性判别函数,设需要别函数,设需要m(mk)个。个。假设假设a a WW a a=1=1的条件下,的条件下,的条件下,的条件下,B B-WW=0=0 的各特征根依的各特征根依的各特征根依的各特征根依次为:次为:次为:次为:,各特征根对应的特征向量则分别,各特征根对应的特征向量则分别,各特征根对应的特征向量则分别,各特征根对

30、应的特征向量则分别构成第一、二,构成第一、二,构成第一、二,构成第一、二,,m 线性判别函数的系数。线性判别函数的系数。线性判别函数的系数。线性判别函数的系数。关于需要几个判别函数的问题,需要累计判别效率达关于需要几个判别函数的问题,需要累计判别效率达到到85以上,即以上,即判别准则判别准则以以m个线性判别函数得到的函数值为新的变个线性判别函数得到的函数值为新的变量,再进行距离判别。量,再进行距离判别。设设ui(x)为第为第 i(i=1,2,m)个线性判别函数个线性判别函数贝叶斯(贝叶斯(Bayes)判别)判别Bayes 统计思想统计思想假定对研究对象已有一定的认识,而这种假定对研究对象已有一

31、定的认识,而这种认识常常用认识常常用先验概率分布先验概率分布描述;描述;然后取得一个样本,用样本提供的信息再然后取得一个样本,用样本提供的信息再修正已有的认识,从而可以得到修正已有的认识,从而可以得到后验概率后验概率分布分布;各种统计推断都通过各种统计推断都通过后验概率分布后验概率分布进行。进行。最大后验准则最大后验准则办公室新来了一个雇员小王,小王是好人还是坏办公室新来了一个雇员小王,小王是好人还是坏办公室新来了一个雇员小王,小王是好人还是坏办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。按人们主观意识,一个人是好人大家都在猜测。按人们主观意识,一个人是好人大家都在猜测。按人们主观

32、意识,一个人是好人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为人或坏人的概率均为人或坏人的概率均为人或坏人的概率均为0.50.5。坏人总是要做坏事,好。坏人总是要做坏事,好。坏人总是要做坏事,好。坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人人总是做好事,偶尔也会做一件坏事,一般好人人总是做好事,偶尔也会做一件坏事,一般好人人总是做好事,偶尔也会做一件坏事,一般好人做好事的概率为做好事的概率为做好事的概率为做好事的概率为0.90.9,坏人做好事的概率为,坏人做好事的概率为,坏人做好事的概率为,坏人做好事的概率为0.20.2,一,一,一,一天,小王做了一件好事,小王

33、是好人的概率有多天,小王做了一件好事,小王是好人的概率有多天,小王做了一件好事,小王是好人的概率有多天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种大,你现在把小王判为何种大,你现在把小王判为何种大,你现在把小王判为何种人?人?BayesBayes判别的判别的判别的判别的基本思想基本思想基本思想基本思想是认为所有是认为所有是认为所有是认为所有GG个类别都是空个类别都是空个类别都是空个类别都是空间中互斥的子域,每个观测都是空间中的一个点。间中互斥的子域,每个观测都是空间中的一个点。间中互斥的子域,每个观测都是空间中的一个点。间中互斥的子域,每个观测都是空间中的一个点。在考虑在考

34、虑在考虑在考虑先验概率先验概率先验概率先验概率的前提下,利用的前提下,利用的前提下,利用的前提下,利用BayesBayes公式按照一公式按照一公式按照一公式按照一定准则定准则定准则定准则构造一个判别函数,分别计算该样品落入构造一个判别函数,分别计算该样品落入构造一个判别函数,分别计算该样品落入构造一个判别函数,分别计算该样品落入各个子域的概率各个子域的概率各个子域的概率各个子域的概率,所有,所有,所有,所有概率中最大概率中最大概率中最大概率中最大的一类就被认的一类就被认的一类就被认的一类就被认为是该样品所属的类别。为是该样品所属的类别。为是该样品所属的类别。为是该样品所属的类别。BayesBa

35、yes判别准则:判别准则:判别准则:判别准则:使错判造成的损失为最小使错判造成的损失为最小使错判造成的损失为最小使错判造成的损失为最小Bayes判别判别错判损失如何定义?错判损失如何定义?错判损失如何定义?错判损失如何定义?损失函数损失函数以以L(hg)表示样品来自第表示样品来自第g个总体,而被个总体,而被错判为第错判为第h个总体所造成的损失个总体所造成的损失 h=ghg错判概率错判概率发生错判的概率发生错判的概率发生错判的概率发生错判的概率bcg gh h先验概率先验概率第第第第g g个总体出现的先验概率为个总体出现的先验概率为个总体出现的先验概率为个总体出现的先验概率为 q q g g ,

36、g=1,2,Gg=1,2,G最小最小Bayes解的简化解的简化引入引入 Eh(x)要求要求 Bayes 解,解,只要求得只要求得使使 Eh(x)为最小的为最小的h值值取定样品取定样品取定样品取定样品 x x 下,下,下,下,使使使使E Eh h(x x)为最小的为最小的为最小的为最小的BayesBayes解解解解,也就是使也就是使也就是使也就是使后验平均损失最小的后验平均损失最小的后验平均损失最小的后验平均损失最小的BayesBayes解解解解L(hg)的的简化简化 各种错判的损失一样,都定义为各种错判的损失一样,都定义为1Eh(x)的简化的简化求求Eh(x)的最小值等价于的最小值等价于 求求

37、q h f h(x)的最大值的最大值 相当于求后验概率的最大值相当于求后验概率的最大值Bayes判别规则判别规则若若若若q q h h f f h h(x x)=max)=max q q g g f f g g(x x),则则则则:判判判判 x x h h ,h h=1,2,G=1,2,G两类判别两类判别假定假定gN p(g,),g=1,2,对新样品对新样品x:若若q1 f1(x)q2 f2(x),则,则:判判x1 若若q1 f1(x)q2 f2(x),则,则:判判x2 若若q1 f1(x)=q2 f2(x),则,则:任任 判判等价于等价于若令若令又又等价于等价于多类判别多类判别假定假定gNp

38、(g,),g=1,2,G两边取对数,得判别函数两边取对数,得判别函数当当g,未知时,取样本作估计,则判别未知时,取样本作估计,则判别函数为:函数为:多类判别规则多类判别规则若若若若u uh h(x x)=max)=max u u g g(x x),则判则判则判则判 x x h h,h h=1,2,G=1,2,G先验概率的常用取法先验概率的常用取法1.1.先验概率取样品出现的频率:先验概率取样品出现的频率:先验概率取样品出现的频率:先验概率取样品出现的频率:q q g g =n n g gn n,g=1,2,G,g=1,2,G2.2.认为总体以等概率出现,即认为总体以等概率出现,即认为总体以等概

39、率出现,即认为总体以等概率出现,即 q q g g =1=1G,g=1,2,GG,g=1,2,G距离判别、距离判别、Fisher判别与判别与 Bayes判别判别1.1.当总体为等协方差的正态分布,且先验概当总体为等协方差的正态分布,且先验概率率q g相等时,相等时,Bayes判别即为距离判别判别即为距离判别2.2.在具有等协方差的两个正态总体的判别问在具有等协方差的两个正态总体的判别问题中,题中,Bayes判别函数也是判别函数也是Fisher判别函数判别函数逐步判别逐步判别变量的选择和逐步判别变量的选择和逐步判别变量的选择是判别分析中的一个重要的问变量的选择是判别分析中的一个重要的问题,变量选

40、择是否恰当,是判别分析效果题,变量选择是否恰当,是判别分析效果优劣的关键。优劣的关键。n n如果在某个判别问题中,将起最重要的变量忽如果在某个判别问题中,将起最重要的变量忽如果在某个判别问题中,将起最重要的变量忽如果在某个判别问题中,将起最重要的变量忽略了,相应的判别函数的效果一定不好。略了,相应的判别函数的效果一定不好。略了,相应的判别函数的效果一定不好。略了,相应的判别函数的效果一定不好。n n如果判别变量个数太多,计算量必然大,会影如果判别变量个数太多,计算量必然大,会影如果判别变量个数太多,计算量必然大,会影如果判别变量个数太多,计算量必然大,会影响估计的精度。特别当引入了一些判别能力

41、不响估计的精度。特别当引入了一些判别能力不响估计的精度。特别当引入了一些判别能力不响估计的精度。特别当引入了一些判别能力不强的变量时,还会严重地影响判别的效果。强的变量时,还会严重地影响判别的效果。强的变量时,还会严重地影响判别的效果。强的变量时,还会严重地影响判别的效果。逐步判别的步骤(逐步判别的步骤(1 1)n n第一步:通过计算单变量的第一步:通过计算单变量的统计量统计量(组内(组内离差平方和与总离差平方和的比)离差平方和与总离差平方和的比),逐步,逐步选择判别变量选择判别变量n统计量统计量最小者最小者首先进入模型。首先进入模型。逐步判别的步骤(逐步判别的步骤(2 2)第二步:分别计算未

42、被选中的其它变量与第二步:分别计算未被选中的其它变量与选中变量选中变量x1的的统计量统计量n n统计量统计量统计量统计量 1 1i i的值的值的值的值最小者最小者最小者最小者与与与与x x1 1搭配进入模型。搭配进入模型。搭配进入模型。搭配进入模型。逐步判别的步骤(逐步判别的步骤(3 3)第三步:类推假设已经有第三步:类推假设已经有q1 1个变量进入个变量进入了模型,要考虑较早选入模型的变量的重了模型,要考虑较早选入模型的变量的重要性是否有较大的变化,应及时将其从模要性是否有较大的变化,应及时将其从模型中型中剔除剔除。其原则与引入相同。但删除统。其原则与引入相同。但删除统计量计量的值的值最大最

43、大者。者。第四步:进行判别分析。第四步:进行判别分析。判别分析的主要程序判别分析的主要程序1.选择变量选择变量n n和判别分析的目的密切相关和判别分析的目的密切相关和判别分析的目的密切相关和判别分析的目的密切相关n n反映要判类变量的特征反映要判类变量的特征反映要判类变量的特征反映要判类变量的特征n n在不同研究对象上的值有明显的差异在不同研究对象上的值有明显的差异在不同研究对象上的值有明显的差异在不同研究对象上的值有明显的差异2.用逐步判别法筛选变量用逐步判别法筛选变量n n在第一步所选的变量可能在类间无差异,应该将在第一步所选的变量可能在类间无差异,应该将在第一步所选的变量可能在类间无差异

44、,应该将在第一步所选的变量可能在类间无差异,应该将对判别分析无贡献的变量剔除对判别分析无贡献的变量剔除对判别分析无贡献的变量剔除对判别分析无贡献的变量剔除判别分析的主要程序判别分析的主要程序3.估计判别函数估计判别函数n n选择某种方法建立判别规则,有距离判别、贝选择某种方法建立判别规则,有距离判别、贝选择某种方法建立判别规则,有距离判别、贝选择某种方法建立判别规则,有距离判别、贝叶斯判别和费歇(叶斯判别和费歇(叶斯判别和费歇(叶斯判别和费歇(FisherFisher)判别法。)判别法。)判别法。)判别法。4.检查判别的效果检查判别的效果n n计算错判比率和正确判定的比率。将判别函数计算错判比

45、率和正确判定的比率。将判别函数计算错判比率和正确判定的比率。将判别函数计算错判比率和正确判定的比率。将判别函数用于验证样本,通过验证样本的错判比率和正用于验证样本,通过验证样本的错判比率和正用于验证样本,通过验证样本的错判比率和正用于验证样本,通过验证样本的错判比率和正确判定的比率来确定判别的效果。确判定的比率来确定判别的效果。确判定的比率来确定判别的效果。确判定的比率来确定判别的效果。n n所谓错判,就是把原来是第一类的样本判给了所谓错判,就是把原来是第一类的样本判给了所谓错判,就是把原来是第一类的样本判给了所谓错判,就是把原来是第一类的样本判给了第二类。对于正确判定的比率应该达到多少才第二

46、类。对于正确判定的比率应该达到多少才第二类。对于正确判定的比率应该达到多少才第二类。对于正确判定的比率应该达到多少才能接受,并没有严格的规则。能接受,并没有严格的规则。能接受,并没有严格的规则。能接受,并没有严格的规则。检查判别效果的方法检查判别效果的方法自身验证(自身验证(自身验证(自身验证(originaloriginal)n n将用来建立判别函数的各样品代入判别函数中,看看错判将用来建立判别函数的各样品代入判别函数中,看看错判将用来建立判别函数的各样品代入判别函数中,看看错判将用来建立判别函数的各样品代入判别函数中,看看错判情况是否严重。自身验证效果好,并不能说明该函数用来情况是否严重。

47、自身验证效果好,并不能说明该函数用来情况是否严重。自身验证效果好,并不能说明该函数用来情况是否严重。自身验证效果好,并不能说明该函数用来判别外部数据的效果也好,实用价值不是很大。判别外部数据的效果也好,实用价值不是很大。判别外部数据的效果也好,实用价值不是很大。判别外部数据的效果也好,实用价值不是很大。交互验证(交互验证(交互验证(交互验证(Cross validationCross validation)n n在建立判别函数时依次去掉一例,然后用建立起的判别函在建立判别函数时依次去掉一例,然后用建立起的判别函在建立判别函数时依次去掉一例,然后用建立起的判别函在建立判别函数时依次去掉一例,然后用建立起的判别函数对该例进行判别,比较有效地避免异常点的干扰数对该例进行判别,比较有效地避免异常点的干扰数对该例进行判别,比较有效地避免异常点的干扰数对该例进行判别,比较有效地避免异常点的干扰

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁