MATLAB数据分析方法-(3).ppt

上传人:得****1 文档编号:75961153 上传时间:2023-03-06 格式:PPT 页数:64 大小:501.50KB
返回 下载 相关 举报
MATLAB数据分析方法-(3).ppt_第1页
第1页 / 共64页
MATLAB数据分析方法-(3).ppt_第2页
第2页 / 共64页
点击查看更多>>
资源描述

《MATLAB数据分析方法-(3).ppt》由会员分享,可在线阅读,更多相关《MATLAB数据分析方法-(3).ppt(64页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、1/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 普通高等院校计算机课程规划普通高等院校计算机课程规划教材教材MATLAB数据分析方法数据分析方法 李柏年 吴礼斌 主编 张孔生 丁 华 参编 2/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 第第4章章 判别分析判别分析 判别分析的基本思想是根据已知类别的样本所提判别分析的基本思想是根

2、据已知类别的样本所提供的信息,总结出分类的规律性,建立判别公式和供的信息,总结出分类的规律性,建立判别公式和判别准则,判别新的样本点所属类型。本章介绍距判别准则,判别新的样本点所属类型。本章介绍距离判别分析、离判别分析、Bayes判别分析极其判别分析极其MATLAB软件的软件的实现。实现。4.1 距离判别分析距离判别分析 4.1.1 判别分析的概念判别分析的概念 在一些自然科学和社会科学的研究中,研究对象在一些自然科学和社会科学的研究中,研究对象用某种方法已划分为若干类型,当得到的一个新样用某种方法已划分为若干类型,当得到的一个新样品数据(通常是多元的),要确定该样品属于已知品数据(通常是多元

3、的),要确定该样品属于已知类型中的哪一类,这样的问题属于判别分析类型中的哪一类,这样的问题属于判别分析.3/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 从统计数据分析的角度,可概括为如下模型:从统计数据分析的角度,可概括为如下模型:设有设有k个总体个总体 ,它们都是它们都是p元总体元总体,其数量指标是其数量指标是 1)若总体若总体 的分布函数是已知,对于任一新的分布函数是已知,对于任一新样品数据样品数据 ,判断它来自哪一个判断它来自哪一个总体总体。2)通常各个总

4、体通常各个总体 的分布是未知的,由从各的分布是未知的,由从各个总体取得的样本(训练样本)来估计。一般,个总体取得的样本(训练样本)来估计。一般,先估计各个总体的均值向量与协方差矩阵。先估计各个总体的均值向量与协方差矩阵。4/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 原则原则:1.从统计学的角度,要求判别准则在某种准则从统计学的角度,要求判别准则在某种准则下是最优的,例如错判的概率最小等。下是最优的,例如错判的概率最小等。2.根据不同的判别准则,有不同的判别方法

5、,根据不同的判别准则,有不同的判别方法,这里主要介绍距离判别和这里主要介绍距离判别和Bayes判别判别 4.1.2 距离的定义距离的定义 1.闵可夫斯基距离闵可夫斯基距离设有设有n维向量维向量 称称绝对距离绝对距离5/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 称称 称称为为n维向量维向量x,y之间的闵可夫斯基距离,其中之间的闵可夫斯基距离,其中 为常数。为常数。欧氏距离欧氏距离 显然,当显然,当r=2和和1时闵可夫斯基距离分别为欧氏距时闵可夫斯基距离分别为欧氏

6、距离和绝对距离离和绝对距离.6/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析(1)同一总体的两个向量之间的马氏距离同一总体的两个向量之间的马氏距离 其中其中 为总体协方差矩阵,通常取为总体协方差矩阵,通常取 为实对称正定为实对称正定矩阵矩阵.显然,当显然,当 为单位矩阵时马氏距离就是欧氏距离为单位矩阵时马氏距离就是欧氏距离.设有设有n维向量维向量 ,则称则称为为n维向量维向量x,y之间的马氏距离之间的马氏距离.2.马氏距离马氏距离 马氏距离是由印度统计学家马哈拉诺

7、比斯马氏距离是由印度统计学家马哈拉诺比斯(PC Mahalanobis)提出的,由于马氏距离具有统计意义,提出的,由于马氏距离具有统计意义,在距离判别分析时经常应用马氏距离:在距离判别分析时经常应用马氏距离:(4.1.1)7/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析(2)一个向量到一个总体的马氏距离一个向量到一个总体的马氏距离 总体总体G 的均值向量为的均值向量为,协方差矩阵为,协方差矩阵为.则称则称为为n维向量维向量x与总体与总体G的马氏距离的马氏距离.MA

8、TLAB中有一个命令:中有一个命令:d=mahal(Y,X),计算,计算X矩阵每一个点(行)至矩阵每一个点(行)至Y矩阵中每一个点(行)的矩阵中每一个点(行)的马氏距离。其中马氏距离。其中Y的列数必须等于的列数必须等于X的列数,但它们的列数,但它们的行数可以不同。的行数可以不同。X的行数必须大于列数。输出的行数必须大于列数。输出d是是距离向量。距离向量。(4.1.2)8/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析(3)两个总体之间的马氏距离两个总体之间的马氏距离

9、 设有两个总体设有两个总体G1,G2,两个总体的均值向量分别,两个总体的均值向量分别为为 ,协方差矩阵相等,皆为,协方差矩阵相等,皆为,则两个总体之则两个总体之间的马氏距离为间的马氏距离为 通常,在判别分析时不采用欧氏距离的原因在通常,在判别分析时不采用欧氏距离的原因在于,该距离与量纲有关于,该距离与量纲有关.例如平面上有例如平面上有A,B,C,D四个四个点,横坐标为代表重量(单位:点,横坐标为代表重量(单位:kg),纵坐标代表),纵坐标代表长度(单位:长度(单位:cm),如下页图。),如下页图。(4.1.3)9/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业

10、出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 这时这时显然显然 ABCD 如果现在长度用如果现在长度用mm为单位,重量的单位保持不变,为单位,重量的单位保持不变,于是于是A点的坐标为点的坐标为(0,50),B点的坐标为点的坐标为(0,100),此,此时计算线段的长度为时计算线段的长度为此时,此时,ABCD10/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 这表明欧氏距离有一个缺陷,当向量的分量是不这表明欧氏距离有

11、一个缺陷,当向量的分量是不同的量纲时欧氏距离的大小竟然与指标的单位有关同的量纲时欧氏距离的大小竟然与指标的单位有关.而马氏距离则与量纲无关而马氏距离则与量纲无关.4.1.3 两总体的距离判别分析两总体的距离判别分析 先考虑两个总体的情况。设先考虑两个总体的情况。设 ,为两个不同为两个不同的的p元已知总体,元已知总体,的均值向量是的均值向量是 ,的的协方差矩阵是协方差矩阵是 ,.设设 是一个待判样品,距离判别准则为是一个待判样品,距离判别准则为(4.1.4)11/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机

12、械工业出版社)第第4章章 判别分析判别分析 即当即当 到到 的马氏距离不超过到的马氏距离不超过到 的马氏距的马氏距离时,判离时,判 来自来自 ;反之,判来自;反之,判来自 .由于马氏距离与总体的协方差矩阵有关,所以利由于马氏距离与总体的协方差矩阵有关,所以利用马氏距离进行判别分析需要分别考虑两个总体的用马氏距离进行判别分析需要分别考虑两个总体的协方差矩阵是否相等协方差矩阵是否相等.1.两个总体协方差矩阵相等的情况两个总体协方差矩阵相等的情况 设有两个总体设有两个总体G1,G2,均值分别为,均值分别为 ,协方协方差矩阵相等为差矩阵相等为。考虑样品。考虑样品x到两个总体的马氏距离到两个总体的马氏距

13、离平方差:平方差:12/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 其中其中 ,令,令于是距离判别准则为于是距离判别准则为(4.1.6)13/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 由于总体的均值、协方差矩阵通常是未知的,数据由于总体的均值、协方差矩阵通常是未知的,数据资料来自两个总体的训练样本,于是用样本的均值、样资料来自两

14、个总体的训练样本,于是用样本的均值、样本的协方差矩阵代替总体的均值与协方差本的协方差矩阵代替总体的均值与协方差.注意:注意:若若S1,S2分别为两个样本的协方差矩阵,则在两个总分别为两个样本的协方差矩阵,则在两个总体协方差矩阵相等时,总体的协方差矩阵估计量体协方差矩阵相等时,总体的协方差矩阵估计量其中其中n1,n2分别为两个样本的容量分别为两个样本的容量.得到教材中判得到教材中判别法则:别法则:(4.1.11)(4.1.9)14/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分

15、析判别分析 matlab判别步骤:判别步骤:1.计算计算A、B两类的均值向量与协方差阵两类的均值向量与协方差阵;ma=mean(A),mb=mean(B),S1=cov(A),S2=cov(B)2.计算总体的协方差矩阵计算总体的协方差矩阵其中其中n1,n2分别为两个样本的容量分别为两个样本的容量.3.计算未知样本计算未知样本x到到A,B两类马氏平方距离之差两类马氏平方距离之差 d=(x-ma)S-1(x-ma)-(x-mb)S-1(x-mb)4.若若d0,则则x属于属于B类类15/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版

16、社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 上述公式可以化简为:上述公式可以化简为:W(x)=(ma-mb)S-1(x-(ma+mb)/2)若若W(x)0,x属于属于G1;若若W(x)0,x属于属于G2注意:注意:1.此处此处ma,mb都是行向量;都是行向量;2.当当x是一个矩阵时,则用是一个矩阵时,则用ones矩阵左乘矩阵左乘(ma+mb)/2以以后,方可与后,方可与x相减相减.Matlab中直接进行数据的判别分析命令为中直接进行数据的判别分析命令为classify,其调用格式,其调用格式class=classify(sample,training,group type)

17、16/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 例例4.1.1(1989年国际数学竞赛年国际数学竞赛A题题)蠓的分类蠓的分类 蠓是一种昆虫,分为很多类型,其中有一种名为蠓是一种昆虫,分为很多类型,其中有一种名为Af,是能传播花粉的益虫;另一种名为是能传播花粉的益虫;另一种名为Apf,是会传播是会传播疾病的害虫,这两种类型的蠓在形态上十分相似,很疾病的害虫,这两种类型的蠓在形态上十分相似,很难区别难区别.现测得现测得6只只Apf和和9只只Af蠓虫的触角长度和翅蠓

18、虫的触角长度和翅膀长度数据膀长度数据Apf:(1.14,1.78),(1.18,1.96),(1.20,1.86),(1.26,2.00),(1.28,2.00),(1.30,1.96);Af:(1.24,1.72),(1.36,1.74),(1.38,1.64),(1.38,1.82),(1.38,1.90),(1.40,1.70),(1.48,1.82),(1.54,1.82),(1.56,2.08).若两类蠓虫协方差矩阵相等,试判别以下的三个若两类蠓虫协方差矩阵相等,试判别以下的三个蠓虫属于哪一类?蠓虫属于哪一类?(1.24,1.8),(1.28,1.84),(,(1.4,2.04)17

19、/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 解:假定两总体的协方差相等,源程序如下:解:假定两总体的协方差相等,源程序如下:apf=1.14,1.78;1.18,1.96;1.20,1.86;1.26,2.;1.28,2;1.30,1.96;af=1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90;1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08;x=1.24,1.8;1.28,1.

20、84;1.4,2.04;%输入原始数据输入原始数据m1=mean(apf);m2=mean(af);s1=cov(apf);s2=cov(af);s=(5*s1+8*s2)/13;%计算样本均值与协方差矩阵计算样本均值与协方差矩阵for i=1:3 W(i)=(x(i,:)-1/2*(m1+m2)*inv(s)*(m1-m2);%计算判别函数值计算判别函数值 end;输出结果为:输出结果为:W=2.1640 1.3568 1.9802由判别准则由判别准则(4.1.11)可知,三只蠓虫均属于可知,三只蠓虫均属于Apf.18/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(

21、机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 直接直接调调用用MATLAB的判的判别别分析命令分析命令classify。apf=1.14,1.78;1.18,1.96;1.20,1.86;1.26,2.;1.28,2;1.30,1.96;%总总体体apfaf=1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90;1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08;%总总体体aftraining=apf;af;%合并两个合并两个总总体形成体形成训练训练集集n1=s

22、ize(apf,1);%总总体体apf中中样样本的行数本的行数n2=size(af,1);%总总体体af中中样样本的行数本的行数group=ones(1,n1),2*ones(1,n2);%apf中中样样本与本与af中中样样本本类类属属x=1.24,1.8;1.28,1.84;1.4,2.04;%输输入原始待判数据即入原始待判数据即sampleclass=classify(x,training,group)%判判别别分析分析输出结果为:输出结果为:class=1 1 1由判别准则由判别准则(4.1.11)可知,三只蠓虫均属于可知,三只蠓虫均属于Apf.19/24MATLABMATLAB数据分析

23、方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 2.两个总体协方差矩阵不相等两个总体协方差矩阵不相等样样品品 到两个到两个总总体的体的马马氏距离平方分氏距离平方分别为别为:令令 则判别准则:则判别准则:(4.1.13)20/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 当两个总体的协方差矩阵不等时,可以建立当两个总体的协方差矩阵不等时,可以建立MATLAB的判别法如下:的

24、判别法如下:例例4.1.2 对例对例4.1.1的数据,假定两类总体的协方差矩的数据,假定两类总体的协方差矩阵不相等,重新判别上述三个蠓虫的类别阵不相等,重新判别上述三个蠓虫的类别.解:程序如下:解:程序如下:apf=1.14,1.78;1.18,1.96;1.20,1.86;1.26,2.;1.28,2;1.30,1.96 af=1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90;1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08;x=1.24,1.8;1.28,1.84;1.4,2.04;%输入原始数据输入原始数据

25、W=mahal(x,apf)-mahal(x,af)%计算判别函数计算判别函数 21/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 输出结果为:输出结果为:W=1.7611 3.8812 3.6468 由判别准则由判别准则(4.1.17)可知,三个蠓虫均属于可知,三个蠓虫均属于Af.3.两个总体协方差矩阵相等的检验两个总体协方差矩阵相等的检验 以上两个例题的结果大相径庭,由此我们不禁以上两个例题的结果大相径庭,由此我们不禁要问究竟哪个结果更可靠?问题的关键在于:两

26、类要问究竟哪个结果更可靠?问题的关键在于:两类蠓虫总体的协方差矩阵是否相等?着手解决协方差蠓虫总体的协方差矩阵是否相等?着手解决协方差矩阵的检验矩阵的检验.检验统计量:检验统计量:22/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 对给定的对给定的 ,查卡方分布表得到临界值,查卡方分布表得到临界值 .若若 ,则接受则接受H0,否则拒绝,否则拒绝H0 对于例对于例4.1.1,应用检验程序如下:,应用检验程序如下:n1=6;n2=9;p=2;s=(5*s1+8*s2)

27、/13;Q01=(n1-1)*(log(det(s)-log(det(s1)-p+trace(inv(s)*s1);Q02=(n2-1)*(log(det(s)-log(det(s2)-p+trace(inv(s)*s2);结果结果:Q01=2.5784,Q02=0.7418 对对 ,查自由度为,查自由度为3的卡方分布的卡方分布chi2inv(0.05,3),得到临界值为:得到临界值为:7.8147 由于由于 Q017.8147,Q027.8147,故认为两总体,故认为两总体协方差矩阵相同。例协方差矩阵相同。例4.1.1的那种解法更合理的那种解法更合理.23/24MATLABMATLAB数据分

28、析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 4.1.4 多个总体的距离判别多个总体的距离判别 设有设有k个总体个总体G1,G2,Gk,若判别某个体,若判别某个体x属于哪属于哪个总体,则有如下方法:个总体,则有如下方法:若存在某个正整数若存在某个正整数k0,使得使得mahal(y,Gk0)=min(mahal(y,Gi),(i=1,2,k)则判别则判别y属于第属于第k0个总体个总体.多个总体协方差矩阵是否相等的检验多个总体协方差矩阵是否相等的检验(参考第二参考第二章第章第2.2.2节节)24/24

29、MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 1.总体协方差矩阵相等时的判别总体协方差矩阵相等时的判别设有设有k个总体个总体 G1,G2,Gk,是取自总体是取自总体Gj(j=1,2,k)的训练样本,记的训练样本,记于是未知样品到各总体的判别函数为:于是未知样品到各总体的判别函数为:其中其中判别准则为:若判别准则为:若 则则x属于属于Gj0(4.1.21)25/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业

30、出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 解:根据例解:根据例2.2.3的结论,可以认为三类总体协方差的结论,可以认为三类总体协方差矩阵相等矩阵相等.A=260 7540183101223021320643917;26013539292804037172501173616;G1=A(:,1:4);G2=A(:,5:8);G3=A(:,9:12);%三类总体数据三类总体数据x=190 67 30 17;315 100 35 19;240 60 37 18;%待判定的数据待判定的数据m(1,:)=mean(G1);m(2,:)=mean(G2);m(3,:)=mean(G

31、3);s1=cov(G1);s2=cov(G2);s3=cov(G3);s=19*(s1+s2+s3)/57;for i=1:3 for j=1:3 for k=1:3例例4.1.3 对例对例2.2.3表表2.6中给出的身体指标化验数据,中给出的身体指标化验数据,对三个待判数对三个待判数(190,67,30,17),(315,100,35,19),(240,60,37,18)进行判别归类。进行判别归类。表表2.626/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析

32、w(j,k)=(x(i,:)-1/2*(m(j,:)+m(k,:)*inv(s)*(m(j,:)-m(k,:);if w(j,k)0);n22=length(find(d220);p0=(n11+n22)/(n1+n2)%计算回代误判率计算回代误判率34/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 for i=1:n1 A=a(1:i-1,i+1:n1,:);n1=length(A(:,1);n2=length(b(:,1);s1=cov(A);s2=cov(b

33、);p=4;s=(n1-1)*s1+(n2-1)*s2)/(n1+n2-2);D11(i)=(a(i,:)-mean(A)*inv(s)*(a(i,:)-mean(A)-(a(i,:)-mean(b)*inv(s)*(a(i,:)-mean(b);endfor i=1:n2 B=b(1:i-1,i+1:n2,:);n1=length(a(:,1);n2=length(B(:,1);s1=cov(A);s2=cov(B);p=4;s=(n1-1)*s1+(n2-1)*s2)/(n1+n2-2);D22(i)=(b(i,:)-mean(B)*inv(s)*(b(i,:)-mean(B)-(b(i,

34、:)-mean(a)*inv(s)*(b(i,:)-mean(a);endN11=length(find(D110);N22=length(find(D220);p1=(N11+N22)/(n1+n2)%计算交叉误判率计算交叉误判率输出结果:输出结果:p0=0.1923 p1=0.2400 35/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 4.3 Bayes判别分析判别分析 贝叶斯公式是一个我们熟知的公式贝叶斯公式是一个我们熟知的公式 距离判别只要求知道总体的数

35、字特征,不涉及总距离判别只要求知道总体的数字特征,不涉及总体的分布函数,当参数和协方差未知时,就用样本体的分布函数,当参数和协方差未知时,就用样本的均值和协方差矩阵来估计。距离判别方法简单实的均值和协方差矩阵来估计。距离判别方法简单实用,但没有考虑到每个总体出现的机会大小,即先用,但没有考虑到每个总体出现的机会大小,即先验概率,没有考虑到错判的损失。验概率,没有考虑到错判的损失。贝叶斯判别法正贝叶斯判别法正是为了解决这两个问题提出的判别分析方法。是为了解决这两个问题提出的判别分析方法。36/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机

36、械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 4.3.1 两个总体的两个总体的Bayes判别判别1.一般讨论一般讨论 考虑两个考虑两个p元总体元总体 分别具有概率密度函数分别具有概率密度函数f1(x),f2(x),设出现的先验概率为:,设出现的先验概率为:,且,且当取得新样品当取得新样品 后后,根据根据Bayes公式公式 的后验概率分别为的后验概率分别为 (4.3.1)37/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 因此,两个总体的

37、因此,两个总体的Bayes判别准则为判别准则为2.两个正态总体的两个正态总体的Bayes判别判别(1)两个总体协方差矩阵相等的情形)两个总体协方差矩阵相等的情形 设总体设总体G1,G2的协方差矩阵相等且为的协方差矩阵相等且为,概率密度,概率密度函数为:函数为:(4.3.2)38/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 损失相等的损失相等的Bayes判别准则为判别准则为其中其中 基于两正态总体后验概率的基于两正态总体后验概率的Bayes判别准则为判别准则为 其

38、中其中 39/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 在实际问题中,关于先验概率在实际问题中,关于先验概率 ,通常用下列两,通常用下列两种方式选取种方式选取:1)采用等概率选取,即)采用等概率选取,即2)按训练样本的容量)按训练样本的容量 的比例选取,即的比例选取,即40/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 例例4.3

39、.1 对例对例4.1.1的数据,重新对上述三个蠓虫的类的数据,重新对上述三个蠓虫的类别进行别进行Bayes判别判别.(假设误判损失相等)(假设误判损失相等)解:解:第第1步:可以验证两个总体服从二元正态分布;(第步:可以验证两个总体服从二元正态分布;(第二章的正态性检验,读者自证)二章的正态性检验,读者自证)第第2步:检验两个总体的协方差矩阵相等;步:检验两个总体的协方差矩阵相等;第第3步:估计两个总体的先验概率步:估计两个总体的先验概率,这里按样本容量这里按样本容量的比例选取的比例选取.由于由于Apf与与Af分别为分别为6个与个与9个,故估计个,故估计Apf类蠓虫的先验概率类蠓虫的先验概率

40、,Af类蠓虫的类蠓虫的先验概率先验概率 ;第第4步:利用步:利用MATLAB软件计算:软件计算:41/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 apf=1.14,1.78;1.18,1.96;1.20,1.86;1.26,2.;1.28,2;1.30,1.96;af=1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90;1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08;x=1.24,1

41、.8;1.28,1.84;1.4,2.04;m1=mean(apf);m2=mean(af);s1=cov(apf);s2=cov(af);s=(5*s1+8*s2)/13;for i=1:3 w1(i)=m1*inv(s)*x(i,:)-1/2*m1*inv(s)*m1+log(0.4);w2(i)=m2*inv(s)*x(i,:)-1/2*m2*inv(s)*m2+log(0.6);if w1(i)=w2(i)disp(第第,num2str(i),个蠓虫属于个蠓虫属于Apf类类);else disp(第第,num2str(i),个蠓虫属于个蠓虫属于Af类类);end;end;输出结果输出结

42、果:第第1个蠓虫属于个蠓虫属于Apf类类 第第2个蠓虫属于个蠓虫属于Apf类类 第第3个蠓虫属于个蠓虫属于Apf类类42/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析(2)两个总体协方差矩阵)两个总体协方差矩阵不不相等的情形相等的情形 设总体的协方差矩阵不相等分别为设总体的协方差矩阵不相等分别为1,2概率密度概率密度函数为:函数为:则基于两正态总体误判损失相等的则基于两正态总体误判损失相等的Bayes判别准则判别准则其中其中 43/24MATLABMATLAB数据

43、分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 例例4.3.2 对破产的企业收集它们在破产前两年的年度对破产的企业收集它们在破产前两年的年度财务数据,对财务良好的企业也收集同一时间的数财务数据,对财务良好的企业也收集同一时间的数据据.数据涉及四个变量数据涉及四个变量:现金流量现金流量/总债务,总债务,净收益净收益/总资产,总资产,流动资产流动资产/流动债务,以及流动债务,以及 流动资产流动资产/净销售额,数据如表净销售额,数据如表4.2 所示所示.假定两总假定两总体体G1,G2均服从四元正态分布,

44、在误判损失相等且均服从四元正态分布,在误判损失相等且先验概率按比例分配的条件下,对待判样本进行先验概率按比例分配的条件下,对待判样本进行bayes判别判别.表表4.2 解:第解:第1步:检验两个总体的协方差矩阵相等;步:检验两个总体的协方差矩阵相等;源程序如下:源程序如下:44/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 A=-0.45 -0.41 1.09 0.450.510.102.490.54 -0.13 -0.14 1.42 0.440.170.071.

45、800.52x=-0.23 -0.30 0.33 0.18;0.150.052.170.55 -0.28 -0.23 1.19 0.66;0.480.091.240.18;G1=A(:,1:4);G2=A(:,5:8);%二类总体数据二类总体数据m1=mean(G1);m2=mean(G2);s1=cov(G1);s2=cov(G2);n=18;n1=9;n2=9;p=2;s=(n1-1)*s1+(n2-1)*s2)/(n1+n2-2);Q1=(n1-1)*(log(det(s)-log(det(s1)-p+trace(inv(s)*s1);Q2=(n2-1)*(log(det(s)-log(

46、det(s2)-p+trace(inv(s)*s2);if Q1chi2inv(0.95,p*(p+1)/2)&Q2chi2inv(0.95,p*(p+1)/2)disp(两组数据协方差相等两组数据协方差相等);else disp(两组数据协方差不全相等两组数据协方差不全相等);end;输出结果:输出结果:两组数据协方差不全相等两组数据协方差不全相等45/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 第第2步:根据第步:根据第1步结论,构造判别函数,得出判步结论,

47、构造判别函数,得出判结果结果.p1=n1/n;p2=n2/n;%计算先验概率计算先验概率for i=1:4 d1(i)=mahal(x(i,:),G1)-log(det(s1)-2*log(p1);d2(i)=mahal(x(i,:),G2)-log(det(s2)-2*log(p2);if d1(i)=d2(i)disp(第第,num2str(i),个属于破产企业个属于破产企业);else disp(第第,num2str(i),个属于非破产企业个属于非破产企业);end;end;输出结果:输出结果:第第1个属于破产企业个属于破产企业 第第2个属于非破产企业个属于非破产企业 第第3个属于破产企

48、业个属于破产企业 第第4个属于非破产企业个属于非破产企业46/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 4.3.2 多个总体的多个总体的Bayes判别判别 设有设有k个总体个总体G1,G2,Gk的概率密度为的概率密度为fj(x)各各总体出现的先验概率为总体出现的先验概率为 1.一般讨论一般讨论当出现样品当出现样品 时时,总体总体 的后验概率的后验概率 47/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机

49、械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 Bayes判别准则为判别准则为:若若则判样本则判样本 注:当达到最大后验概率的注:当达到最大后验概率的 不止一个时,可判不止一个时,可判为达到最大后验概率的总体的任何一个为达到最大后验概率的总体的任何一个.2.多个正态总体的多个正态总体的Bayes判别判别(1)当)当时,设 48/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 线性判别函数为线性判别函数为 其中其中基于误判损失相等的基于误判损

50、失相等的Bayes判别准则为判别准则为基于后验概率的基于后验概率的Bayes判别准则为判别准则为其中其中49/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)数据分析方法(机械工业出版社)第第4章章 判别分析判别分析 在实际问题中,由于在实际问题中,由于 未知,各总体的训练样本均值未知,各总体的训练样本均值(2)当)当 不全相等时不全相等时,设设 则基于后验概率的则基于后验概率的Bayes判别准则为判别准则为其中其中 未知,未知,估计估计.50/24MATLABMATLAB数据分析方法(机械工业出版社)数据分析方法(机械工业

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 工作报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁