第六讲判别分析课件.ppt

上传人:石*** 文档编号:40011196 上传时间:2022-09-08 格式:PPT 页数:90 大小:4.91MB
返回 下载 相关 举报
第六讲判别分析课件.ppt_第1页
第1页 / 共90页
第六讲判别分析课件.ppt_第2页
第2页 / 共90页
点击查看更多>>
资源描述

《第六讲判别分析课件.ppt》由会员分享,可在线阅读,更多相关《第六讲判别分析课件.ppt(90页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第六讲判别分析第1页,此课件共90页哦分类分类n俗语说,物以类聚、人以群分。俗语说,物以类聚、人以群分。n但什么是分类的根据呢?但什么是分类的根据呢?n比如,要想把中国的县分成若干类,就有很多种比如,要想把中国的县分成若干类,就有很多种分类法;分类法;n可以按照自然条件来分,可以按照自然条件来分,n比如考虑降水、土地、日照、湿度等各方面;比如考虑降水、土地、日照、湿度等各方面;n也可以考虑收入、教育水准、医疗条件、基础设施等也可以考虑收入、教育水准、医疗条件、基础设施等指标;指标;n既可以用某一项来分类,也可以同时考虑多项指既可以用某一项来分类,也可以同时考虑多项指标来分类。标来分类。第2页,

2、此课件共90页哦 分类学是人类认识世界的基础科学。聚类分分类学是人类认识世界的基础科学。聚类分析和判别分析是研究事物分类的基本方法,广泛析和判别分析是研究事物分类的基本方法,广泛地应用于自然科学、社会科学、工农业生产的各地应用于自然科学、社会科学、工农业生产的各个领域。个领域。在自然科学和社会科学的各个领域经常遇到需要在自然科学和社会科学的各个领域经常遇到需要对某个个体属于哪一类进行判断。如动物学家对动物对某个个体属于哪一类进行判断。如动物学家对动物如何分类的研究和某个动物属于哪一类、目、纲的判如何分类的研究和某个动物属于哪一类、目、纲的判断。断。第3页,此课件共90页哦判别判别 n有一些昆虫

3、的性别很难看出,只有通过解剖才有一些昆虫的性别很难看出,只有通过解剖才能够判别;能够判别;n但是雄性和雌性昆虫在若干体表度量上有些综合但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体的差异。于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。知性别的昆虫。n这样的判别虽然不能保证百分之百准确,但至这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫少大部分判别都是对的,

4、而且用不着杀死昆虫来进行判别了。来进行判别了。第4页,此课件共90页哦 判别分析是根据观测到的某些指标对所研究的对判别分析是根据观测到的某些指标对所研究的对象进行分类的一种多元统计分析方法。在医学研究象进行分类的一种多元统计分析方法。在医学研究中经常遇到这类问题;例如中经常遇到这类问题;例如,临床上常需根据就诊者临床上常需根据就诊者的各项症状、的各项症状、体征、实验室检查、病理学检查及医学体征、实验室检查、病理学检查及医学影像学资料等对其作出是否有某种疾病的诊断或对几影像学资料等对其作出是否有某种疾病的诊断或对几种可能患有的疾病进行鉴别诊断,有时已初步诊断为种可能患有的疾病进行鉴别诊断,有时已

5、初步诊断为某种疾病,还需进一步作出属该类疾病中哪一种或哪某种疾病,还需进一步作出属该类疾病中哪一种或哪一型的判断。一型的判断。什么是判别分析什么是判别分析第5页,此课件共90页哦n聚类分析是根据事物本身的特性研究个体分类的方聚类分析是根据事物本身的特性研究个体分类的方法,原则是同一类中的个体有较大的相似性,不同法,原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。类中的个体差异很大。n判别分析是根据表明事物特点的变量值和它们所判别分析是根据表明事物特点的变量值和它们所属的类,求出判别函数。根据判别函数对未知所属的类,求出判别函数。根据判别函数对未知所属类别的事物进行分类的一种分析方法

6、。属类别的事物进行分类的一种分析方法。第6页,此课件共90页哦n主要不同点就是,在聚类分析中一般人们事先主要不同点就是,在聚类分析中一般人们事先并不知道或一定要明确应该分成几类,完全根并不知道或一定要明确应该分成几类,完全根据数据来确定。据数据来确定。n而在判别分析中,至少有一个已经明确知道类别而在判别分析中,至少有一个已经明确知道类别的的“训练样本训练样本”,利用这个数据,就可以建立判,利用这个数据,就可以建立判别准则,并通过预测变量来为未知类别的观测值别准则,并通过预测变量来为未知类别的观测值进行判别了。进行判别了。判别分析和聚类分析有什么不同呢?判别分析和聚类分析有什么不同呢?第7页,此

7、课件共90页哦聚类分析聚类分析第8页,此课件共90页哦聚类要注意的问题聚类要注意的问题 n聚类结果主要受所选择的变量影响。如果去掉一些变聚类结果主要受所选择的变量影响。如果去掉一些变量,或者增加一些变量,结果会很不同。量,或者增加一些变量,结果会很不同。n相比之下,聚类方法的选择则不那么重要了。因此相比之下,聚类方法的选择则不那么重要了。因此,聚类之前一定要目标明确。,聚类之前一定要目标明确。n另外就分成多少类来说,也要有道理。只要你高兴另外就分成多少类来说,也要有道理。只要你高兴,从分层聚类的计算机结果可以得到任何可能数量,从分层聚类的计算机结果可以得到任何可能数量的类。但是,聚类的目的是要

8、使各类距离尽可能的的类。但是,聚类的目的是要使各类距离尽可能的远,而类中点的距离尽可能的近,而且分类结果还远,而类中点的距离尽可能的近,而且分类结果还要有令人信服的解释。这一点就不是数学可以解决要有令人信服的解释。这一点就不是数学可以解决的了。的了。第9页,此课件共90页哦判别分析第10页,此课件共90页哦n概述概述n距离判别法距离判别法n贝叶斯判别法贝叶斯判别法n费歇尔判别法费歇尔判别法n逐步判别法逐步判别法第11页,此课件共90页哦12一、什么是判别分析?设有k个总体G1,G2,Gk,希望建立一个准准则则,对给定的任意一个样本x,依据这个准则就能判断它是来自哪个总体来自哪个总体。应当要求这

9、种准则在某某种意义下是最优的种意义下是最优的,如:错判概率最小或错判损失最小等等。第一节第一节 概述概述第12页,此课件共90页哦判别分析判别分析的一般步骤的一般步骤第13页,此课件共90页哦14 判别分析利用已知类别的样本培训模型,为未判别分析利用已知类别的样本培训模型,为未知样本判类的一种统计方法。知样本判类的一种统计方法。它产生于本世纪30年代。近年来,在自然科学、社会学及经济管理学科中都有广泛的应用。判别分析的特点是根据已掌握的、历史上已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性规律性,建立判别公式和判公式和判别准则别准则。然后,当遇到新的样本点时,只要根据

10、总结出来的判别公式和判别准则,就能判别该样本点所属的类别。第14页,此课件共90页哦15判别分析举例:判别分析举例:n根据发掘出来的人类头盖骨的高、宽等特征来判断其是男性还是女性。n在税务稽查中,要判断某企业是否偷漏税。n医生对病情的诊断。n信用风险的判定。n成功概率的判定。n企业运行状态或财务状况的判定。第15页,此课件共90页哦16二、判别分析的种类二、判别分析的种类1、按判别的组数分有两组判别分析和多组两组判别分析和多组判别分析判别分析2、按区分不同总体所用的数学模型分有 线性判别和非线性判别线性判别和非线性判别3、按判别准则的不同有距离判别、费歇尔距离判别、费歇尔(FisherFish

11、er)判别和贝叶斯()判别和贝叶斯(BayesBayes)判别)判别。第16页,此课件共90页哦判别分析的假设前提n每一个判别变量不能是其他判别变量的线性组合n各组变量的协方差阵相等n各判别变量之间具有多元正态分布17第17页,此课件共90页哦第二节第二节 距离判别距离判别 (一)马氏距离马氏距离 距离判别的最直观的想法是计算样品到第样品到第i i类总体类总体的平均数的距离的平均数的距离,哪个距离最小距离最小就将它判归哪个总体,所以,我们首先考虑的是是否能够构造一个恰当的距距离函数离函数,通过样本与某类别之间距离的大小,判别其所属类别。第18页,此课件共90页哦19 设 是从期望=和方差阵=的

12、总体G抽得的两个观测值,则 和),(21mxxxx),(21myyyy),(21m0mmij)()(),(2yxyxyx1dkiGdiii,2,1)()(),(2xxx1 样本X和Gi类之间的马氏距离定义为X与Gi类重心间的距离:X X与与Y Y之间的之间的MahalanobisMahalanobis距离距离 第19页,此课件共90页哦20马氏距离和欧式距离之间的差别 2(,)(dG-1xx-)(x-)2(,)(dGxx-)(x-)马氏距离欧氏距离第20页,此课件共90页哦21马氏距离有如下的特点:马氏距离有如下的特点:1-2y=x-11-22y y=x-x-11-22=x-x-1-=x-x-

13、2、马氏距离是标准化后的变量的欧式距离1、马氏距离不受计量单位的影响;第21页,此课件共90页哦22 3、若变量之间是相互无关的,则协方差矩阵为对角矩阵1122pp11122111pp第22页,此课件共90页哦231122211(,)(1ppdGxx-)(x-)22211221122ppppxxx此时的马氏距离为此时的马氏距离为第23页,此课件共90页哦 (二)两个总体距离判别法 先考虑两个总体的情况,设有两个协差阵相同的p p维维正态总体正态总体,对给定的样本X X,判别一个样本X X到底是来自哪一个总体,一个最直观的想法是计算X X到两个总体的距离。故我们用马氏距离来给定判别规则,有:22

14、112222212212(,),(,)(,)xGdx Gdx GxGdx Gdx Gdx Gdx G,如,如待判,如1、方差相等第24页,此课件共90页哦252221112211(,)(,)()()()()dx Gdx Gxxxx12 xxx11222122()x1)()(21211()2()2x11212221令),()(21paaa2111111(2)xxx11考虑 和 的差,就有:1(,)D x G2(,)D x G第25页,此课件共90页哦26则前面的判别法则表示为12()0()0()0 xGW xxGW xW x,如,如。待判,如 当 和已知时,是一个已知的p维向量,W(x)是x的线

15、性函数,称为线性判别函数线性判别函数。称为判别系数。用线性判别函数进行判别分析非常直观,使用起来最方便,在实际中的应用也最广泛。21,)(211()()(W xxx )111()()pppa xaxx 第26页,此课件共90页哦27 例例 在企业的考核中,可以根据企业的生产经营情况把企业分为优秀企业和一般企业优秀企业和一般企业。考核企业经营状况的指标有:资金利润率=利润总额/资金占用总额 劳动生产率=总产值/职工平均人数 产品净值率=净产值/总产值 三个指标的均值向量和协方差矩阵如下。现有二个企业,观测值分别为 (7.8,39.1,9.6)和(8.1,34.2,6.9),问这两个企业应该属于哪

16、一类?第27页,此课件共90页哦28变量均值向量协方差矩阵优秀一般资金利润率13.55.468.3940.2421.41 劳动生产率40.729.840.2454.5811.67 产品净值率10.76.221.4111.677.90854988.0025659.028276.0025659.0033129.002753.028276.002753.0119337.01第28页,此课件共90页哦5.49.101.82145.825.3545.92/)(2183679.125362.060581.0)(211判别函数的系数73596.1883679.125362.060581.045.825.35

17、45.9)(221121)判别函数的常数项(第29页,此课件共90页哦73596.1883679.125362.060581.0321xxxy)第一个新企业属于一类(00892.473596.186.983679.11.3925362.08.760581.01y)第二个新企业属于二类(02956.273596.189.683679.12.3425362.01.860581.02y线性判别函数:第30页,此课件共90页哦31 2、当总体的协方差已知,且不相等、当总体的协方差已知,且不相等22112222212212(,)(,)xGdGdGxGdGdGdx Gdx G,如x,x,如x,x,待判,如

18、222111222111(,)(,)()()()()dx Gdx Gxxxx第31页,此课件共90页哦32 随着计算机计算能力的增强和计算机的普及,距离判别法的判别函数也在逐步改进,一种等价的距离判别为:设有个K总体总体,分别有均值向量均值向量i(i=1,2,k)和协方差阵i=,各总体出现的先验概率相等。又设Y是一个待判样品。则与总体i的距离为(即判别函数)(三三)多总体的距离判别法多总体的距离判别法21(,)()()iiidx Gxx12iiixxx11 上式中的第一项第一项x-1x与与i无关,则舍去无关,则舍去,得一个等价的函数1()2iiiig xx 1第32页,此课件共90页哦33 将

19、上式中提-2,得1()2(0.5)iiiig xx 11()(0.5)iiiif xx1令则距离判别法的判别函数为:1()max()lili kf xf xG,则x1()(0.5)iiiif xx1最大注注:这与前面所提出的距离判别是等价的.21(,)()()iiidx Gxx最小1()(0.5)iiiif Yx1令判别规则为判别规则为第33页,此课件共90页哦34(四)对判别效果做出检验(四)对判别效果做出检验 1、错判概率 由上面的分析可以看出,马氏距离判别法是合理的,但是这并不意味着不会发生误判。两总体分别服从 其判别函数为21(,)N 22(,)N 1221()()()W xx12()

20、/212第34页,此课件共90页哦3512222(/)()2P xGP x概率:212()2xP)2(121122()2P x显然,只有两个总体的均值有显著差异时,判别分析才有实际意义显然,只有两个总体的均值有显著差异时,判别分析才有实际意义第35页,此课件共90页哦362、交叉核实交叉核实法的思想是:为了判断第i个观测的判别正确与否,用删除第删除第i个观测的样本数据集个观测的样本数据集计算出判别函数,然后用此判别函数来判别第i个观测。对每一个观测都这样进行。交叉核实检查比较严格,能说明所选择判别方法的有效交叉核实检查比较严格,能说明所选择判别方法的有效性。性。交叉核实可以检验所用方法是否稳定

21、。交叉核实可以解决样本容量不大的情形,改变样本,来检验方法是否稳定的问题。i i第36页,此课件共90页哦371G2GkG1G11m12mkm11n2G21m22m2nkG1km2kmkkmkn 判类判类原类原类合计2km第37页,此课件共90页哦38 加权错判率:设qi是第i类的先验概率,pi是第i类的错判概率,则加权错判率为 11kkiji ijj ipmn 简单错判率:1kiiiPq p第38页,此课件共90页哦 距离判别只要求知道总体的数字特征,不涉及总体的分布函数,当参数未知和协方差时,就用样本的均值和协方差矩阵来估计。距离判别方法简单实用,但没有考虑到每个总体出现的机会大小,即先验

22、概率,没有考虑到错判的损失。贝叶斯判别法贝叶斯判别法正是为了解决这两个问题提出的判别分析方法。第39页,此课件共90页哦40 办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为0.5。坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人做好事的概率为0.9,坏人做好事的概率为0.2,一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人。第三节第三节 贝叶斯判别法贝叶斯判别法一一 、最大后验准则最大后验准则第40页,此课件共90页哦41)/()()/(/(坏人做好事坏人好人做好事好人坏人做好事坏人做好事)坏人PPPP

23、PPP18.02.05.09.05.02.05.0)/()()/(/(坏人做好事坏人好人做好事好人好人做好事好人做好事)好人PPPPPPP82.02.05.09.05.09.05.0第41页,此课件共90页哦42 距离判别简单直观距离判别简单直观,很实用,但是距离判别的方法把总体等同看待把总体等同看待,没有考虑到总体会以不同的概率(先验概率)出现,也没有考虑误判之后所造成的损失的差异。一个好的判别方法,既要考虑到各个总体出现的先验概率,又要考虑到错判造成的损失错判造成的损失,Bayes判别就具有这些优点,其判别效果更加理想,应用也更广泛。贝叶斯公式是一个我们熟知的公式 )()|()()|()|

24、(iiiiiBPBAPBPBAPABP第42页,此课件共90页哦43 设有总体 ,具有概率密度函 数 。并且根据以往的统计分析,知道 出现的概率为 。即当样本 发生时,求它属于某类的概率。由贝叶斯公式计算后验概率,有:iG)(xfiiGiq0 x),2,1(kiGi)()()|(000 xfqxfqxGPjjiii判别规则)()()|(000 xfqxfqxGPjjlll)()(001maxxfqxfqjjiiki则 判给 。在正态的假定下,为正态分布的密度函数。0 xlG)(xfi第43页,此课件共90页哦44 ),(max)(100kiiillxfqxfq则 判给 。0 xlG)()(21

25、exp)2(1)()(1)(21iiiiixxxf若)()(21exp)2(1)(,)(1)(21iiiiiiixxqxfq则 上式两边取对数并去掉与i无关的项,则等价的判别函数为:特别,总体服从正态分布的情形特别,总体服从正态分布的情形第44页,此课件共90页哦45)(ln()(xiiifqxz|ln21lniiq)()(21)(1)(iiixx问题转化为若 ,则判 。)(max)(1xZxZikillGx第45页,此课件共90页哦46则判别函数退化为退化为iiqxzln)()(21(i)1(i)(x)xiqln221)(i)1(i)(x)x令)(i)1(i)(x)(xiiqxFln2)(问

26、题转化为若 ,则判 。)(min)(1xPxPikillGx(i)1)(i1)(ix2ln2)(iiqxP当协方差阵相等 k1第46页,此课件共90页哦47 xx1)(i(i)1)(i21ln)(iiqm令完全成为距离判别法。)(xmi(i)1(i)21x1(i)有)21(ln2)(xx1(i)(i)1(i)iiqP问题转化为若 ,则判 。)(max)(1xmxmikillGxkqqk11当先验概率相等,第47页,此课件共90页哦48二、二、最小平均误判代价准则最小平均误判代价准则 设有总体 ,具有概率密度函数 。并且根据以往的统计分析,知道 出现的概率为 ,且 。iG)(xfiiGiq),2

27、,1(kiGi11kqq 又D1,D2,Dk是R(p)的一个分划,判别法则为:当样品X落入Di时,则判 iDX ki,3,2,1 关键的问题是寻找D1,D2,Dk分划,这个分划应该使平均错判率最小。第48页,此课件共90页哦49【定义定义】(平均错判损失)(平均错判损失)用P(j/i)表示将来自总体Gi的样品错判到总体Gj的条件概率。jDiijdxxfGDXPijp)()/()/(ji 若用C(j/i)表示相应错判所造成的损失。则平均错判平均错判损失损失为:kiijiijPijCqECM1)/()/(使ECM最小的分划,是Bayes判别分析的解。第49页,此课件共90页哦50【定理】若总体G1

28、,G2,Gk的先验概率为kiqi,3,2,1,kihhDjkjii,3,2,1,)(min)(|1xxxkiiijfijCqh1)()/()(xx)(xfi)/(ijC 且相应的密度函数为 ,损失为 则划分的Bayes解为式中 第50页,此课件共90页哦51 含义含义是:当抽取了一个未知总体的样品值x,要判别它属于那个总体,只要先计算出k个按先验概率加权的误判平均损失kiiijfijCqh1)()/()(xx为了直观说明,作为例子,我们讨论k=2的情形。然后比较其大小,选取其中最小的,则判定样品属于该总体。第51页,此课件共90页哦52 211122(2/1)()(1/2)()DDqCf x

29、dxq Cfx dxdxxfCqdxxfCqDRD11)()2/1()()1/2(2211112211(2/1)(1/2)()(2/1)()DqCq CfxqCf x dx12(,)ECM D D1112122(2/1)(2/1)()(1/2)()DDqCq Cf x dxq Cfx dx第52页,此课件共90页哦53 由此可见,要使ECM最小,被积函数必须在D1是负数,则有分划0)()1/2()()2/1(|11221xfCqxfCqDx 0)()1/2()()2/1(1122xfCqxfCq)2/1(/)1/2()(/)(1221CqCqxfxf)(/)(21xfxfv)2/1(/)1/2

30、(12CqCqd 第53页,此课件共90页哦54Bayes判别准则为:判别准则为:dxvdxvGxdxvGx)()()(21若待判若若第54页,此课件共90页哦55特别,若特别,若kiiijfijCqh1)()/()(xxjijiijC01)/(1()()()()kkjiiiijjijihq fq fq fxxxx越小kijjiijfqfqh1)()()(xxx()jjq fx 越大),(max)(1kiiillfqfqxx 与标准与标准Bayes判别等价判别等价lGx第55页,此课件共90页哦 下表是某金融机构客户的个人资料,这些资料对一个金融机构来说,对于客户信用度的了解至关重要,因为利用

31、这些资料,可以挖掘出许多的信息,建立客户的信用度评价体系。所选变量为:x1:月收入 x2:月生活费支出 x3:虚拟变量,住房的所有权,自己的为“1”,租用的“0”x4:目前工作的年限 x5:前一个工作的年限 x6:目前住所的年限 x7:前一个住所的年限 x8:信用程度,“5”的信用度最高,“1”的信用度最低。第56页,此课件共90页哦1617第57页,此课件共90页哦原始类判类后验概率1 后验概率2 后验概率3 后验概率4 后验概率555000.0000100.99999110.870790.005290.123790.000140440.039520.016050.146350.787140

32、.01095220.048270.910020.036110.00560130.3810.198530.410760.00970.00001130.22920.108830.634830.026810.00032110.64920.211280.138960.000560550.000140.000060.002060.233910.76384330.188840.006160.80490.00010330.096240.001720.901690.000330.00003440.008910.302990.012160.67590.00004110.796190.003280.200270.

33、00020.00006330.263540.010660.684580.039750.00147220.082620.832040.019820.065520440.000020.001160.000060.998130.00062330.115070.016510.367210.293970.20724310.671840.239020.08880.000340第58页,此课件共90页哦第四节第四节 Fisher判别法判别法第59页,此课件共90页哦FisherFisher判别法判别法(先进行投影先进行投影)n所谓Fisher判别法,就是一种先投影的方法。n考虑只有两个(预测)变量的判别分析

34、问题。n假定这里只有两类。数据中的每个观测值是二维空间的一个点。见图(下一张幻灯片)。n这里只有两种已知类型的训练样本。其中一类有38个点(用“o”表示),另一类有44个点(用“*”表示)。按照原来的变量(横坐标和纵坐标),很难将这两种点分开。n于是就寻找一个方向,也就是图上的虚线方向,沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出,如果向其他方向投影,判别效果不会比这个好。n有了投影之后,再用前面讲到的距离远近的方法来得到判别准则。这种首先进行投影的判别方法就是Fisher判别法。第60页,此课件共90页哦-4-20246-4-3-2-10123第61页,此课

35、件共90页哦 用家庭收入和草地面积来区别城市中家庭可能购买割草机和不用家庭收入和草地面积来区别城市中家庭可能购买割草机和不太可能购买割草机太可能购买割草机将坐标轴将坐标轴旋转至总旋转至总体单位尽体单位尽可能分开可能分开的方向,的方向,此时分类变此时分类变量被简化为量被简化为一个一个 第62页,此课件共90页哦 从距离判别法,我们已经看到判别规则是一个线性函数,由于线性判别函数使用简便,因此我们希望能在更一般的情况下,建立一种线性判别函数。FisherFisher判别法是根据方差分析的思想建立起来的一种能较好区分各个总体的线性判别法,FisherFisher在1936年提出。该判别方该判别方法对

36、总体的分布不做任何要求。法对总体的分布不做任何要求。第63页,此课件共90页哦64 (1)基本思想:从两个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想构造一个判别函数构造一个判别函数或称判别式或称判别式:,其中系数c1、c2、c3.cp确定的原则是使两组间的区别最大,而使每个组内部确定的原则是使两组间的区别最大,而使每个组内部的离差最小的离差最小。有了判别式后,对于一个新的样品,将它的p个指标值代入判别式中求出y值,然后与判别临界值判别临界值(或称分界点后面给出)进行比较,就可以判别它应属于哪一个总体。ppxcxcxcy2211一、不等协差阵的两总体一、不等协差阵的两总体Fishe

37、r判别法判别法第64页,此课件共90页哦65(2)判别函数的导出 假设有两个总体G1、G2,从第一个总体中抽取n1个样品,从第二个总体中抽取n2个样品,每个样品观测p个指标,列表如下:第65页,此课件共90页哦66假设新建立的判别式为 ,今将属于不同两总体的样品观测值代入判别式中去,则得:n对上边两式分别左右相加,再乘以相应的样品个数,则有:第一组样品的“重心”第二组样品的“重心”ppxcxcxcy22111)1()1(22)1(11)1(,1nixcxcxcyippiii2)2()1(22)1(11)2(,1nixcxcxcyippiiipkkkxcy1)1()1(pkkkxcy1)2()2

38、(第66页,此课件共90页哦 为了使判别函数能够很好地区别来自不同总体的样品地区别来自不同总体的样品,自然希望:i)来自不同总体的两个平均值 相差愈大愈好。ii)对于来自第一个总体 要求它们的离差平方和 愈小愈好,同样也要求 愈小愈好。综合以上两点,就是要求综合以上两点,就是要求 愈大愈好愈大愈好 记 为两组间离差。为两组内的离差。)2()1(,yy),1(1)1(niyi112)1()1()(niiyy212)2()2()(niiyy2112)2()2(12)1()1(2)2()1()()()(niiniiyyyyyyI2)2()1(21)(),(yycccQQp2112)2()2(12)1

39、()1(21)()(),(niiniipyyyycccFF第67页,此课件共90页哦有了判别函数之后,欲建立判别准则还要确定判别临界值(分界点)y0,在两总体先验概率相等的假设下,一般常取y0为 和 的加权平均值即 n如果由原始数据求得 与 ,且满足 ,则建立判别准则为:对一个新样品 代入判别函数中去,所取得的值记为y,若yy0,则判定 ;若yy0,则判定 。如果 ,判别准则则相反。)1(y)2(y21)2(2)1(10nnynyny)1(y)2(y)1(y)2(y),(1pxxX1GX 2GX)1(y)2(y 则利用微积分求极值的必要条件可求出使I 达到最大值。FQI 或(1)(2)012y

40、yy第68页,此课件共90页哦(3)计算步骤i)建立判别函数n求 的最大值点 ,根据极值原理,需解方程组n可得到 ,写出判别函数:)c,(c)c,(c p1p1FQI p21c,c,c1ln0 ln0pIcIc p1c,c ppxcxcy11第69页,此课件共90页哦70ii)计算判别临界值 ,然后根据判别准则对新样品判别分类。iii)检验判别效果(当两个总体协差阵相同且总体服从正态分布)。n检验统计量:n其中0y2112)2(1)1(0:H :aaExExH021212()12(2)1(,1)(2)HnnpFTF p nnpnnp在成立)()()2()2()1(21211)2()1(2121

41、212XXnnnnSXXnnnnnnT211)2()2()2()2(1)1()1()1()1()()(,)(najajiainajajiaiijppijxxxxxxxxssS),()()(1)(ipiixxX第70页,此课件共90页哦71n给定检验水平a,查F分布表,确定临界值 ,若 ,则 被否定,认为判别有效。否则认为判别无效。aFaFF 0H第71页,此课件共90页哦结论 考虑比 根据Fisher的思想我们要选择 使得比值达到最大。利用最大值引理,当 时,比值达到最大。特别取 时线性函数 称为Fisher线性判别函数。QIFc)0)()2()1(1的常数ddc1dXXcyTT1)2()1(

42、)(第72页,此课件共90页哦 设在 维总体的情况下,的线性组合为 其中 为 维向量。设 和 的均值向量分别为 和 ,且有公共的协方差阵 。那么线性组合 的均值为 pXXcyTcp1X2X)1()2()0(XcyT)2(22)1(11)|()|(TyTycXXyEcXXyE第73页,此课件共90页哦 令则有于是Fisher判别准则为:)()()()()2()1(1)2()1(21)2()1(212121TTyyckkXXkXXyy221121)2()1(11)2()1()()(XXkXXXkXTT第74页,此课件共90页哦注意到Fisher判别准则可写为:这就是马氏距离最小判别准则。)()()

43、()()()()()2()1(1)2()1(21)2()1(1)2()1(211)2()1(1)2()1(TTTTXXkXXW210)(0)(XXXWXXXW第75页,此课件共90页哦76例子n已知云南某地盐矿分为钾盐及非钾盐(即钠盐)两类。现我们已掌握有两类盐矿有关历史样本数据如下表7-1所示。第76页,此课件共90页哦77为对待判样本进行判别,需要进行判别分析。可以求出判别函数为:n根据上述判别函数,可求得:n使用上述判别函数进行回判,正确回判率为V=100%。n对上述两类进行显著性检验,n说明A,B两类差异显著,判别效果是有效的。12340.55040.49840.99190.0852Y

44、XXXX()6.518Y A()2.197Y B 04.358Y 4.11)5,4(306.67)5,4(01.0FF第77页,此课件共90页哦78n待判样品结果为:第78页,此课件共90页哦79二、多总体二、多总体Fisher判别法判别法 n设有k个总体G1,Gk,抽取样品数分别为 ,令 为第i个总体的第a个样品的观测向量n假定所建立的判别函数为 其中 knnn,21knnnn21()()()1(,)iiiTaaapxxxxcxcxcxypp11)(),(,),(11ppxxxccc第79页,此课件共90页哦记 和 分别是总体 内x的样本均值向量和样本协差阵,根据求随机变量线性组合的均值和方

45、差的性质可知,在上的样本均值和样本方差为n记 为总的均值向量,则 。n在多总体情况下,Fisher准则就是要选取系数向量c,使n达到最大,其中 是人为的正的加权系数,它可以取为先验概率。如果取 ,并将 代入上式可化为:)(ix)(isiG)(xy()()2()i11,kiiiiiiyc xc s c xn xnxxcykiiikiiiqyyn1212)()(iq1iinqcscxcyxcyiiii)(2)()(,EccAcc)(第80页,此课件共90页哦81其中E为组内离差阵,A为总体之间样本协差阵,即我们选择,使得上式达到最大,为了方便,我们约定kiiisqE1)(kiiiixxxxnA1)

46、()()(c1Tc Ec 第81页,此课件共90页哦 定理 设 为 的 个非零特征值,为相应的特征向量(满足 ),则 时使得 式达到最大,称 为第一判别函数。除去 ,则 是在约束条件 之下使得 式达到最大的解,称 为第二判别函数。类推下去,除去 ,则 是在约束条件 之下使得 式达到最大,称 为第 个判别函数。021s1E Bs),1min(pqsseee21,IeeT11ec)(xexcTT11xcT122ec 0),cov(21xcxcTTxexcTT2211,TTmc xcxmmcecov(,)0,2,TTmic x c xim ms)()(TTmmc xe xm第82页,此课件共90页哦

47、83于是可构造m个判别函数:n对于每一个判别函数必须给出一个用以衡量判别能力的指标 定义为:()()l1,mlly xcxipm,1,l 1miilip第83页,此课件共90页哦84m0个判别函数个判别函数 的判别能力定义为:的判别能力定义为:n如果spm0达到某个特定的值(比如85%),则就认为m0个判别函数就够了。n有了判别函数之后,如何对待判的样品进行分类?Fisher判别法本身并未给出最合适的分类法,在实际工作中可以选用下列分类法之一去作分类。01,myy 0001111mlmiimllmpsp第84页,此课件共90页哦85(1)当取当取m0=1时(即只取一个判别函数),此时有时(即只

48、取一个判别函数),此时有两种可供选用的方法。两种可供选用的方法。ni)不加权法若 则判nii)加权法将 按大小次序排列,记为 ,相应判别函数的标准差重排为 。令则 可作分界点。如果x使得 ,则判 。)(1)()(min)(jkjiyxyyxy.iGx)()2()1(,kyyy)()2()1(kyyy)(i1-k,1,i )()()1()1()()()1(1,iiiiiiiiyyd1,iid1,1)(iiiidxydixG第85页,此课件共90页哦86(2)当取当取 时,也有类似两种供选用的方法时,也有类似两种供选用的方法 i)不加权法 记 对待判样品 ,计算 若 则判 。10mkixcyili

49、l,1;m,1,l 0)()()(),(1pxxxxcxyll)()(012)(2k,1,i )(mlilliyxyD,min212ikirDDrGx第86页,此课件共90页哦ii)加权法 考虑到每个判别函数的判别能力不同,记 其中 是 的非零特征根。若 则判 。l1E B,min212ikirDDrGx012)(2)(mllilliyxyD第87页,此课件共90页哦88第五节第五节 逐步判别法逐步判别法一、基本思想一、基本思想类似于逐步回归的思想,采用“有进有出”的算法。按照变量的重要程度,逐步引入变量,在引入新变量后,同时对差别函数中的变量进行剔除,最后直到差别函数中没有不重要的变量需要剔

50、除,同时也没有重要的变量可引入进来,此时筛选变量过程结束。二、基本原理二、基本原理AT 第88页,此课件共90页哦89 将样本分成两部分,一部分用于确定判别函数,另一部分用于检查判别的效果。如果样本量很大,可将样本平均地或随机地分成两部分。选择变量选择变量 (1)和判别分析的目的密切相关 (2)反映要判类变量的特征 (3)在不同研究对象上的值有明显的差异 确定分析样本和验证样本确定分析样本和验证样本 判别分析主要步骤第89页,此课件共90页哦90 估计判别函数估计判别函数 选择某种方法建立判别规则,有距离判别、贝叶斯判别和典型判别.计算错判比率和正确判定的比率。将判别函数用于验证样本,通过验证

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁