《数学建模培训市公开课一等奖百校联赛特等奖课件.pptx》由会员分享,可在线阅读,更多相关《数学建模培训市公开课一等奖百校联赛特等奖课件.pptx(46页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数数 学学 建建 模模 培培 训训第第 十十 章章多元统计分析多元统计分析 第第 十十 章章多元统计分析多元统计分析 主主 讲:孙讲:孙 中中 奎奎第1页1问题引入问题引入2思绪点拨思绪点拨3判别分析方法判别分析方法4DNA序列分类问题求解序列分类问题求解5.参考文件参考文件目目 录录第2页 首先,我们来考虑一下“网易杯”全国大学生数学建模竞赛A题是关于“DNA序列分类”问题 1问题引入问题引入第3页 人类基因组中人类基因组中DNA全序列是由全序列是由4个碱基个碱基A,T,C,G按一定次序排成长约按一定次序排成长约30亿序列,亿序列,毫无疑问,这是一本统计着人类本身生老毫无疑问,这是一本统计着
2、人类本身生老病死及遗传进化全部信息病死及遗传进化全部信息“天书天书”。不过,。不过,除了这四种碱基外,人们对它所包含内容除了这四种碱基外,人们对它所包含内容知之甚少,怎样破译这部知之甚少,怎样破译这部“天书天书”是二十是二十一世纪最主要任务之一。在这个目标中,一世纪最主要任务之一。在这个目标中,研究研究DNA全序列含有什么结构,由这全序列含有什么结构,由这4个字个字符排成看似随机序列中隐藏着什么规律,符排成看似随机序列中隐藏着什么规律,又是解读这部天书基础,是生物信息学又是解读这部天书基础,是生物信息学(Bioinformatics)最主要课题之一。)最主要课题之一。第4页即使人类对这部即使人
3、类对这部“天书天书”知之甚少,但也知之甚少,但也发觉了发觉了DNA序列中一些规律性和结构。比如,序列中一些规律性和结构。比如,在全序列中有一些是用于编码蛋白质序列在全序列中有一些是用于编码蛋白质序列片段,即由这片段,即由这4个字符组成个字符组成64种不一样种不一样3字字符串,其中大多数用于编码组成蛋白质符串,其中大多数用于编码组成蛋白质20种氨基酸。又比如,在不用于编码蛋白质种氨基酸。又比如,在不用于编码蛋白质序列片段中,序列片段中,A和和T含量尤其多些,于是以含量尤其多些,于是以一些碱基尤其丰富作为特征去研究一些碱基尤其丰富作为特征去研究DNA序列序列结构也取得了一些结果。另外,利用统计结构
4、也取得了一些结果。另外,利用统计方法还发觉序列一些片段之间含有相关性,方法还发觉序列一些片段之间含有相关性,等等。这些发觉让人们相信,等等。这些发觉让人们相信,DNA序列中存序列中存在着局部和全局性结构,充分发掘序列结在着局部和全局性结构,充分发掘序列结构对了解构对了解DNA全序列是十分有意义。全序列是十分有意义。第5页作为研究作为研究DNA序列结构尝试,试对以下序列进行序列结构尝试,试对以下序列进行分类:分类:问题一:下面有问题一:下面有20个已知类别人工制造序列(见个已知类别人工制造序列(见附件附件1),其中序列标号),其中序列标号110 为为A类,类,11-20为为B类。请从中提取特征,
5、结构分类方法,并用这些类。请从中提取特征,结构分类方法,并用这些已知类别序列,衡量你方法是否足够好。然后用已知类别序列,衡量你方法是否足够好。然后用你认为满意方法,对另外你认为满意方法,对另外20个未标明类别人工序个未标明类别人工序列(标号列(标号2140)进行分类,把结果用序号(按)进行分类,把结果用序号(按从小到大次序)标明它们类别(无法分类不写入):从小到大次序)标明它们类别(无法分类不写入):A类类 ;B类类 。第6页问题二:请对问题二:请对 182个自然个自然DNA序序列列(http:/ 问题本问题本 质质对另外对另外20个未标明类别个未标明类别DNA序列进行分类序列进行分类 依据依
6、据所给所给20个个已知已知类别类别DNA序列序列所提所提供信供信息息 对对182个自然个自然DNA序列进行分类序列进行分类 第8页 假如将每一个假如将每一个DNADNA序列都看作样本,那序列都看作样本,那么该问题就深入提炼成一个纯粹数学问题:么该问题就深入提炼成一个纯粹数学问题:设有两个总体(类)设有两个总体(类)和和 ,其分其分布特征(来自各个总体样本)已知,对给布特征(来自各个总体样本)已知,对给定新品定新品 ,我们需要判断其属于哪个,我们需要判断其属于哪个总体(类)。总体(类)。对于上面数学问题,能够用很多成熟方对于上面数学问题,能够用很多成熟方法来处理,比如:法来处理,比如:(1 1)
7、BPBP神经网络;神经网络;(2 2)聚类分析;)聚类分析;(3 3)判别分析;等等。)判别分析;等等。第9页 怎样选取方法是建模过程中需要处理另外一个问怎样选取方法是建模过程中需要处理另外一个问题:题:BPBP神经网络是人工神经网络一个,它经过对训练神经网络是人工神经网络一个,它经过对训练样本学习,提取样本隐含信息,进而对新样本类别进样本学习,提取样本隐含信息,进而对新样本类别进行预测。行预测。BPBP神经网络能够用以处理上面神经网络能够用以处理上面DNADNA序列分类问序列分类问题,不过,怎样提取特征、怎样提升网络训练效率、题,不过,怎样提取特征、怎样提升网络训练效率、怎样提升网络容错能力
8、、怎样建立网络结构是能否成怎样提升网络容错能力、怎样建立网络结构是能否成功处理功处理DNADNA序列分类问题关键所在;聚类分析和判别分序列分类问题关键所在;聚类分析和判别分析都是多元统计分析中经典方法,都能够用来将对象析都是多元统计分析中经典方法,都能够用来将对象(或观察值)分成不一样集合或类别,不过,聚类分(或观察值)分成不一样集合或类别,不过,聚类分析更侧重于析更侧重于“探索探索”对象(或观察值)自然分组方式,对象(或观察值)自然分组方式,而判别分析则侧重于将未知类别对象(或观察值)而判别分析则侧重于将未知类别对象(或观察值)“归结归结”(或者说,分配)到已知类别中。显然,判别(或者说,分
9、配)到已知类别中。显然,判别分析更适适用来处理上面分析更适适用来处理上面DNADNA序列分类问题。序列分类问题。第10页3判别分析方法判别分析方法 判别分析是用于判别样品所属类别一个多判别分析是用于判别样品所属类别一个多元统计分析方法。判别分析问题都能够这么描元统计分析方法。判别分析问题都能够这么描述:设有述:设有 个个 维总体维总体 ,其分布特征,其分布特征已知(如已知分布函数分别为已知(如已知分布函数分别为 或者或者已知来自各个总体样本),对给定一个新样品已知来自各个总体样本),对给定一个新样品 ,我们需要判断其属于哪个总体。普通来说,我们需要判断其属于哪个总体。普通来说,依据判别规则不一
10、样,能够得到不一样判别方依据判别规则不一样,能够得到不一样判别方法法,比如,距离判别、贝叶斯(,比如,距离判别、贝叶斯(Bayes)判别、)判别、费希尔(费希尔(Fisher)判别、逐步判别、序贯判别等。)判别、逐步判别、序贯判别等。这里,我们简单介绍三个惯用判别方法:距离这里,我们简单介绍三个惯用判别方法:距离判别、贝叶斯(判别、贝叶斯(Bayes)判别和费希尔)判别和费希尔(Fisher)判别。)判别。第11页判判 别别 分分 析析 方方 法法1.距离判别距离判别2.贝叶斯(贝叶斯(Bayes)判别)判别3.费希尔(费希尔(Fisher)判别)判别4.判别分析模型判别分析模型 显著性检验显
11、著性检验 第12页3.1 距离判距离判别别 距离判别基本思想:样品距离判别基本思想:样品 X X离离哪个总体距离最近,就判断哪个总体距离最近,就判断 X X 属于哪个总体。属于哪个总体。这里这里“距离距离”是通常意义下距离是通常意义下距离(欧几里得距离:在(欧几里得距离:在 m m 维欧几里得空维欧几里得空间间 R R 中,两点中,两点 与与 欧几里得距离,也就是欧几里得距离,也就是通常我们所说距离为通常我们所说距离为 )吗?)吗?带着这个疑问,我们来考虑这么带着这个疑问,我们来考虑这么一个问题一个问题:第13页 设有两个正态总体设有两个正态总体 ,和和 ,现在有一个新样品位于现在有一个新样品
12、位于 A A 处(参见图处(参见图1 1)从图中不难看出:从图中不难看出:,是否,是否 A A 处处样品属于总体样品属于总体 呢?呢?图图 1第14页 显然不是,因为从概率角度来看,总显然不是,因为从概率角度来看,总体体 样本比较分散,而总体样本比较分散,而总体 样本则非样本则非常集中,所以常集中,所以 处样品属于总体处样品属于总体 概率概率显著大于属于总体显著大于属于总体 概率,也就是说,概率,也就是说,处样品属于总体处样品属于总体 “可能性可能性”显著大于显著大于属于总体属于总体 “可能性可能性”!这也说明了用!这也说明了用欧几里得距离来度量样品到总体距离不欧几里得距离来度量样品到总体距离
13、不足。所以,需要引入新距离概念足。所以,需要引入新距离概念这这就是下面给出马氏距离。就是下面给出马氏距离。第15页定义定义1 1(马氏距离):设总体(马氏距离):设总体 G 为为 m 维总体维总体 (m m 个原因或指标),其均个原因或指标),其均值向量为值向量为 (这里(这里 T T 表示表示转置),协方差阵为转置),协方差阵为 ,则样品,则样品 到总体到总体 G G 马马氏距离定义为氏距离定义为第16页3.1.1 3.1.1 两总体距离判别两总体距离判别 先考虑两个总体(先考虑两个总体()情况。设有)情况。设有两个总体两个总体 和和 ,和和 分别是分别是 和和 协方差协方差阵,阵,和和 分
14、别是分别是 和和 均值。对于新样品均值。对于新样品 ,需要判断它来自那个总体。,需要判断它来自那个总体。设来自设来自 ()训练样本为)训练样本为其中其中 表示来自哪个总体,表示来自哪个总体,表示来自总体表示来自总体 样本量。样本量。第17页要判断新样品要判断新样品 来自哪个总体,普通想法是分别来自哪个总体,普通想法是分别计算新样品到两个总体马氏距离计算新样品到两个总体马氏距离 和和 :假如假如 则判定则判定 ;反之,假如反之,假如 则判定则判定 :即即 (1 1)A.A.时判别方法时判别方法第18页其中其中 ,记记 为了得到更简单判别规则,我们下面计为了得到更简单判别规则,我们下面计算新样品到
15、两个总体马氏距离算新样品到两个总体马氏距离 和和 差差第19页显然,判别规则(显然,判别规则(1 1)式等价于)式等价于 (2 2)通常,称通常,称 为判别系数向量称为判别系数向量称 为线性判别函数。为线性判别函数。注意判别准则(注意判别准则(1 1)式或者()式或者(2 2)式将)式将 维空间维空间 划分成两部分:划分成两部分:和和 也即也即 。距离判别实质就是:给出空。距离判别实质就是:给出空间间 一个划分一个划分 和和 ,假如样品,假如样品 落入落入 之中,则判之中,则判定定 ;假如样品;假如样品 落入落入 之中,则判定之中,则判定 。第20页 当当 时,依据判别准则(时,依据判别准则(
16、1 1)式,我们一)式,我们一样给出判别函数样给出判别函数 为为对应判别规则为对应判别规则为 (3 3)B.B.时判别方法时判别方法第21页 在实际应用中,总体均值和协方差阵普通是在实际应用中,总体均值和协方差阵普通是未知,我们所知道仅仅是一组样本或者观察值,未知,我们所知道仅仅是一组样本或者观察值,在这种情况下,就需要利用数理统计知识,对在这种情况下,就需要利用数理统计知识,对 进行预计。进行预计。利用已知样本,易得利用已知样本,易得 无偏预无偏预计分别为计分别为C.C.预计预计 第22页 对于多个总体情况,能够类似于两个总体处理对于多个总体情况,能够类似于两个总体处理过程,我们给出以下步骤
17、:过程,我们给出以下步骤:第一步:计算样品第一步:计算样品 到每个总体马氏距离到每个总体马氏距离 ;第二步:比较第二步:比较 大小,将样品大小,将样品 判为距离最小那个总体。判为距离最小那个总体。假如均值为:假如均值为:和协方差:和协方差:未知,能够类似两个总体情形利用训练样原来进行未知,能够类似两个总体情形利用训练样原来进行预计。这里不再赘述。预计。这里不再赘述。3.1.2 多总体距离判别多总体距离判别第23页3.1.3 3.1.3 距离判别不足距离判别不足 距离判别方法简单实用,轻易实现,而且距离判别方法简单实用,轻易实现,而且结论意义明确。不过,距离判别没有考虑:结论意义明确。不过,距离
18、判别没有考虑:(1 1)各总体本身出现可能性在距离判别中没)各总体本身出现可能性在距离判别中没有考虑;有考虑;(2 2)错判造成损失在距离判别中也没有考虑。)错判造成损失在距离判别中也没有考虑。在很多情况下,不考虑上面两种原因是不在很多情况下,不考虑上面两种原因是不合理。贝叶斯(合理。贝叶斯(BayesBayes)判别方法克服了距离判)判别方法克服了距离判别不足。别不足。第24页与前面距离判别方法不一样是:所谓贝与前面距离判别方法不一样是:所谓贝叶斯(叶斯(BayesBayes)判别,就是在考虑各总体)判别,就是在考虑各总体先验概率和错判损失情况下,给出空间先验概率和错判损失情况下,给出空间
19、一个划分:一个划分:,使得利用此划分来判别归类时,所带来使得利用此划分来判别归类时,所带来平均错判损失最小。平均错判损失最小。3.2 贝叶斯判别贝叶斯判别第25页贝叶斯(贝叶斯(BayesBayes)判别问题数学描述为:设有)判别问题数学描述为:设有 个个 维总体维总体 ,其密度函数分别为,其密度函数分别为 ,若已知这若已知这 个总体各自出现概率(先验概率)个总体各自出现概率(先验概率)为为 (,且,且 ),假设已知将原来属于总体),假设已知将原来属于总体 样品错判为总体样品错判为总体 所造成损失为所造成损失为 。在这么情形下,对于新样品在这么情形下,对于新样品 ,需要判断它,需要判断它来自那
20、个总体。来自那个总体。为了给出贝叶斯(为了给出贝叶斯(BayesBayes)判别准则,我们)判别准则,我们从下面几个方面来讨论:从下面几个方面来讨论:第26页 先验概率表示对各总体先知认识,或者说,事先验概率表示对各总体先知认识,或者说,事先对所研究问题所含有认识。普通来说,先验概先对所研究问题所含有认识。普通来说,先验概率并不轻易取得,其更多来自于长久累积经验。率并不轻易取得,其更多来自于长久累积经验。先验概率能够经过下面几个赋值方法得到:先验概率能够经过下面几个赋值方法得到:1.1.基于经验或者历史资料进行预计;基于经验或者历史资料进行预计;2.2.利用训练样本中各种样品所占百分比利用训练
21、样本中各种样品所占百分比 作作为为 值。其中值。其中 表示第表示第 类总体样品数,类总体样品数,是总训练样本数,该方法要求训练样本是经过随是总训练样本数,该方法要求训练样本是经过随机抽样得到;机抽样得到;3.3.假定假定 。A.A.确定先验概率确定先验概率第27页 这里用这里用 表示将原来属于总体表示将原来属于总体 样品错判为总样品错判为总体体 概率,即误判概率,显然,依据概率定义,易得:概率,即误判概率,显然,依据概率定义,易得:()(4 4)实际上,(实际上,(4 4)式几何意义是很显著,见图)式几何意义是很显著,见图2 2。B.B.确定错判概率确定错判概率 图图2 2表示是两个正态总体误
22、判概率示意图。表示是两个正态总体误判概率示意图。第28页误判概率预计方法有以下几个:误判概率预计方法有以下几个:(1 1)利用训练样本为检验集,用判别方法)利用训练样本为检验集,用判别方法对训练样本进行判断,统计误判样本个数,计对训练样本进行判断,统计误判样本个数,计算误判样本占总样本百分比,并作为误判概率算误判样本占总样本百分比,并作为误判概率预计值;预计值;(2 2)当训练样本足够大时,从训练样本中)当训练样本足够大时,从训练样本中预留一部分作为检验集,并统计判错比率,作预留一部分作为检验集,并统计判错比率,作为误判概率预计值;为误判概率预计值;(3 3)利用舍一法:每次预留一个样原来检)
23、利用舍一法:每次预留一个样原来检验,用剩下验,用剩下 样本建立判别准则,循环检验样本建立判别准则,循环检验完全部训练样本,统计判错比率,以此作为误完全部训练样本,统计判错比率,以此作为误判概率预计值。判概率预计值。第29页C.C.确定错判损失确定错判损失 错判必定带来损失。现实中,错判损失错判必定带来损失。现实中,错判损失普通来说极难定量给出。不过能够利用赋值普通来说极难定量给出。不过能够利用赋值法来确定:法来确定:(1)依据经验或者实际问题特征人为依据经验或者实际问题特征人为 确定;确定;(2)假设各种误判损失都相等。假设各种误判损失都相等。第30页 基于前面讨论,利用概率知识:判别法基于前
24、面讨论,利用概率知识:判别法 将原来属于总体将原来属于总体 样本错判给其它总体平样本错判给其它总体平均损失为均损失为那么,关于先验概率平均错判损失那么,关于先验概率平均错判损失 为为 (5 5)假如能找到假如能找到 使得平均损失使得平均损失 到达最小,那么到达最小,那么 就称为贝叶斯(就称为贝叶斯(BayesBayes)判别解。判别解。D.D.确定平均损失确定平均损失第31页定理定理1 1:设有:设有 个总体:个总体:,已知,已知 联合密度函数为联合密度函数为 ,先验概率为,先验概率为 ,错判损失为,错判损失为 ,则贝,则贝叶斯(叶斯(BayesBayes)判别解)判别解为为 其中其中 (6
25、6)下面给出贝叶斯(下面给出贝叶斯(BayesBayes)判别解主要结论)判别解主要结论:第32页 3.3 3.3 费希尔判别费希尔判别 费希尔判别基本思想:借助于方差分析思费希尔判别基本思想:借助于方差分析思想,利用投影将想,利用投影将 元数据投影到某一个方向,使元数据投影到某一个方向,使得投影后组与组之间差异尽可能大,然后依据一得投影后组与组之间差异尽可能大,然后依据一定判别规则对新样本类别进行判断。定判别规则对新样本类别进行判断。首先结构一个线性判别函数首先结构一个线性判别函数 (7 7)可见上面函数将可见上面函数将 元数据投影到了一个方向,元数据投影到了一个方向,系数系数 确实定标准是
26、使得总确实定标准是使得总体间差异最大,总体内部离差最小。体间差异最大,总体内部离差最小。第33页A.A.确定线性判别函数确定线性判别函数 设有设有 个个 元总体:元总体:,它们均值为:,它们均值为:;协方差为:;协方差为:。在在 条件下,有条件下,有 令令这里这里确定确定 ,使得,使得 个总体间差异最大,总体内部离差个总体间差异最大,总体内部离差最小,则最小,则 应该到达最大。应该到达最大。第34页为了确保为了确保 唯一性,不妨设唯一性,不妨设 。所以,问题转化。所以,问题转化为:在条件为:在条件 约束下,求约束下,求 使得使得 式到达式到达最大最大这是大家非常熟悉条件极值问题。依据拉格朗这是
27、大家非常熟悉条件极值问题。依据拉格朗日乘子法:日乘子法:求解得求解得 (8 8)由方程(由方程(8 8)第一式知,)第一式知,是是 特征根,特征根,是对是对应特征向量。能够证实应特征向量。能够证实 (大小能够衡量大小能够衡量判别函数判别函数 判别效果,故称判别效果,故称 为判别效率)为判别效率)。设。设 非零特征根为非零特征根为 ,对应满足约束,对应满足约束条件特征向量为条件特征向量为 ,显然,取,显然,取 时时 到达最大。到达最大。第35页B.B.确定判别规则确定判别规则 假设系数假设系数 已经求出,那么已经求出,那么线性判别函数线性判别函数 就完全确定下来,对于就完全确定下来,对于一个新样
28、品一个新样品 ,能够结构下面判别规则:,能够结构下面判别规则:(9 9)第36页3.4 3.4 判别分析模型显著性检验判别分析模型显著性检验 建立了判别分析模型以后还需要对模型进行评建立了判别分析模型以后还需要对模型进行评价,这就需要对判别分析模型显著性进行检验,主要价,这就需要对判别分析模型显著性进行检验,主要包含两个方面:判别效果检验和各变量判别能力检验包含两个方面:判别效果检验和各变量判别能力检验11,22。所谓判别效果检验就是检验。所谓判别效果检验就是检验 k k 个总体均值个总体均值是否有显著差异,反应了采取判别分析模型有效性问是否有显著差异,反应了采取判别分析模型有效性问题;各变量
29、判别能力检验反应是各指标(原因)对判题;各变量判别能力检验反应是各指标(原因)对判别分类所起作用时候显著。详细检验方法因为过于复别分类所起作用时候显著。详细检验方法因为过于复杂,这里不再赘述。杂,这里不再赘述。需要说明是,作为多元统计分析中经典方法,需要说明是,作为多元统计分析中经典方法,判别分析在许多关于多元统计分析教材中都有详细而判别分析在许多关于多元统计分析教材中都有详细而深刻叙述。深刻叙述。第37页4 4DNADNA序列分类问题求解序列分类问题求解 关于关于DNADNA序列分类问题讨论和分析,我们在第序列分类问题讨论和分析,我们在第1 1部分和第部分和第2 2部分已经作了详细分析和讨论
30、。这里,我们部分已经作了详细分析和讨论。这里,我们将依据多元统计分析知识建立判别分析模型来求解将依据多元统计分析知识建立判别分析模型来求解DNADNA序列分类问题(这里只求解问题一)。序列分类问题(这里只求解问题一)。首先,需要提取每条序列所蕴含特征首先,需要提取每条序列所蕴含特征因为因为将序列全部信息都作为指标(原因)来建立判别模型将序列全部信息都作为指标(原因)来建立判别模型是不可能。是不可能。第38页A.A.特征提取特征提取 DNA DNA序列中所蕴含信息是非常丰富,所以,怎样提序列中所蕴含信息是非常丰富,所以,怎样提取特征、提取什么特征是一个非常困难问题取特征、提取什么特征是一个非常困
31、难问题这个这个问题包括到生物学知识,此处将不深入展开讨论。我问题包括到生物学知识,此处将不深入展开讨论。我们考虑采取序列中们考虑采取序列中4 4个碱基个碱基A A,T T,C C,G G含量百分比作为含量百分比作为DNADNA序列特征。序列特征。为了便于讨论,我们用为了便于讨论,我们用 表示碱基表示碱基A A在序列中所占在序列中所占百分比;百分比;表示碱基表示碱基T T在序列中所占百分比;在序列中所占百分比;表示碱基表示碱基C C在序列中所占百分比;在序列中所占百分比;表示碱基表示碱基G G在序列中所占百分在序列中所占百分比。因为,比。因为,+=1+=1,所以,所以 、和和 中只有三个变量是独
32、立,不失普通性,我们选中只有三个变量是独立,不失普通性,我们选取取 、和和 为指标,以为指标,以 表示第表示第 个个DNADNA序列特征向量,换句话说,序列特征向量,换句话说,“完全完全”代表第代表第 个个DNADNA序列。序列。第39页 正如前面第正如前面第2 2部分中所分析:在此部分中所分析:在此DNADNA序列分类问序列分类问题中,共有两个已知总体(类)题中,共有两个已知总体(类)(A A类)和类)和 (B B类),而且,训练样本共有类),而且,训练样本共有 个,其中,个,其中,前前1010个样本(记为个样本(记为 )属于总体(类)属于总体(类);后;后 10 10个样本(记为个样本(记
33、为 )属于总体)属于总体 (类)(类)。需要处理问题是:对给定新样品需要处理问题是:对给定新样品 ,我们需要,我们需要判断其属于哪个总体(类)。判断其属于哪个总体(类)。第40页B.B.建立判别模型建立判别模型 这里分别建立距离判别和费希尔(这里分别建立距离判别和费希尔(FisherFisher)判别)判别模型。模型。(1 1)距离判别模型)距离判别模型在距离判别模型中,首先需要预计总体(类)在距离判别模型中,首先需要预计总体(类)和和 均值均值 和协方差阵和协方差阵 ,利用前面,利用前面3.1.13.1.1小节公式,能够得到均值小节公式,能够得到均值 和协方差阵和协方差阵 无偏预计。无偏预计
34、。然后,计算样本然后,计算样本 到总体(类)到总体(类)和和 马氏距离马氏距离 ;依据判别准则(依据判别准则(1 1),可得:),可得:若若 ,则判定,则判定 为为A A类;类;若若 ,则判定,则判定 为为B B类。类。第41页(2 2)费希尔判别模型)费希尔判别模型 首先,确定判别函数首先,确定判别函数 利用费希尔利用费希尔(Fisher)(Fisher)判别准则,能够判别准则,能够求出求出 确定了判别函数,就能够依据费希尔确定了判别函数,就能够依据费希尔(Fisher)(Fisher)判别准则(判别准则(9 9)式,判断新)式,判断新DNADNA序序列类别问题了。列类别问题了。第42页C.
35、C.模型求解和软件实现模型求解和软件实现 判别分析计算机实现是非常简单,利用Matlab和SPSS等软件都能够进行判别分析。经过计算,结果以下:(1)距离判别:利用上面算法对已知类别训练本进行判定,结果为:A类:1,2,3,5,6,7,8,9,10B类:4,11,12,13,14,15,16,17,18,19,20只有第4个样本发生了误判,故正确率为95%。利用上面算法对21-40进行分类,结果为A类:22,23,25,27,29,30,32,33,34,35,36,37B类:21,24,26,28,31,38,39,40第43页(2 2)费希尔判别)费希尔判别 利用上面算法对已知类别训练本进
36、行判定,结果利用上面算法对已知类别训练本进行判定,结果为:为:A A类:类:1 1,2 2,3 3,5 5,6 6,7 7,8 8,9 9,1010 B B类:类:4 4,1111,1212,1313,1414,1515,1616,1717,18 18,1919,2020 只有第只有第4 4个样本发生了误判,故正确率为个样本发生了误判,故正确率为95%95%。利用上面算法对利用上面算法对21-4021-40进行分类,结果为:进行分类,结果为:A A类:类:2222,2323,2525,2727,2929,34 34,3535,3636,3737B B类:类:2121,2424,2626,282
37、8,3030,3131,3232,3333,38 38,39 39,4040第44页参考文件参考文件1 1 高惠璇,应用多元统计分析,北京大学出版社,高惠璇,应用多元统计分析,北京大学出版社,。2 2 张尧庭张尧庭,方开泰,多元统计分析引论,科学出版社,方开泰,多元统计分析引论,科学出版社,1982 1982。3 3 陈家鼎,孙山泽,李东风,数理统计学讲义,高等教陈家鼎,孙山泽,李东风,数理统计学讲义,高等教 育出版社,育出版社,19981998。4 4 梁之舜,邓集贤,杨维权等,概率论与数理统计(第梁之舜,邓集贤,杨维权等,概率论与数理统计(第 二版)(上),高等教育出版社,二版)(上),高等教育出版社,19981998。5 5 朱建平,应用多元统计分析,科学出版社,。朱建平,应用多元统计分析,科学出版社,。6 6 全国大学生数学建模竞赛优异论文汇编(全国大学生数学建模竞赛优异论文汇编(1999-1999-),中国物价出版社,。),中国物价出版社,。第45页第46页