判别分析中Fisher判别法的应用.docx-淘文阁

资源描述

《判别分析中Fisher判别法的应用.docx》由会员分享，可在线阅读，更多相关《判别分析中Fisher判别法的应用.docx（12页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、1 绪论课题背景随着社会经济不断开展，科学技术的不断进步，人们已经进入了信息时代，要在大量的信息中获得有科学价值的结果，从而统计方法越来越成为人们必不可少的工具与手段。多元统计分析是近年来开展迅速的统计分析方法之一，应用于自然科学与社会各个领域，成为探索多元世界强有力的工具。判别分析是统计分析中的典型代表，判别分析的主要目的是识别一个个体所属类别的情况下有着广泛的应用。潜在的应用包括预测一个公司是否成功；决定一个学生是否录取；在医疗诊断中，根据病人的多种检查指标判断此病人是否有某种疾病等等。它是在观测对象的分类结果与假设干说明观测对象特征的变量值的情况下，建立一定的判别准那么，使得利用判别准

2、那么对新的观测对象的类别进展判断时，出错的概率很小。而Fisher判别方法是多元统计分析中判别分析方法的常用方法之一，能在各领域得到应用。通常用来判别某观测量是属于哪种类型。在方法的具体实现上，采用国内广泛使用的统计软件SPSSStatisticalProductandServiceSolutions,它也是美国SPSS公司在20世纪80年代初开发的国际上最流行的视窗统计软件包之一 Fisher判别法的概述根据判别标准不同，可以分为距离判别、Fisher判别、Bayes判别法等。Fisher判别法是判别分析中的一种，其思想是投影，Fisher判别的根本思路就是投影，针对P维空间中的某点x=(x

3、1，x2，x3，xp)寻找一个能使它降为一维数值的线性函数y(x)：然后应用这个线性函数把P维空间中的类别总体以及求知类别归属的样本都变换为一维数据，再根据其间的亲疏程度把未知归属的样本点判定其归属。这个线性函数应该能够在把P维空间中的所有点转化为一维数值之后，既能最大限度地缩小同类中各个样本点之间的差异，又能最大限度地扩大不同类别中各个样本点之间的差异，这样才可能获得较高的判别效率。在这里借用了一元方差分析的思想，即依据组间均方差与组内均方差之比最大的原那么来进展判别。1.3 算法优缺点分析优点：1一般对于线性可分的样本，总能找到一个投影方向，使得降维后样本仍然线性可分，而且可分性更好即不

4、同类别的样本之间的距离尽可能远，同一类别的样本尽可能集中分布。2Fisher方法可直接求解权向量；3Fisher的线性判别式不仅适用于确定性模式分类器的训练，而且对于随机模式也是适用的，Fisher还可以进一步推广到多类问题中去缺点：1如果，那么样本线性不可分；，未必线性可分；不可逆，未必不可分。2对线性不可分的情况，Fisher方法无法确定分类2实验原理2.1 线性投影与Fisher准那么函数各类在维特征空间里的样本均值向量：， (2.5-2)通过变换映射到一维特征空间后，各类的平均值为：， (2.5-3)映射后，各类样本“类内离散度定义为：， (2.5-4)显然，我们希望在映射之后，两

5、类的平均值之间的距离越大越好，而各类的样本类内离散度越小越好。因此，定义Fisher准那么函数： (2.5-5)使最大的解就是最正确解向量，也就是Fisher的线性判别式。2.2 求解从的表达式可知，它并非的显函数，必须进一步变换。：，, 依次代入(2.5-1)与(2.5-2)，有：， (2.5-6)所以： (2.5-7)其中： (2.5-8)是原维特征空间里的样本类内离散度矩阵，表示两类均值向量之间的离散度大小，因此，越大越容易区分。将(2.5-6)与(2.5-2)代入(2.5-4)式中： (2.5-9)其中：， (2.5-10)因此： (2.5-11)显然： (2.5-12)称为原维特征空

6、间里，样本“类内离散度矩阵。是样本“类内总离散度矩阵。为了便于分类，显然越小越好，也就是越小越好。将上述的所有推导结果代入表达式：可以得到：其中，是一个比例因子，不影响的方向，可以删除，从而得到最后解： (2.5-18)就使取得最大值，可使样本由维空间向一维空间映射，其投影方向最好。是一个Fisher线性判断式。这个向量指出了相对于Fisher准那么函数最好的投影线方向。2.3 Fisher算法步骤由Fisher线性判别式求解向量的步骤：把来自两类的训练样本集分成与两个子集与。由，计算。由计算各类的类内离散度矩阵，。计算类内总离散度矩阵。计算的逆矩阵。由求解。3 实验目的应用统计方

7、法解决模式识别问题的困难之一是维数问题，在低维空间行得通的方法，在高维空间往往行不通。因此，降低维数就成为解决实际问题的关键。Fisher的方法，实际上涉及维数压缩。如果要把模式样本在高维的特征向量空间里投影到一条直线上，实际上就是把特征空间压缩到一维，这在数学上容易办到。问题的关键是投影之后原来线性可分的样本可能变得混杂在一起而无法区分。在一般情况下，总可以找到某个最好的方向，使样本投影到这个方向的直线上是最容易分得开的。如何找到最好的直线方向，如何实现向最好方向投影的变换，是Fisher法要解决的根本问题。这个投影变换就是我们寻求的解向量本实验通过编制程序体会Fisher线性判别的根本思路

8、，理解线性判别的根本思想，掌握Fisher线性判别问题的实质。4 实验实例例题：根据我国东部沿海11个省市城镇居民家庭平均每人全年家庭收入的5个指标工薪收入、经营净收入、财产性收入与转移性收入数据将各省市城镇居民家庭分为高收入组与次高收入组，建立判别函数进而判定未分组省市的类别。通过国家统计局网站得到我国东部沿海11省市的城镇居民家庭平均每人全年家庭收入的5个指标工薪收入、经营净收入、财产性收入与转移性收入数据得到excel表格，并将11个省份划分为高收入组代号为1与次高收入组代号为2，分类如图2-1组别，将其导入spss得到如图4-1所示：4-1在SPSS中进展如下操作：步骤一在ana

9、lyze菜单中的classify子菜单中选择discriminant命令如4-2图所示。4-2步骤二在如图4-3所示的discriminant analyze对话框中，从左侧变量的变量列表中选择“工薪收入、“经营净收入、“财产性收入与“转移性收入变量，使之添加到independents框中4-3步骤三选择“组别变量使之添加到group ariable框中。这时group ariable框下的define range按钮变为可用，单击，弹出discriminant analyze：difine对话框如图4-4所示，并在minium中输入1，在maximum中输入2.4-4步骤四在discr

10、iminant analyze对话框中单击statistics按钮，弹出discriminant analyze：statistics对话框，如图4-5所示。4-5步骤五在discriminant analyze对话框中单击classify按钮弹出discriminant analyze：classification对话框，如图4-6所示4-6步骤六单击图4-3所示的discriminant analysis对话框中的ok键，完成操作。4.3得到分析结果如表4-1所示可知只有一个判别函数：D1=2.94*城镇居民家庭总收入-1.892*工资性收入+0.943*经营性收入-1.322*财产性

11、收入-1.112*转移性收入标准化的典型判别式函数系数函数1城镇居民家庭总收入工资性收入经营性收入.943财产性收入转移性收入表4-1由分析结果表4-2可知高收入组的Fisher线性判别函数为：次高收入组的Fisher判别函数为：F2=0.021*城镇居民家庭总收入-0.015*工资性收入+0.009*经营性收入-0.05*财产性收入-0.009*转移性收入-55.554。分类函数系数组别高收入次高收入城镇居民家庭总收入.025.021工资性收入经营性收入.014.009财产性收入转移性收入(常量)Fisher 的线性判别式函数表4-2将初始数据代入判别函数可得到表4-3，可知判别函数对初始

12、分组案例100%的进展了正确分类。由分析可知判别函数其中分别代表城镇居民家庭总收入、工资性收入、经营性收入、财产性收入、转移性收入又有高收入组各项指标的均值= 24632.8，18453.4，1826.2，703.4，6592.4 次高收入组各项指标的均值= 16178.16667，11553.66667，1480.333333，489.5，4210.666667 代入判别函数可得=30968.06 ，进而可得将剩余的省份代入判别函数如表4-4所示地区城镇居民家庭人均可支配收入工资性收入经营性收入财产性收入转移性收入判别函数值河北省71944674山西省42524045内蒙古自治区73736

13、43583吉林省14黑龙江省1256683571224894020安徽省1432734033江西省14河南省143729910湖北省1436713838湖南省444194060重庆市四川省贵州省1286390061云南省1442496421西藏自治区782181056陕西省1412910775544甘肃省1193096青海省12692934宁夏回族自治区142813636新疆维吾尔自治区122581279表4-4 根据表4-4：剩余未分类的省份都属于次高收入组。只有北京、上海、天津、广东、浙江属于高收入组，判别结果与我国东部沿海地区省市的城镇居民家庭收入较中西部高国情根本吻合。但是，由于先验组的收入水平普遍比拟高，因此临界值偏高，由此导致了内陆地区都划入次高收入组。从得到的判别函数可以看出城镇居民家庭人均可支配总收入是判别的最主要的因素，同时相对于其他的因素，财产性收入比重最小。因此要提高居民的家庭收入，首先要提高可支配收入，另外还要提高财产性收入，使其与其它因素的比重到达相近水平。第 12 页

展开阅读全文