资源描述
.\
判别分析的基本原理和模型
一、判别分析概述
(一)什么是判别分析
判别分析是多元统计中用于判别样品所属类型的一种统计分析方法,是一种在已知研究对象用某种方法已经分成若干类的情况下,确定新的样品属于哪一类的多元统计分析方法。
判别分析方法处理问题时,通常要给出用来衡量新样品与各已知组别的接近程度的指标,即判别函数,同时也指定一种判别准则,借以判定新样品的归属。所谓判别准则是用于衡量新样品与各已知组别接近程度的理论依据和方法准则。常用的有,距离准则、Fisher准则、贝叶斯准则等。判别准则可以是统计性的,如决定新样品所属类别时用到数理统计的显著性检验,也可以是确定性的,如决定样品归属时,只考虑判别函数值的大小。判别函数是指基于一定的判别准则计算出的用于衡量新样品与各已知组别接近程度的函数式或描述指标。
(二)判别分析的种类
按照判别组数划分有两组判别分析和多组判别分析;按照区分不同总体的所用数学模型来分有线性判别分析和非线性判别分析;按照处理变量的方法不同有逐步判别、序贯判别等;按照判别准则来分有距离准则、费舍准则与贝叶斯判别准则。
二、判别分析方法
(一)距离判别法
1.基本思想:首先根据已知分类的数据,分别计算各类的重心,即分组(类)均值,距离判别准则是对于任给一新样品的观测值,若它与第类的重心距离最近,就认为它来自第类。因此,距离判别法又称为最邻近方法(nearest neighbor method)。距离判别法对各类总体的分布没有特定的要求,适用于任意分布的资料。
2.两组距离判别
两组距离判别的基本原理。设有两组总体,相应抽出样品个数为,,每个样品观测个指标得观测数据如下,
总体的样本数据为:
该总体的样本指标平均值为:
总体的样本数据为:
该总体的样本指标平均值为:
现任取一个新样品,实测指标数值为=(),要求判断属于哪一类?
首先计算样品与、两类的距离,分别记为、,然后按照距离最近准则判别归类,即样品距离哪一类最近就判为哪一类;如果样品距离两类的距离相同,则暂不归类。判别准则写为:
,如果,
,如果,
待判,如果。
其中,距离的定义很多,根据不同情况区别选用。如果样品的各个变量之间互不相关或相关很小时,可选用欧氏距离。采用欧氏距离时,
=
=
然后比较和的大小,按照距离最近准则判别归类。
但实际应用中,考虑到判别分析常涉及到多个变量,且变量之间可能相关,故多用马氏距离。马氏距离公式为:
其中、、、分别是、的均值和协方差阵。
这时的判别准则分两种情况给出:
(1)当==时
=
=
令,同时记
则
所以判别准则写成:
,如果,
,如果,
待判,如果。
该规则取决于的值,因此被称为判别函数,也可以写成:
,其中。被称为线性判别函数。
作为特例,当时,两个总体的分布分别是和,判别函数为
或
(使用样本资料代替总体参数时)
不妨设,这时的符号取决于或。时,判;时,判。
两组距离判别法,简单容易理解,判别准则也是合理的,但是有时也会出现错判。如下图6.1,如果来自,但却落入,被错判为组,错判的概率为图中阴影的面积,记为,类似有,显然==。
图6.1
当两总体靠的比较近时,即两总体的均值差异较小的时候,无论用何种判别方法,错判的概率都比较大,这时的判别分析也是没有意义的。因此只有当两总体的均值有显著差异时,进行判别分析才有意义,为此,要对两总体的均值差异性进行检验,对此在下文中叙述。
(2)当时
按照距离最近准则,类似地有:
,如果,
,如果,
待判,如果。
仍然用
作为判别函数,此时的判别函数是的二次函数。
(3)关于两组判别分析的检验
由于判别分析是假设两组样品是取自不同总体,如果两个总体的均值向量在统计上差异不显著,则进行判别分析意义不大。所以,两组判别分析的检验,实际就是要经验两个正态总体的均值向量是否相等,为此,检验的统计量为:
其中:
给定检验水平,查分布表使,可得出,再由样本值计算,若,则否定原假设,认为两个总体的均值向量在统计上差异显著,否则两个总体的均值向量在统计上差异不显著。
3、多个总体的距离判别法
类似两个总体的讨论推广到多个总体。
设有个总体,相应抽出样品个数为,每个样品观测个指标得观测数据如下,
总体的样本数据为:
该总体的样本指标平均值为:
总体的样本数据为:
该总体的样本指标平均值为:
它们的样本均值和协方差阵分别为: 、。一般的,记总体的样本指标平均值为:(),。
(1)当时
此时,
判别函数为
,
相应的判别准则为:
, 当时,对于一切
待判, 若有一个
(2)当不相等时
此时判别函数为
相应的判别准则为:
, 当时,对于一切
待判, 若有一个
(二)费舍判别法
费舍判别法是1936年提出来的,该方法对总体分布未提出什么特定的要求。
1.基本思想
费舍判别法是基于统计上的费舍准则,即判别的结果应该使两组间区别最大,使每组内部离散性最小。在费舍准则意义下,确定线性判别函数:
其中为待求的判别函数的系数。判别函数的系数的确定原则是使两组间区别最大,使每组内部离散性最小。有了判别函数后,对于一个新的样品,将个指标的具体数值代入判别式中求出值,然后与判别临界值进行比较,并判别其应属于哪一组。
2.两组判别分析
(1)方法原理
设有两组总体,相应抽出样品个数为,每个样品观测个指标得观测数据如下,
总体的样本数据为:
第1个总体的样本指标平均值为:
总体的样本数据为:
第2个总体的样本指标平均值为:
根据判别函数,用表示组样品的重心,以表示组样品的重心。则两组之间的离差用来表示,、内部的离差程度分别用和来表示,其中;。
根据费舍准则,要使判别的结果满足两组间区别最大,每组内部离散性最小。则判别函数的系数应该能够使:
取得最大值。
(2)判别系数的导出
令
+
根据数学分析求极值的原理,对上式两边取对数:
令
则
即
而 =
令
有
则有
而 +
=
=
=
+
=
+]
令 =+
有
则有
于是有
令
是一个常数因子,不依赖,它对方程组的解只起到共同扩大倍的作用,不影响它的解之间的比例关系,因此也不会影响判别函数,所以,取,得方程组:
即
解此方程即得,进而得判别函数:
(3)判别准则
由判别函数,可得两组总体各自样品的重心:
对它们进行根据样本的容量进行加权得:
称为两组判别的综合指标。据此可得判别准则为:
①如果,则对于给定的新样品,若有
则将该样品判属于组,若,则判其属于组;
②如果,则对于给定的新样品,若有
则将该样品判属于组,若,则判其属于组。
(4)两组判别分析的检验
由于判别分析是假设两组样品是取自不同总体,如果两个总体的均值向量在统计上差异不显著,则进行判别分析意义不大。所以,两组判别分析的检验,实际就是要检验两个正态总体的均值向量是否相等,为此,检验的统计量为:
其中:
,
给定检验水平,查分布表使,可得出,再由样本值计算,若,则否定原假设,认为两个总体的均值向量在统计上差异显著,判别函数有效,可用;否则两个总体的均值向量在统计上差异不显著,判别函数无效不可用。
3、多组费舍判别分析
(1)方法原理
类似两总体的费舍判别法,下面给出多总体的费舍判别法。设有个总体抽取样品数分别为令。为第个总体的第个样品的观测向量。
假定所建立的判别函数为
其中
记和分别是总体内的样本均值向量和样本协差阵,根据求随机变量线性组合的均值和方差的性质可知,在上的样本均值和样本方差为
记为总的均值向量,则
在多总体情况下,Fisher准则就是要选取系数向量,使
达到最大,其中是人为的正的加权系数,它可以取为先验概率。如果取 ,并将 ,代入上式可化为:
其中为组内离差阵,为总体之间样本的协差阵,即
(2)判别函数
判别系数(矩阵关于矩阵的广义特征向量)的导出。为求的最大值,根据极值存在的必要条件,令=0,利用对向量求导的公式:
因此
这说明了及恰好是矩阵关于矩阵的广义特征根及其对应的特征向量(因为根据定义有,设为阶对称矩阵,为阶正定矩阵,若有或,则称为关于矩阵的广义特征根,是对应的特征向量)。由于一般都要求加权协差阵是正定的,因此由代数知识可知,上式非零特征根个数不超过,又因为为非负定的,所以非零特征根必定为正根,记为
于是可构造个判别函数:
判别函数的判别能力与判别函数的个数。由上述知,由于非零特征根有个,由此对应有个特征向量,即个判别函数,为了选取有效的判别函数,对于每个判别函数必须给出一个用以衡量判别能力的指标,衡量判别函数判别能力的指标定义为:
个判别函数的判别能力定义为
如果达到某个人定的值(比如85%)则就认为个判别函数就够了。
(3)判别准则
有了判别函数之后,如何对待判的样品进行分类?Fisher判别法本身并未给出最合适的分类法,在实际工作中可以选用下列分类法之一进行分类。
第一方法,当取=1时(即只取一个判别函数),此时有两种可供选用的方法
①不加权法
若
则判
②加权法
将按大小次序排列,记为,相应的判别函数的标准差排为。
令
则可作为与之间的分界点。如果使得,则判。
第二种方法,当取时(即取多个判别函数),也有类似两种供选用的方法
①不加权法
记
对待判样品,计算
若,则判
②加权法
考虑到每个判别函数的判别能力不同,记
其中是由求出的特征根。若,则判。
(三)贝叶斯判别法
1.基本思想
设有个总体,,它们的先验概率分别为,密度函数为(在离散情形是概率函数),在观测到一个样品的情况下,可用贝叶斯公式计算它来自第g个总体的后验概率:
并且当
时,判定来自第个总体。
另外,有时为了合理考虑错判所带来的损失,还使用错判损失最小的概念确定判别函数,这时,把错判给第个总体的平均损失定义为:
其中称为损失函数。它表示本来是第个总体的样品错判为第个总体的损失。于是建立判别准则为,如果
则,判定来自第个总体。
显然考虑损失函数更为合理,但是由于实际应用中,由于不容易确定,经常在数学模型中假定各种错判的损失皆相等,这样,寻找使后验概率最大实际上等价于使错判损失最小。
根据上述思想,在假定协方差矩阵相等的条件下,即可以导出判别函数。
2.多元正态总体的Bayes判别法
在实际问题中遇到的许多总体往往服从正态分布,下面给出元正态总体的Bayes判别法,以及判别函数的导出。
(1)待判样品的先验概率和密度函数
使用Bayes准则进行分析,首先需要知道待判总体的先验概率和密度函数 (如果是离散情形则是概率函数)。
对于先验概率,一般可用样品频率来代替,即令,其中为用于建立判别函数的已知分类数据中来自第总体样品的数目,且,或者干脆令先验概率相等,即,这时可以认为先验概率不起作用。
对于第g总体的密度函数,设元正态分布密度函数为:
式中和分别是第g总体的均值向量(维)和协差阵(阶)。
把代入的表达式中,因为我们只关心寻找使最大的,而分式中的分母不论为何值都是常数,故可改令
对取对数并去掉与无关的项,记为,
则问题可化为
(2)假设各组协方差阵相等,导出判别函数
中含有个总体的协方差阵(逆阵及行列式值),而且对于还是二次函数,实际计算时工作量很大。如果进一步假定个总体协方差阵相同,即,这时中和两项与无关,求最大时可以去掉,最终得到如下形式的判别函数与判别准则(如果协方差阵不等,则有非线形判别函数);
上式判别函数也可以写成多项式形式:
其中,用样本资料这里为,
,
总样本总协差为总协差阵的估计,
为总协差阵的逆矩阵。
(3)计算后验概率
进行计算分类时,主要根据判别式的大小,而它不是后验概率,但是有了之后,就可以根据下式算出后验概率:
因为
其中是中与无关的部分。所以
由上式知使为最大的,其必为最大,因此我们只须把样品代入判别式中:分别计算,。
若 ,则把样品归为第总体。
(4)辅助性检验
为了检验个变量是否有能力区分这个组,还需要用广义的马哈拉诺比斯统计量来进行检验。马氏统计量为:
统计量在正态分布各组均值、协方差阵全部相同的假定下,服从个自由度的分布。所以,当统计量值大于查表得的临界值时,可以断定个变量有能力区分这个组。
贝叶斯方法一般多用于多组判别分析,贝叶斯判别方法的数学模型所要求的条件严格,它要求各组变量必须服从多元正态分布,各组的协方差矩阵相等,各组的均值向量有显著差异。而费舍判别法主要要求各组均值向量有显著差异即可。
展开阅读全文
相关搜索