第3章-正态分布时的统计决策(共18页).doc-淘文阁

资源描述

《第3章-正态分布时的统计决策(共18页).doc》由会员分享，可在线阅读，更多相关《第3章-正态分布时的统计决策(共18页).doc（18页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、精选优质文档-倾情为你奉上第3章正态分布时的统计决策在统计决策理论中，涉及到类条件概率密度函数。对许多实际的数据集，正态分布通常是合理的近似。如果在特征空间中的某一类样本，较多地分布在这一类均值附近，远离均值点的样本比较少，此时用正态分布作为这一类的概率模型是合理的。另外，正态分布概率模型有许多好的性质，有利于作数学分析。概括起来就是：（1）物理上的合理性（2）数学上的简单性下面重点讨论正态分布分布及其性质，以及正态分布下的Bayes决策理论。3.1 正态分布概率密度函数的定义及性质1单变量正态分布定义：（3.1-1）其中：为随机变量x的期望，也就是平均值；为x的方差，为均方差，又称

2、为标准差。（3.1-2）（3.1-3）概率密度函数的一般图形如下：具有一下性质：（3.1-4）从的图形上可以看出，只要有两个参数就可以完全确定其曲线。为了简单，常记为。若从服从正态分布的总体中随机抽取样本x，约有95的样本落在中。样本的分散程度可以用来表示，越大分散程度越大。2多元正态分布定义：（3.1-5）其中：为d维随机向量，对于d维随机向量x，它的均值向量是d维的。也就是：为d维均值向量。是维协方差矩阵，是的逆矩阵，为的行列式。协方差矩阵是对称的，其中有个独立元素。由于可由和完全确定，所以实际上可由个独立元素来确定。是的转置，且：、分别是向量x和矩阵的期望。具体说：若是的第i个

3、分量，是的第i个分量，是的第i、j个元素。（3.1-6）其中为边缘分布，“对于二维随机变量X和Y作为一个整体，其分布函数F（x，y），而X和Y都是随机变量，各别也有分布函数FX(x)、FY(y)，分别称为二维随机变量（X，Y）关于X和Y的边缘分布函数。有：和。对于离散随机变量有：从中得到X的分布律为：同样，Y的分布律为。对于连续型随机变量（X，Y），假定它的概率密度为，由：知道，X的概率密度为：同样也可以求出Y的概率密度函数。”而：（3.1-7）协方差矩阵：（3.1-8）是一个对称矩阵，只考虑为正定矩阵的情况，也就是所有的子式都大于0。即，同单变量正态分布一样，多元正态分布可以由和完全确

4、定，常记为。3多元正态分布的性质（1）参数对分布的决定性对于d维随机向量x，它的均值向量也是d维的，协方差矩阵是对称的，其中有个独立元素。可由完全确定，实际上可由个独立元素决定。常记为：。（2）等密度点的轨迹为一超椭球面由的定义公式（3.1-5）可知，当右边指数项为常数时，密度的值不变，所以等密度点满足：可以证明，上式的解是一个超椭球面，其主轴方向取决于的本征向量（特征向量），主轴的长度与相应的本征值成正比。如下图所示：从上图可以看出，从正态分布总体中抽取的样本大部分落在由和所确定的一个区域里，这个区域的中心由均值向量决定，区域的大小由协方差矩阵决定。在数理统计中，令：式中称为x到的马氏距离（

5、Mahalanobis）距离。所以，等密度点轨迹是x到的马氏距离为常数的超椭球面。该超椭球面构成的球体的大小是样本对于均值向量的“离散度度量”。体积：d为奇数d为偶数如果d确定了，则不变，v与有关。也就是对于给定的维数d，样本离散度随而变。（3）不相关性等价于独立性概率论中，两个随机变量和之间不相关，并不意味着它们一定独立。如果和之间不相关，则的数学期望有：如果和相互独立，则有：独立性是比不相关更强的条件。不相关反映了和的总体性质。如果和相互独立，则它们之间一定不相关，反之则不成立。但是对服从正态分布的两个分量和，若与互不相关，则它们之间一定独立。证明：根据定义，和的协方差又根据不相关定义有：

6、又：，所以：有协方差矩阵成为对角阵。可以计算出：，因此，根据独立性的定义：正态分布随机向量的各分量间互不相关性与相互独立等价。（4）边缘分布与条件分布的等价性不难证明正态随机向量的边缘分布与条件分布仍服从正态分布。从（3）证明得出的结论表达式，如果x用表示，有：也就是说，边缘分布服从均值为，方差为的正态分布：同理，另外，条件分布，给定的条件下的分布：代入上式，服从正态分布，同理也服从正态分布。（5）线性变换的正态性对于多元随机向量的线性变换，仍为多元正态分布的随机向量。就是：x服从正态分布，对x作线性变换，其中A为线性变换矩阵，且，则y服从正态分布：（6）线性组合的正态性若x为多元正态随机向量

7、，则线性组合是一维的正态随机变量：其中，a与x同维。3.2 正态分布中的Bayes分类方法在上一章，我们已经把基于Bayes公式的几种分类判决规则抽象为相应的判决函数和决策面方程。这几种方法中Bayes最小错误率判决规则是一种最基本的方法。如果取01损失函数，最小风险判决规则和最大似然比判决规则均与最小错误判决规则等价。为了方便，我们以最小错误判决规则为例来研究Bayes分类方法在正态分布中的应用。由最小错误率判决规则抽象出来的判决函数如下：如果类概率密度是正态分布的，则。由于对数函数是一个单调变化的函数，上式右边取对数后作为判决函数使用不会改变类型区域的划分。因此：其中，与类型无关，所有函数

8、皆加上此项后，并不影响区域的划分，可以去掉。下面对几种特殊情况进行讨论。1情况一：，该情况下，每类的协方差矩阵相等，而且类的各特征间相互独立（由上节的性质得知），具有相等的方差。因此：将上两式代入：上式中的第2、3项与类别无关，可以忽略，因此可以简化为：其中：，为x到类的均值向量的“欧氏距离”的平方。讨论一个特殊情况，所有各类概率相等。则：此时，对x的归类表示为：计算x到各类均值的欧氏距离的平方，然后把x归于具有的类。这种分类器叫最小距离分类器。接着对进一步化简：式中：与i无关，可以忽略：式中：是一个线性函数。决策规则：对某个x计算，若，则决策。由于为线性函数，其决策面由线性方程构成，决策

9、面是一个超平面。上述结果表示在二维特征空间里，如下图所示：两个同心圆是两类概率分布等密度点轨迹，两个圆心就是两类的均值点。两类的区分线与垂直，其交点为。一般不是的中点，但当时，为的中点。若时，向先验概率较小的那个类型的均值点偏移。可以推广到多类的情况，注意这种分类方法没有不确定的区域。2. 情况二：各类的协方差矩阵相等，在几何上，相当于各类样本集中在以该类均值为中心的同样大小和形状的超椭球内。不变，与i无关：一个特例，当时，各样本先验概率相等。其中：为x到均值点的“马氏距离”的平方（Mahalanobis）。进一步简化：对于样本x 只要计算出，把x归于最小的类别。接着对化简：去掉与无关的项：

10、其中：，也是一个线性函数，对应的决策面也是一个超平面。对于和相邻，决策面方程：其中：与第一种情况不同，此时决策面通过，但不与正交（垂直）。二维情况：当各类先验概率相等时位于的中点上。当各类先验概率不相等时，不在的中点上，而是偏向先验概率较小的均值点。3第三种情况各类协方差矩阵不等：，由于：去掉与无关的项，得：表示为：其中：维向量此时表示为的二次型。对于和相邻，决策面应为：该曲线为超二次曲面。随、的不同，超二次曲面为：超球面、超椭球面、超抛物面、超双曲面，或超平面等。假设特征空间是二维的，模式样本的两个分量之间是相互独立的，所以协方差矩阵是2X2维的对角矩阵。令各类的先验概率相等，那么不同类型

11、区域的划分取决于各类的均值向量和两个方差项的差异，而决策面的形状主要取决于两个方差项的差异。，（1）若，且，则两类的概率分布等密度线分别是以各自均值点为圆心的同心圆，圆的大小与相应的方差相一致。由于，所以来自类型的样本更密集于它的均值点附近；同时，由于园的对称性，决策面为包围均值点的一个圆。（2）若在上图的(a)的基础上增大分量x2的方差和，使和，这样图(a)中的圆在x2方向上伸展，而变成椭圆，如图(b)所示，决策面也变成了椭圆。（3）若，在这种情况下，分量x2大的样本x很可能来自类型，使决策面变成一条抛物线，如图(c)所示。（4）若在(c)的基础上增大，使，在这种情况下，决策面变成双曲线，如

12、图(d)所示。（5）在一非常特殊的对称条件下，使(d)中的双曲线向一对互相垂直的直线退化，如图(e)所示。在这种情况下，两种类型是线性可分的。清华模式识别书上P34中间用图讨论了几种决策面的变化。例1：设在三维特征空间里，两类的类概率密度是正态分布的，分别在两个类型中获得4个样本，位于一个单位立方体的顶点上，如下图。两类的先验概率相等，试确定两类之间的决策面及相应的类型区域和。解：和表示两个类型，由图可知，两个类型的样本：，：，用各类样本的算术平均值近似代替各类均值向量，也就是：为中的样本数，表示的第个样本。协方差矩阵由其定义求得：式中为类的自相关函数。由题中所给条件：，有：，同理：因此，符合情况二。用情况二的公式确定决策面。决策面为，先验概率相等决策方程：也就是：如下图所示。w指向的一侧为正，是w1的区域R1，负向的一侧为w2。专心-专注-专业

展开阅读全文