《四川大学模式识别期末考试内容.docx》由会员分享,可在线阅读,更多相关《四川大学模式识别期末考试内容.docx(23页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、一计算题1、 在图像识别中,假定有灌木和坦克2种类型,它们的先验概率分别是和,损失函数如下表所示。其中,类型w1和w2分别表示灌木和坦克,判决a11,a22。现在做了2次实验,获得2个样本的类概率密度如下:状态损失决策W1W2a12a241试用最小错误率贝叶斯准那么判决2个样本各属于哪一类?坦克、灌木。2试用最小风险决策规那么判决2个样本各属于哪一类?灌木、灌木。答:1最小错误率贝叶斯准那么2最小风险决策规那么2、 给出二维样本数据(-1,1),(2,2),(11),(-22),试用变换作一维数据压缩。答:数据压缩结果:0,0,3、 两类的数据:1:(1,0),(2,0),(1,1);2:(-
2、1,0),(0,1),(-1,1),试求该组数据的类内及类间散布矩阵。其中为类内,为类间4、欧氏二维空间中两类9个训练样本w1:(-1,0)T,(-2,0)T,(-2,1)T,(-21)T w2:(1,1)T,(2,0)T,(11)T,(2,1)T,(2,2)T,试分别用最近邻法和K近邻法求测试样本(0,0)T的分类,取5,7。答:最近邻法:最近邻为(-1,0)T分类为w1K近邻法:5:5个近邻为1类的(-1,0)T,(-2,0)T,2类的(1,1)T,(2,0)T,(11)T 分类为w27:1假设近邻为1类的(-1,0)T,(-2,0)T,(-2,1)T,(-21)T,2类的(1,1)T,(
3、2,0)T,(11)T,那么分类为w12假设近邻为1类的(-1,0)T,(-2,0)T,(-2,1)T或(-21)T两个之一,2类的(1,1)T,(2,0)T,(11)T,(2,1)T,那么分类为w25. 两类的训练样本:w1(0,0)T,(0,2)2(2,0)T,(2,2)T,试用最小平方误差准那么算法进展分类器训练,求解向量w*。简答题简答题1. 什么是模式及模式识别?模式:对象之间存在的规律性关系;模式识别:是研究用计算机来实现人类模式识别能力的一门学科。 /*模式:广义地说,模式是一些供模仿用的、完美无缺的标本。本课程把所见到的具体事物称为模式,而将它们归属的类别称为模式类。模式的直观
4、特性:可观察性,可区分性,相似性 模式识别:指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进展处理和分析,以对事物或现象进展描述、识别、分类和解释的过程。*/2. 一个典型的模式识别系统主要由哪几个局部组成 3. 什么是后验概率? 系统在某个具体的模式样本X条件下位于某种类型的概率。4. 确定线性分类器的主要步骤 采集训练样本,构成训练样本集。样本应该具有典型性 确定一个准那么(),能反映分类器性能,且存在权值w*使得分类器性能最优 设计求解w的最优算法,得到解向量w*5. 样本集推断总体概率分布的方法6. 近邻法的根本思想是什么?作为一种分段线性判别函数的极端情况,将各类中
5、全部样本都作为代表点,这样的决策方法就是近邻法的根本思想。7. 什么是K近邻法? 取未知样本x的k个近邻,看这k个近邻中多数属于哪一类,就把x归为哪一类。7. 监视学习及非监视学习的区别 利用已经标定类别的样本集进展分类器设计的方法称为监视学习。很多情况下无法预先知道样本的类别,从没有标记的样本集开场进展分类器设计,这就是非监视学习。 /*监视学习:对数据实现分类,分类规那么通过训练获得。该训练集由带分类号的数据集组成,因此监视学习方法的训练过程是离线的。 非监视学习方法不需要单独的离线训练过程,也没有带分类号的训练数据集,一般用来对数据集进展分析。如聚类,确定其分布的主分量等。*/8. 什么
6、是误差平方和准那么? 对于一个给定的聚类,均值向量是最能代表聚类中所有样本的一个向量,也称其为聚类中心。一个好的聚类方法应能使集合中的所有向量及这个均值向量的误差的长度平方和最小。9. 分级聚类算法的2种根本途径是什么 按事物的相似性,或内在联系组织起来,组成有层次的构造,使得本质上最接近的划为一类,然后把相近的类再合并,依次类推,这就是分级聚类算法的根本思想。聚合法:把所有样本各自看为一类,逐级聚合成一类。根本思路是根据类间相似性大小逐级聚合,每级只把相似性最大的两类聚合成一类,最终把所有样本聚合为一类。分解法:把所有样本看做一类,逐级分解为每个样本一类。10. 特征抽取及特征选择的区别?
7、特征抽取:原始特征的数量可能很大,或者样本处于一个高维空间中,通过映射或变换的方法可以用低维空间来表示样本,这个过程叫特征抽取。所谓特征抽取在广义上就是指一种变换。 特征选择:从一组特征中挑选出一些最有效的特征以到达降低特征空间维数的目的,这个过程叫特征选择。特征抽取是通过变换的方法组合原始高维特征,获得一组低维的新特征,而特征选择是根据专家的经历知识或根据某种评价准那么来挑选出那些对分类最有影响力的特征,并未形成新的特征。11. 什么是最优搜素算法? 最优搜索算法:至今能得到最优解的唯一快速算法是“分支定界算法。属于自上而下的算法,具有回溯功能。由于合理地组织搜索过程,使得有可能防止计算某些
8、特征组合而不影响结果为最优。12统计学习理论的核心问题 统计学习理论被认为是目前针对小样本统计估计和预测学习的最正确理论。主要内容包括4个方面:1经历风险最小化原那么下统计学习一致性的条件2在这些条件下关于统计学习方法推广性的界的结论3在这些界的根底上建立的小样本归纳推理原那么4实现这些新的原那么的实际方法13什么是支持向量机? 支持向量机:在统计学习理论根底上开展出的识别方法,在解决小样本、非线性及高维模式识别问题中表现出其优势。问答题问答题1. 描述贝叶斯公式及其主要作用 4. 请详细写出算法实现步骤5. 什么是两分剪辑近邻法和压缩近邻法 离散变换又称主成分分析,是一种基于目标统计特性的最
9、正确正交变换,被广泛应用于数据压缩、特征降维等方面。一个非周期性随机过程用具有互不相关系数的正交函数的级数展开。展开式就是这样一种展开方法。一、 15分设有两类正态分布的样本集,第一类均值为,方差,第二类均值为,方差,先验概率,试求基于最小错误率的贝叶斯决策分界面。解 根据后验概率公式, (2)及正态密度函数 ,。 (2)基于最小错误率的分界面为, (2)两边去对数,并代入密度函数,得 (1) (2)由条件可得,(2)设,把条件代入式1,经整理得, (5)二、 15分设两类样本的类内离散矩阵分别为, ,各类样本均值分别为,试用准那么求其决策面方程,并判断样本的类别。解: (2)投影方向为 (6
10、)阈值为 (4)给定样本的投影为, 属于第二类 (3)三、 15分给定如下的训练样例实例x0x1x2t(真实输出)11111212013101-14112-1用感知器训练法那么求感知器的权值,设初始化权值为;1 第1次迭代 42 第2次迭代 23 第3和4次迭代 四、 15分i. 推导正态分布下的最大似然估计;ii. 根据上步的结论,假设给出如下正态分布下的样本,估计该局部的均值和方差两个参数。1 设样本为x1, x2 , ,正态密度函数 (2)那么似然函数为 (2)对数似然函数 (2)最大似然估计 (2)对于正态分布, (2)2 根据1中的结果, (5)五、 15分给定样本数据如下:,(1)
11、 对其进展变换(2) 用1的结果对样本数据做一维数据压缩解1变换 1 求样本总体均值向量 2 求协方差矩阵 (2) 3求特征根,令,得,。 (1)由,得特征向量, (2)那么为, (5) 2要做一维压缩,就是向最大特征根对应的特征向量做投影,得 , (5)五、(12分,每问4分) 在目标识别中,假定有农田和装甲车两种类型,类型w1和类型w2分别代表农田和装甲车,它们的先验概率分别为0.8和0.2,损失函数如表1所示。现在做了三次试验,获得三个样本的类概率密度如下: :0.3,0.1,0.6 :0.7,0.8,0.3 1试用贝叶斯最小误判概率准那么判决三个样本各属于哪一个类型;2假定只考虑前两种
12、判决,试用贝叶斯最小风险准那么判决三个样本各属于哪一类;3把拒绝判决考虑在内,重新考核三次试验的结果。 表1类型损失判决145111解:由题可知:,14分根据贝叶斯最小误判概率准那么知:,那么可以任判;,那么判为;,那么判为;24分由题可知:那么 ,判为; ,判为; ,判为;34分对于两类问题,对于样本,假设,有那么对于第一个样本,那么拒判;,那么拒判;,拒判。 一、 一组数据的协方差矩阵为,试问1 协方差矩阵中各元素的含义。2 求该数组的两个主分量。3 主分量分析或称变换,它的最正确准那么是什么?4 为什么说经主分量分析后,消除了各分量之间的相关性。答:协方差矩阵为,那么1 对角元素是各分量
13、的方差,非对角元素是各分量之间的协方差。2 主分量,通过求协方差矩阵的特征值,用得,那么,相应的特征向量为:,对应特征向量为,对应。这两个特征向量即为主分量。3 变换的最正确准那么为:对一组数据进展按一组正交基分解,在只取一样数量分量的条件下,以均方误差计算截尾误差最小。4 在经主分量分解后,协方差矩阵成为对角矩阵,因而各主分量间相关消除。二、 设有两类正态分布的样本基于最小错误率的贝叶斯决策分界面,分别为X2=0,以及X1=3,其中两类的协方差矩阵,先验概率相等,并且有, 。试求:以及。答:设待求,待求由于,先验概率相等。那么基于最小错误率的决策规那么,在两类决策面分界面上的样本X应满足1其
14、中按题意,注:为方便起见,在下面计算中先去掉系数4/3。按题意分界面由x1=3及x2=0两条直线构成,那么分界面方程为 (2)对1式进展分解有 得 3由3式第一项得4将4式及2式比照可知11又由1及,得b2=1/4,b有两种可能,即1/2或1/2,如果1/2,那么说明,此时分界面方程应为线性,及题意不符,只有1/2那么4式为:2X1X25将相应结果带入3式第二项有6那么结合52应有,那么 7 解得, 由得十三、试分析五种常用决策规那么思想方法的异同。答、五种常用决策是: 1. 基于最小错误率的贝叶斯决策,利用概率论中的贝叶斯公式,得出使得错误率最小的分类规那么。 2. 基于最小风险的贝叶斯决策
15、,引入了损失函数,得出使决策风险最小的分类。当在01损失函数条件下,基于最小风险的贝叶斯决策变成基于最小错误率的贝叶斯决策。 3. 在限定一类错误率条件下使另一类错误率最小的两类别决策。 4. 最大最小决策:类先验概率未知,考察先验概率变化对错误率的影响,找出使最小贝叶斯奉献最大的先验概率,以这种最坏情况设计分类器。 5. 序贯分类方法,除了考虑分类造成的损失外,还考虑特征获取造成的代价,先用一局部特征分类,然后逐步参加性特征以减少分类损失,同时平衡总的损失,以求得最有效益。十四、假设在某个地区细胞识别中正常w1和异常w2两类先验概率分别为 P(w1)=0.9,P(w2)=0.1,现有一待识别
16、的细胞,其观察值为x,从类条件概率密度分布曲线上查得,并且,试对该细胞x用一下两种方法进展分类:1. 基于最小错误率的贝叶斯决策;2. 基于最小风险的贝叶斯决策;请分析两种结果的异同及原因。答:1.2. 十七、写出两类和多类情况下最小风险贝叶斯决策判别函数和决策面方程。数据获取预处理特征提取与选择分类决策分类器设计信号空间特征空间十八、请论述模式识别系统的主要组成局部及其设计流程,并简述各组成局部中常用方法的主要思想。信息获取:通过测量、采样和量化,可以用矩阵或向量表示二维图像或以为波形。预处理:去除噪声,加强有用的信息,并对输入测量仪器或其他因素造成的退化现象进展复原。特征选择和提取:为了有
17、效地实现分类识别,就要对原始数据进展变换,得到最能反映分类本质的特征。分类决策:在特征空间中用统计方法把识别对象归为某一类。十九、有两类样本集 , ,1. 用变换求其二维特征空间,并求出其特征空间的坐标轴;2. 使用线性判别方法给出这两类样本的分类面。二十二、简述支持向量机的根本思想。答:从线性可分情况下的最优分类面开展而来。最优分类面就是要求分类线不但能将两类正确分开(训练错误率为0),且使分类间隔最大。考虑寻找一个满足分类要求的超平面,并且使训练集中的点距离分类面尽可能的远,也就是寻找一个分类面使它两侧的空白区域()最大。过两类样本中离分类面最近的点,且平行于最优分类面的超平面上H1,H2的训练样本就叫支持向量。