《模式识别期末试题DOC.docx》由会员分享,可在线阅读,更多相关《模式识别期末试题DOC.docx(35页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、一、 填空及选择填空此题答案写在此试卷上,30分 1、模式识别系统的根本构成单元包括: 模式采集 、 特征提取及选择 和 模式分类 。2、统计模式识别中描述模式的方法一般使用 特真矢量 ;句法模式识别中模式描述方法一般有 串 、 树 、 网 。3、聚类分析算法属于 1 ;判别域代数界面方程法属于 3 。 1无监视分类 (2)有监视分类 3统计模式识别方法4句法模式识别方法4、假设描述模式的特征量为0-1二值特征量,那么一般采用 4 进展相似性度量。1距离测度 2模糊测度 3相似测度 4匹配测度5、 以下函数可以作为聚类分析中的准那么函数的有 134 。 1 2 (3) (4) 6、线性判别函数
2、的求解过程是将N维特征矢量投影在 2 中进展 。 1二维空间 2一维空间 31维空间7、以下判别域界面方程法中只适用于线性可分情况的算法有 1 ;线性可分、不可分都适用的有 3 。 1感知器算法 2算法 3积累位势函数法 8、以下四元组中满足文法定义的有 124 。1(A, B, 0, 1, A01, A 0A1 , A 1A0 , B , B 0, A) 2(A, 0, 1, A0, A 0A, A) 3(S, a, b, S 00S, S 11S, S 00, S 11, S)4(A, 0, 1, A01, A 0A1, A 1A0, A)9、影响层次聚类算法结果的主要因素有 计算模式距离
3、的测度、聚类准那么、类间距离门限、预定的类别数目。10、欧式距离具有 1、2 ;马式距离具有 1、2、3、4 。 1平移不变性2旋转不变性3尺度缩放不变性4不受量纲影响的特性11、线性判别函数的正负和数值大小的几何意义是正负表示样本点位于判别界面法向量指向的正负半空间中;绝对值正比于样本点到判别界面的距离。12、感知器算法 1 。 1只适用于线性可分的情况;2线性可分、不可分都适用。13、积累势函数法较之于算法的优点是该方法可用于非线性可分情况也可用于线性可分情况 ;位势函数K()及积累位势函数K(x)的关系为。 14、在统计模式分类问题中,聂曼-皮尔逊判决准那么主要用于 某一种判决错误较另一
4、种判决错误更为重要情况;最小最大判决准那么主要用于 先验概率未知的情况。15、“特征个数越多越有利于分类这种说法正确吗? 错误 。特征选择的主要目的是从n个特征中选出最有利于分类的的m个特征mn 的条件下,可以使用分支定界法以减少计算量。16、 散度越大,说明类模式及类模式的分布差异越大;当类模式及类模式的分布一样时,0。17、 有限状态自动机(,Q,d,q0,F),=0,1;q0,q1;d:d(q0,0)= q1,d(q0,1)= q1,d(q1,0)0,d(q1,1)0;q00;q0。现有输入字符串:(a) ,(b) 1100110011,(c) 1,(d)0010011,试问,用对上述字
5、符串进展分类的结果为 1:;2: 。18、影响聚类算法结果的主要因素有 。类别的样本质量;分类准那么;特征选取;模式相似性测度。19、模式识别中,马式距离较之于欧式距离的优点是 。 平移不变性;旋转不变性;尺度不变性;考虑了模式的分布。20、基于二次准那么函数的算法较之于感知器算法的优点是 。可以判别问题是否线性可分;其解完全适用于非线性可分的情况;其解的适应性更好;计算量小。21、影响根本C均值算法的主要因素有 。样本输入顺序;模式相似性测度;聚类准那么;初始类心的选取。22、位势函数法的积累势函数K(x)的作用相当于判决中的 。先验概率;后验概率;类概率密度;类概率密度及先验概率的乘积。2
6、3、在统计模式分类问题中,领先验概率未知时,可以使用 。最小损失准那么;最小最大损失准那么;最小误判概率准那么;判决。24、在 情况下,用分支定界法做特征选择计算量相对较少。n,n为原特征个数,d为要选出的特征个数;样本较多;选用的可分性判据J对特征数目单调不减;选用的可分性判据J具有可加性。25、 散度是根据 构造的可分性判据。先验概率;后验概率;类概率密度;信息熵;几何距离。26、似然函数的概型且为单峰,那么可用 估计该似然函数。矩估计;最大似然估计;估计;学习;窗法。27、近邻元法较之窗法的优点是 。所需样本数较少;稳定性较好;分辨率较高;连续性较好。28、从分类的角度讲,用做特征提取主
7、要利用了的性质: 。变换产生的新分量正交或不相关;以局部新的分量表示原矢量均方误差最小;使变换后的矢量能量更趋集中;29、一般,剪辑最近邻方法在 的情况下效果较好。样本数较大;样本数较小;样本呈团状分布;样本呈链状分布。30、如果以特征向量的相关系数作为模式相似性测度,那么影响聚类算法结果的主要因素有 。类别样本质量;分类准那么;特征选取;量纲。二、(15分)简答及证明题 1影响聚类结果的主要因素有那些?2证明马氏距离是平移不变的、非奇异线性变换不变的。答:1分类准那么,模式相似性测度,特征量的选择,量纲。2证明: (2分) (2分)(1分)设,有非奇异线性变换:(1分)(4分)三、(8分)说
8、明线性判别函数的正负和数值大小在分类中的意义并证明之。答:14分的绝对值正比于到超平面的距离 平面的方程可以写成式中。于是是平面的单位法矢量,上式可写成 设是平面中的任一点,是特征空间中任一点,点到平面的距离为差矢量在上的投影的绝对值,即 (1-1) 上式中利用了在平面中,故满足方程 式(1-1)的分子为判别函数绝对值,上式说明,的值正比于到超平面的距离,一个特征矢量代入判别函数后所得值的绝对值越大说明该特征点距判别界面越远。 24分的正负反映在超平面的正负侧 两矢量和的数积为 2分 显然,当和夹角小于时,即在指向的那个半空间中,0;反之,当和夹角大于时,即在背向的那个半空间中,0。由于,故和
9、同号。所以,当在指向的半空间中时,;当在背向的半空间中,。判别函数值的正负表示出特征点位于哪个半空间中,或者换句话说,表示特征点位于界面的哪一侧。五、(12分,每问4分) 在目标识别中,假定有农田和装甲车两种类型,类型w1和类型w2分别代表农田和装甲车,它们的先验概率分别为0.8和0.2,损失函数如表1所示。现在做了三次试验,获得三个样本的类概率密度如下: :0.3,0.1,0.6 :0.7,0.8,0.3 1试用贝叶斯最小误判概率准那么判决三个样本各属于哪一个类型;2假定只考虑前两种判决,试用贝叶斯最小风险准那么判决三个样本各属于哪一类;3把拒绝判决考虑在内,重新考核三次试验的结果。 表1类
10、型损失判决145111解:由题可知:,14分根据贝叶斯最小误判概率准那么知:,那么可以任判;,那么判为;,那么判为;24分由题可知:那么 ,判为; ,判为; ,判为;34分对于两类问题,对于样本,假设,有那么对于第一个样本,那么拒判;,那么拒判;,拒判。 1.监视学习及非监视学习的区别:监视学习方法用来对数据实现分类,分类规那么通过训练获得。该训练集由带分类号的数据集组成,因此监视学习方法的训练过程是离线的。非监视学习方法不需要单独的离线训练过程,也没有带分类号标号的训练数据集,一般用来对数据集进展分析,如聚类,确定其分布的主分量等。实例:道路图就道路图像的分割而言,监视学习方法那么先在训练用
11、图像中获取道路象素及非道路象素集,进展分类器设计,然后用所设计的分类器对道路图像进展分割。使用非监视学习方法,那么依据道路路面象素及非道路象素之间的聚类分析进展聚类运算,以实现道路图像的分割。2.动态聚类是指对当前聚类通过迭代运算改善聚类;分级聚类那么是将样本个体,按相似度标准合并,随着相似度要求的降低实现合并。3. 线性分类器三种最优准那么:准那么:根据两类样本一般类内密集, 类间别离的特点,寻找线性分类器最正确的法线向量方向,使两类样本在该方向上的投影满足类内尽可能密集,类间尽可能分开。该种度量通过类内离散矩阵和类间离散矩阵实现。感知准那么函数:准那么函数以使错分类样本到分界面距离之和最小
12、为原那么。其优点是通过错分类样本提供的信息对分类器函数进展修正,这种准那么是人工神经元网络多层感知器的根底。支持向量机:根本思想是在两类线性可分条件下,所设计的分类器界面使两类之间的间隔为最大, 它的根本出发点是使期望泛化风险尽可能小。一、 试问“模式及“模式类的含义。如果一位姓王的先生是位老年人,试问“王先生和“老头谁是模式,谁是模式类?答:在模式识别学科中,就“模式及“模式类而言,模式类是一类事物的代表,概念或典型,而“模式那么是某一事物的具体表达,如“老头是模式类,而王先生那么是“模式,是“老头的具体化。二、 试说明距离平方的定义,到某点的距离平方为常数的轨迹的几何意义,它及欧氏距离的区
13、别及联系。答:距离的平方定义为:其中x,u为两个数据,是一个正定对称矩阵一般为协方差矩阵。根据定义,距某一点的距离相等点的轨迹是超椭球,如果是单位矩阵,那么距离就是通常的欧氏距离。三、 试说明用监视学习及非监视学习两种方法对道路图像中道路区域的划分的根本做法,以说明这两种学习方法的定义及它们间的区别。答:监视学习方法用来对数据实现分类,分类规那么通过训练获得。该训练集由带分类号的数据集组成,因此监视学习方法的训练过程是离线的。非监视学习方法不需要单独的离线训练过程,也没有带分类号标号的训练数据集,一般用来对数据集进展分析,如聚类,确定其分布的主分量等。就道路图像的分割而言,监视学习方法那么先在
14、训练用图像中获取道路象素及非道路象素集,进展分类器设计,然后用所设计的分类器对道路图像进展分割。使用非监视学习方法,那么依据道路路面象素及非道路象素之间的聚类分析进展聚类运算,以实现道路图像的分割。四、 试述动态聚类及分级聚类这两种方法的原理及不同。答:动态聚类是指对当前聚类通过迭代运算改善聚类;分级聚类那么是将样本个体,按相似度标准合并,随着相似度要求的降低实现合并。五、 如果观察一个时序信号时在离散时刻序列得到的观察量序列表示为,而该时序信号的内在状态序列表示成。如果计算在给定O条件下出现S的概率,试问此概率是何种概率。如果从观察序列来估计状态序列的最大似然估计,这及决策中基于最小错误率的
15、决策有什么关系。答:在给定观察序列条件下分析它由某个状态序列S产生的概率似后验概率,写成P(),而通过O求对状态序列的最大似然估计,及贝叶斯决策的最小错误率决策相当。六、 一组数据的协方差矩阵为,试问1 协方差矩阵中各元素的含义。2 求该数组的两个主分量。3 主分量分析或称变换,它的最正确准那么是什么?4 为什么说经主分量分析后,消除了各分量之间的相关性。答:协方差矩阵为,那么1 对角元素是各分量的方差,非对角元素是各分量之间的协方差。2 主分量,通过求协方差矩阵的特征值,用得,那么,相应的特征向量为:,对应特征向量为,对应。这两个特征向量即为主分量。3 变换的最正确准那么为:对一组数据进展按
16、一组正交基分解,在只取一样数量分量的条件下,以均方误差计算截尾误差最小。4 在经主分量分解后,协方差矩阵成为对角矩阵,因而各主分量间相关消除。七、 试说明以下问题求解是基于监视学习或是非监视学习:1. 求数据集的主分量2. 汉字识别3. 自组织特征映射4. 图像的分割答: 1、求数据集的主分量是非监视学习方法;2、汉字识别对待识别字符加上相应类别号有监视学习方法;3、自组织特征映射将高维数组按保存近似度向低维映射非监视学习;4、图像分割按数据自然分布聚类非监视学习方法;八、 试列举线性分类器中最著名的三种最正确准那么以及它们各自的原理。答:线性分类器三种最优准那么:准那么:根据两类样本一般类内
17、密集, 类间别离的特点,寻找线性分类器最正确的法线向量方向,使两类样本在该方向上的投影满足类内尽可能密集,类间尽可能分开。该种度量通过类内离散矩阵和类间离散矩阵实现。感知准那么函数:准那么函数以使错分类样本到分界面距离之和最小为原那么。其优点是通过错分类样本提供的信息对分类器函数进展修正,这种准那么是人工神经元网络多层感知器的根底。支持向量机:根本思想是在两类线性可分条件下,所设计的分类器界面使两类之间的间隔为最大, 它的根本出发点是使期望泛化风险尽可能小。九、 在一两维特征空间,两类决策域由两条直线H1和H2分界,其中 而包含H1及H2的锐角局部为第一类,其余为第二类。试求: 1用一双层感知
18、器构造该分类器2用凹函数的并构造该分类器答:按题意要求1 H1及H2将空间划分成四个局部,按使H1及H2大于零及小于零表示成四个区域,而第一类属于()区域,为方便起见,令那么第一类在()区域。用双层感知器,神经元用域值,那么在第一类样本输入时,两隐层结点的输出均为1,其余那么分别为(),(),(), 故可按图设置域值。2 用凹函数的并表示:或表示成,如,那么,否那么十、 设有两类正态分布的样本基于最小错误率的贝叶斯决策分界面,分别为X2=0,以及X1=3,其中两类的协方差矩阵,先验概率相等,并且有, 。试求:以及。答:设待求,待求由于,先验概率相等。那么基于最小错误率的决策规那么,在两类决策面
19、分界面上的样本X应满足1其中按题意,注:为方便起见,在下面计算中先去掉系数4/3。按题意分界面由x1=3及x2=0两条直线构成,那么分界面方程为 (2)对1式进展分解有 得 3由3式第一项得4将4式及2式比照可知11又由1及,得b2=1/4,b有两种可能,即1/2或1/2,如果1/2,那么说明,此时分界面方程应为线性,及题意不符,只有1/2那么4式为:2X1X25将相应结果带入3式第二项有6那么结合52应有,那么 7 解得, 由得九、证明在正定或半正定时,距离r符合距离定义的三个条件,即1r()()2当且仅当时,有r()=03r()r()()证明:(1) 根据定义 (2) 由于为对称阵,故可以
20、分解为,其中,且所有特征值大于等于零。可以认为 这就变为了传统意义上的欧氏距离,可以由欧氏距离满足的性质直接证明本命题。十、对一副道路图像,希望把道路局部划分出来,可以采用以下两种方法:1在该图像中分别在道路局部及非道路局部画出一个窗口,把在这两个窗口中的象素数据作为训练集,用准那么方法求得分类器参数,再用该分类器对整幅图进展分类。2将整幅图的每个象素的属性记录在一张数据表中,然后用某种方法将这些数据按它们的自然分布状况划分成两类。因此每个象素就分别得到相应的类别号,从而实现了道路图像的分割。试问以上两种方法哪一种是监视学习,哪个是非监视学习?答:第一种方法中标记了两类样本的标号,需要人手工干
21、预训练过程,属于监视学习方法;第二种方法只是依照数据的自然分布,把它们划分成两类,属于非监视学习方法。十一、有两类数据,分别为 试求:该组数据的类内及类间离散矩阵及。答:第一类的均值向量为十二、设一个二维空间中的两类样本服从正态分布,其参数分别为:,先验概率,试证明:其基于最小错误率的贝叶斯决策分界面方程为一圆,并求其方程。证明:先验概率相等条件下,基于最小错误率贝叶斯决策的分界面上两类条件概率密度函数相等。因此有:化简为,是一个圆的方程。十三、试分析五种常用决策规那么思想方法的异同。答、五种常用决策是: 1. 基于最小错误率的贝叶斯决策,利用概率论中的贝叶斯公式,得出使得错误率最小的分类规那
22、么。 2. 基于最小风险的贝叶斯决策,引入了损失函数,得出使决策风险最小的分类。当在01损失函数条件下,基于最小风险的贝叶斯决策变成基于最小错误率的贝叶斯决策。 3. 在限定一类错误率条件下使另一类错误率最小的两类别决策。 4. 最大最小决策:类先验概率未知,考察先验概率变化对错误率的影响,找出使最小贝叶斯奉献最大的先验概率,以这种最坏情况设计分类器。 5. 序贯分类方法,除了考虑分类造成的损失外,还考虑特征获取造成的代价,先用一局部特征分类,然后逐步参加性特征以减少分类损失,同时平衡总的损失,以求得最有效益。十四、假设在某个地区细胞识别中正常w1和异常w2两类先验概率分别为 P(w1)=0.
23、9,P(w2)=0.1,现有一待识别的细胞,其观察值为x,从类条件概率密度分布曲线上查得,并且,试对该细胞x用一下两种方法进展分类:1. 基于最小错误率的贝叶斯决策;2. 基于最小风险的贝叶斯决策;请分析两种结果的异同及原因。答:1.2. 十五、既然有线性判别函数,为什么还要引进非线性判别函数?试分析由“线性判别函数向“非线性判别函数推广的思想和方法。答:实际中有很多模式识别问题并不是线性可分的,这时就需要采用非线性分类器,比方当两类样本分不具有多峰性质并互相交织时,简单的线性判别函数往往会带来较大的分类错误。这时,树分类器作为一种分段线性分类器,常常能有效地应用于这种情况。十六、1. 什么是
24、特征选择?2. 什么是线性判别?答:1. 特征选择就是从一组特征中挑选出一些最有效的特征以到达降低特征空间维数的目的。 2. 线性判别:可以考虑把d维空间的样本投影到一条直线上,形成一维空间,即把维数压缩到一维,这在数学上容易办到,然而,即使样本在d维空间里形成假设干紧凑的互相分得开的集群,如果把它们投影到一条任意的直线上,也可能使得几类样本混在一起而变得无法识别。但是在一般情况下,总可以找到某个方向,使得在这个方向的直线上,样本的投影能分开得最好。问题是如何根据实际情况找到这条最好的、最易于分类的投影线,这就是算法所要解决的根本问题。十七、写出两类和多类情况下最小风险贝叶斯决策判别函数和决策
25、面方程。数据获取预处理特征提取与选择分类决策分类器设计信号空间特征空间十八、请论述模式识别系统的主要组成局部及其设计流程,并简述各组成局部中常用方法的主要思想。信息获取:通过测量、采样和量化,可以用矩阵或向量表示二维图像或以为波形。预处理:去除噪声,加强有用的信息,并对输入测量仪器或其他因素造成的退化现象进展复原。特征选择和提取:为了有效地实现分类识别,就要对原始数据进展变换,得到最能反映分类本质的特征。分类决策:在特征空间中用统计方法把识别对象归为某一类。十九、有两类样本集 , ,1. 用变换求其二维特征空间,并求出其特征空间的坐标轴;2. 使用线性判别方法给出这两类样本的分类面。二十、定性
26、说明基于参数方法和非参数方法的概率密度估计有什么区别?答: 基于参数方法:是由类别的样本集对总体分布的某些参数进展统计推断非参数方法:样本所属类别,但未知总体概率密度函数形式二十一、答:二十二、简述支持向量机的根本思想。答:从线性可分情况下的最优分类面开展而来。最优分类面就是要求分类线不但能将两类正确分开(训练错误率为0),且使分类间隔最大。考虑寻找一个满足分类要求的超平面,并且使训练集中的点距离分类面尽可能的远,也就是寻找一个分类面使它两侧的空白区域()最大。过两类样本中离分类面最近的点,且平行于最优分类面的超平面上H1,H2的训练样本就叫支持向量。二十三、对于两类问题,假定,为d维特征向量
27、 请给出以下三种情况下的贝叶斯判别函数,并说明各有什么特点: 1. 2. 3. ,为单位矩阵答:1. 2. 判别边界仍是一条直线,但不垂直于均值的连线。3. 判决平面:判别边界是一条直线,且垂直于均值的连线。二十四、设两个家庭,每家3-5人,选每个人的一张照片,共8张,混放在一起,将照片两两对照,得出描述其“相似程度的模糊关系矩阵。要求按相似程度聚类,希望把二个家庭分开。模式识别期末复习1似然比决策准那么为:假设,那么;假设,那么。负对数似然比为,当是均值向量为和协方差矩阵为的正态分布时:试推导出,并指出其决策面规那么;分析这种情况下的决策面类型。 解:;两边取自然对数;似然比决策准那么为:假
28、设,那么;假设,那么即 假设,那么;假设,那么 由上式所决定的决策面为超平面。2 设在一维特征空间中两类样本服从正态分布,两类先验概率之比,试求按基于最小错误率贝叶斯决策原那么的决策分界面的值。解:由于按基于最小错误率的贝叶斯决策,那么分界面上的点服从3 对两类问题,假设损失函数;,试求基于最小风险贝叶斯决策分界面处的两类错误率、 及、的关系解:由于在基于最小风险贝叶斯决策分界面处有而在两类问题中,,故4 设一个二维空间中的两类样本服从正态分布,其参数分别为,先验概率。试证明其基于最小错误率的贝叶斯决策分界面方程为一圆,并求其方程。证明:先验概率相等条件下,基于最小错误率贝叶斯决策的分界面上两
29、类条件概率密度函数相等。因此有:化简为,是一个圆的方程5对两类问题,假设损失函数;,试求基于最小风险贝叶斯决策分界面处的两类错误率、 及、的关系。解:由于在基于最小风险贝叶斯决策分界面处有而在两类问题中,,故6 1指出从到超平面的距离是在的约束条件下,使到达极小的解;在超平面上的投影是。2对于二维线性判别函数 ,将判别函数写成的形式,并画出的几何图形;同时将其影射成增广齐次线性判别函数。3为什么说近邻法的分类器是线性分类器,试以以下样本数据集说明,并画出用近邻法得到的分类器。第一类样本:, ,;第二类样本:, ,。解:1说明在超平面上,当到达极小时,应是在超平面上的投影。那么那么即的极小解。、那么在超平面上的投影是。2这里,;假设将其影射成增广齐次线性判别函数那么,。3近邻法分类器的每条分界限必然由两个分别属于两类的样本点决定,故一定是线性的。这些分界面拼接起来,就得到了分段线性的近邻法分类器。此题的分类器如下图。7考虑基于具有先验知识和分布和的样本的分类器。1在这种情况下,求错误率;2求按最近邻法决策的渐近平均错误率。解: 8考虑一个对两类二维正态分布的样本进展分类的分类器,设,而且,。1 分别求出两类判别函数的表达式及;,2 求出两类样本之间的决策面方程,并根据该方程决定样本,的模式类别。解:1两类判别函数的表达式 2两类样本之间的决策面方程,