《《模式识别》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《模式识别》PPT课件.ppt(63页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第第8章章 特征选择与提取特征选择与提取 特征抽取的目的是获取一组特征抽取的目的是获取一组“少而精少而精”的的分类特征,即获取特征数目少且分类错误概率小分类特征,即获取特征数目少且分类错误概率小的特征向量。的特征向量。特征抽取常常分几步进行。特征抽取常常分几步进行。第一步:特征形成第一步:特征形成 第二步:特征选择第二步:特征选择 第三步;待征提取第三步;待征提取 本章只讨论特征选择和特征提取的方法本章只讨论特征选择和特征提取的方法 8.1 类别可分性准则类别可分性准则 特征选择或特征提取的任务特征选择或特征提取的任务是从是从n个特征个特征中求出对分类最有效的中求出对分类最有效的m个特征(个特
2、征(mn)。需要一个定量的准则来衡量选择结果的需要一个定量的准则来衡量选择结果的好坏。好坏。从理论上讲,设计分类器,那么用分类器的从理论上讲,设计分类器,那么用分类器的错误概率错误概率作为准则就行了。作为准则就行了。但是,从第四章中错误概率的计算公式就会但是,从第四章中错误概率的计算公式就会发现,即使在类条件概率密度已知的情况下错误发现,即使在类条件概率密度已知的情况下错误概率的计算就很复杂,何况实际问题中概率分布概率的计算就很复杂,何况实际问题中概率分布常常不知道,这使得直接用错误概率作为准则来常常不知道,这使得直接用错误概率作为准则来评价特征的有效性比较困难。评价特征的有效性比较困难。希望
3、找出另外一些更实用的准则来衡量各类希望找出另外一些更实用的准则来衡量各类间的可分性间的可分性。希望实用的可分性准则满足下列几条要求:希望实用的可分性准则满足下列几条要求:与错误概率有单调关系。与错误概率有单调关系。度量特性:度量特性:这里这里 是第是第i类和第类和第j类的可分性准则函数,类的可分性准则函数,越越大,两类的分离程度就越大。大,两类的分离程度就越大。单调性,即加入新的特征时,准则函数值不减单调性,即加入新的特征时,准则函数值不减小。小。8.1.1 基于距离的可分性准则基于距离的可分性准则 各类样本之间的距离越大,则类别可分性越各类样本之间的距离越大,则类别可分性越大。因此,可以用各
4、类样本之间的距离的平均值大。因此,可以用各类样本之间的距离的平均值作为可分性准则作为可分性准则 ()()式中,式中,c为类别数;为类别数;Ni为为 类中样本数;类中样本数;Nj为为 类类中样本数;中样本数;是相应类别的先验概率;是相应类别的先验概率;是样本是样本 与与 之间的距离。之间的距离。如果采用欧氏距离,即有如果采用欧氏距离,即有 ()()()()式中,式中,表示第表示第i类样本集的均值向量类样本集的均值向量 表示所有各类的样本集总平均向量表示所有各类的样本集总平均向量 也可以用下面定义的矩阵写出也可以用下面定义的矩阵写出 的表达式。的表达式。令令 ()()()()则则其中其中 表示取矩
5、阵表示取矩阵 的迹。的迹。为类内为类内离散度矩阵,离散度矩阵,为类间离散度矩阵。为类间离散度矩阵。我们希望类内离散度尽量小,类间离散度我们希望类内离散度尽量小,类间离散度尽量大,因此除尽量大,因此除 外,还可以提出下列准则外,还可以提出下列准则函数函数8.1.2 基于熵函数的可分性准则基于熵函数的可分性准则 最佳分类器由后验概率确定,所以可由特最佳分类器由后验概率确定,所以可由特征的后验概率分布来衡量它对分类的有效性。征的后验概率分布来衡量它对分类的有效性。如果对某些特征,各类后验概率是相等的,如果对某些特征,各类后验概率是相等的,即即 其中其中c为类别数,则我们将无从确定样本所属为类别数,则
6、我们将无从确定样本所属类别,或者我们只能任意指定类别,或者我们只能任意指定x属于某一类属于某一类(假定先验概率相等或不知道假定先验概率相等或不知道),此时其错误,此时其错误概率为概率为 另一个极端情况是,如果能有一组特征使得另一个极端情况是,如果能有一组特征使得 此时此时x划归划归 类,其错误概率为类,其错误概率为0。可见后验概率越集中,错误概率就越小。后可见后验概率越集中,错误概率就越小。后验概率分布越平缓验概率分布越平缓(接近均匀分布接近均匀分布),则分类错误,则分类错误概率就越大。概率就越大。为了衡量后验概率分布的集中程度,需要规为了衡量后验概率分布的集中程度,需要规定一个定量准则,我们
7、可以借助于信息论中关于定一个定量准则,我们可以借助于信息论中关于熵的概念。熵的概念。设设 为可能取值为可能取值 的一个随机变的一个随机变量,它的取值依赖于分布密度为量,它的取值依赖于分布密度为 的随机向量的随机向量x(特征向量特征向量)。我们想知道的是:给定某一。我们想知道的是:给定某一x后,后,我们从我们从 观察的结果中得到了多少信息?或者说观察的结果中得到了多少信息?或者说 的不确定性减少了多少?的不确定性减少了多少?从特征抽取的角度看,用具有最小不确定性从特征抽取的角度看,用具有最小不确定性的那些特征进行分类是有利的。的那些特征进行分类是有利的。在信息论中用在信息论中用“熵熵”作为不确定
8、性的度量,作为不确定性的度量,它是它是 ,的函数。可定义的函数。可定义如下形式的广义熵:如下形式的广义熵:式中,式中,是一个实的正参数,是一个实的正参数,。不同的不同的 值可以得到不同的熵分离度量,例值可以得到不同的熵分离度量,例如当如当 趋近于趋近于1时,根据时,根据LHospital法则有法则有 当当 2时,得到平方熵时,得到平方熵 显然,为了对所提取的特征进行评价,我们显然,为了对所提取的特征进行评价,我们要计算空间每一点的熵函数。在熵函数取值较大要计算空间每一点的熵函数。在熵函数取值较大的那一部分空间,不同类的样本必然在较大的程的那一部分空间,不同类的样本必然在较大的程度上互相重叠。因
9、此熵函数的期望值度上互相重叠。因此熵函数的期望值可以表征类别的分离程度,它可用来作为所提取可以表征类别的分离程度,它可用来作为所提取特征的分类性能的准则函数。特征的分类性能的准则函数。8.2 8.2 特征选择特征选择 从从n n个特征中挑选出个特征中挑选出m(mm(mn)n)个最有效的特征,个最有效的特征,这就是特征选择的任务。这就是特征选择的任务。最直接的特征选择方法是根据专家的知识挑最直接的特征选择方法是根据专家的知识挑选那些对分类最有影响的特征。选那些对分类最有影响的特征。另一种是用数学方法进行筛选比较,找出最另一种是用数学方法进行筛选比较,找出最有分类信息的特征。本节只讨论用数学方法进
10、行有分类信息的特征。本节只讨论用数学方法进行特征选择。特征选择。要完成特征选择的任务,必须解决两个问题:要完成特征选择的任务,必须解决两个问题:选择的标准选择的标准,这可以用前面讲的类别可分性准则,这可以用前面讲的类别可分性准则,选出使某一可分性达到最大的特征组来。选出使某一可分性达到最大的特征组来。找一个较好的算法找一个较好的算法,以便在较短的时间内找出最,以便在较短的时间内找出最优的那一组特征。优的那一组特征。有两个极端的特征选择算法,一个是有两个极端的特征选择算法,一个是单独选单独选择法择法,另一个是,另一个是穷举选择法穷举选择法。1.单独选择法单独选择法 就是把就是把n n个特征每个特
11、征单独使用时的可分个特征每个特征单独使用时的可分性准则函数值都算出来,按准则函数值从大到小性准则函数值都算出来,按准则函数值从大到小排序,如排序,如 J(x J(x1 1)J(xJ(x2 2)J(xJ(xm m)J(xJ(xn n)然后,取使然后,取使J J较大的前较大的前m m个特征作为选择个特征作为选择结果。结果。问题:问题:这样得到的这样得到的m个特征是否就是一个最优的特个特征是否就是一个最优的特征组呢?征组呢?2.穷举选择法穷举选择法 从从n个个特特征征中中挑挑选选m个个,把把所所有有可可能能的的组组合合的的可可分分性性准准则则函函数数值值都都算算出出来来,然然后后看看哪哪一一种种特特
12、征征组组合合的的准准则则函函数数值值最最大大,我我们们就就选选中中该该种种组组合合的的m个特征。这就是穷举选择法。个特征。这就是穷举选择法。一一般般,穷穷举举法法的的计计算算量量太太大大,以以至至无无法法实实现现。因此,我们常采用一些优化算法进行特征选择。因此,我们常采用一些优化算法进行特征选择。3.穷举法的快速算法穷举法的快速算法 穷穷举举法法的的快快速速算算法法的的基基本本技技术术是是合合理理地地组组织织搜搜索索过过程程和和特特征征组组合合,避避免免具具体体计计算算所所有有的的特特征征组组合合,同同时时又又能能把把所所有有的的特特征征组组合合都都考考虑虑到到,不不影影响响达达到到的的最最优
13、优结结果果,使使选选出出的的一一组组特特征征的的准准则则J()最最大大。快快速速算算法法的的主主要要依依据据是是分分类类准准则则的的单单调调性性,若若用用 表表示示剔剔除除k个个特特征征后后的的特特征组合,则若有征组合,则若有 则必有则必有 分分支支定定界界算算法法是是穷穷举举法法的的一一种种快快速速算算法法。是是一一种种自自上上而而下下的的搜搜索索方方法法,且且具具有有回回溯溯功功能能,首首先先搜搜索索最最右右边边的的分分支支,按按由由上上到到下下的的顺顺序序搜搜索索完完一一个个子子树树后后,再再回回到到根根节节点点,按按由由右右到到左左的的顺顺序,依次搜索其它的分支。序,依次搜索其它的分支
14、。(说明)(说明)8.3 基于距离可分性准则的特征提取基于距离可分性准则的特征提取 特征选择是在一定准则下从特征选择是在一定准则下从n个特征中挑选个特征中挑选出最优的出最优的m个特征,其余的个特征,其余的n-m个特征被取消了。个特征被取消了。一般来说,原来的一般来说,原来的n-m个特征多多少少都含有一个特征多多少少都含有一些分类信息,简单地把这些特征抛弃了,有点些分类信息,简单地把这些特征抛弃了,有点可惜。那么能不能把可惜。那么能不能把n个特征的分类信息尽量集个特征的分类信息尽量集中到中到m个特征中去?这就是特征提取要研究的个特征中去?这就是特征提取要研究的问题。问题。特征提取就是通过某种数学
15、变换,把特征提取就是通过某种数学变换,把n个特个特征压缩为征压缩为m个特征,即个特征,即()()式中,式中,x是具有是具有n个特征的向量,变换矩阵个特征的向量,变换矩阵A是一是一个个nm阶的矩阵,经变换后的向量阶的矩阵,经变换后的向量y是是m维的维的,mn。特征提取的关键问题是求出最佳的变换矩特征提取的关键问题是求出最佳的变换矩阵,使得变换后的阵,使得变换后的m维模式空间中,类别可分维模式空间中,类别可分性准则值最大。性准则值最大。以可分性准则以可分性准则 为例,详细讨论为例,详细讨论一下基于一下基于 的特征提取问题。的特征提取问题。采用变换采用变换 后,我们希望在后,我们希望在m维的维的y空
16、间里,样本的类别可分性好,即希望在空间里,样本的类别可分性好,即希望在y空间空间里,准则函数里,准则函数 达到最大值。达到最大值。y空间里的协方差矩阵空间里的协方差矩阵 与与x空间里的协空间里的协方差矩阵方差矩阵 有如下关系:有如下关系:()()(证明)(证明)这样,这样,y空间里的类内离散度矩阵空间里的类内离散度矩阵 可用可用x空间里的类内离散度矩阵空间里的类内离散度矩阵 计算得到:计算得到:同样有同样有因此,特征提取问题就变成求变换矩阵因此,特征提取问题就变成求变换矩阵A,使得,使得y空间里的准则函数空间里的准则函数 达到最大值。达到最大值。(具体过程)(具体过程)例例8.1 给定先验概率
17、相等的两类,其均值向量分别给定先验概率相等的两类,其均值向量分别为为 ,协方差矩阵分别为,协方差矩阵分别为 求用求用 的特征提取。的特征提取。8.4 基于基于K-L变换的特征提取变换的特征提取离散离散K-L展开式展开式 K-L变换是一种常用的正交变换。变换是一种常用的正交变换。假设假设x为为n维的随机向量,维的随机向量,x可以用可以用n个基向个基向量的加权和来表示:量的加权和来表示:()()式中,式中,为基向量,为基向量,为加权系数。为加权系数。式式(8.4-1)还可以用矩阵形式表示:还可以用矩阵形式表示:()()式中式中 ,取基向量为正交向量,即取基向量为正交向量,即 由正交向量构成,是正交
18、矩阵,即由正交向量构成,是正交矩阵,即()()将式将式(8.4-2)两边左乘两边左乘 ,得,得()()即即()()我们希望向量我们希望向量 的各个分量间互不相关的各个分量间互不相关。那么。那么如何保证如何保证 的各个分量间互不相关呢的各个分量间互不相关呢?这取决这取决于选用什么样的正交向量集于选用什么样的正交向量集 下面来导出所需的正交向量集下面来导出所需的正交向量集 设随机向量设随机向量 的总体自相关矩阵为的总体自相关矩阵为 将将 代入上式,得代入上式,得 我们要求向量我们要求向量 的各个分量间互不相关,的各个分量间互不相关,即应满足下列关系:即应满足下列关系:写成矩阵形式,应使写成矩阵形式
19、,应使则则将上式两边右乘将上式两边右乘 ,得,得因因 是正交矩阵,所以得是正交矩阵,所以得即即 可以看出:可以看出:是是 的自相关矩阵的自相关矩阵R的本征值,是的本征值,是对应的本征向量。因为对应的本征向量。因为R是实对称矩阵,其不同是实对称矩阵,其不同本征值对应的本征向量应正交。本征值对应的本征向量应正交。综上所述,综上所述,K-L展开式的系数可用下列步骤求出:展开式的系数可用下列步骤求出:求随机向量求随机向量x的自相关矩阵的自相关矩阵求出自相关矩阵求出自相关矩阵R的本征值的本征值 和对应的本征向量和对应的本征向量 ,得到矩阵,得到矩阵展开式系数即为展开式系数即为8.4.2 基于基于K-L变
20、换的数据压缩变换的数据压缩 我们从我们从n个本征向量中取出个本征向量中取出m个组成变换矩个组成变换矩阵阵A,即,即 这时,这时,A是一个是一个n m维矩阵,维矩阵,x为为n维向量,经维向量,经过过 变换,得到降维为变换,得到降维为m的新向量。的新向量。现在的现在的问题是选取哪问题是选取哪m个本征向量构成变换矩阵个本征向量构成变换矩阵A,使,使降维的新向量在最小均方误差准则下接近原来降维的新向量在最小均方误差准则下接近原来的向量的向量x?对于式对于式(8.4-1),即,即 现在只取现在只取m项,对略去的项用预先选定的项,对略去的项用预先选定的常数常数bj来代替,这时对来代替,这时对x的估计值为的
21、估计值为由此产生的误差为由此产生的误差为 均方误差为均方误差为()()要使要使 最小,对最小,对bj的选择应满足的选择应满足 所以所以 ()()这就是说,这就是说,对于省略掉的那些对于省略掉的那些 中的分量,应中的分量,应该用它们的期望值来代替该用它们的期望值来代替。如果在如果在K-L变换前,将模式总体的均值向量作为变换前,将模式总体的均值向量作为新坐标系的原点,即在新坐标系中,新坐标系的原点,即在新坐标系中,Ex0,根据式根据式(8.4-7)得得 这样,由式这样,由式(8.4-6)给出的均方误差变为给出的均方误差变为 式中式中 是是x的自相关矩阵的自相关矩阵R的第的第j个本征值;个本征值;是
22、是与与 对应的本征向量。显然,所选的对应的本征向量。显然,所选的 值越小,值越小,均方误差也越小。均方误差也越小。综上所述,基于综上所述,基于K-L变换的数据压缩的步骤如下:变换的数据压缩的步骤如下:平移坐标系,将模式总体的均值向量作为新坐标平移坐标系,将模式总体的均值向量作为新坐标系的原点;系的原点;求出自相关矩阵求出自相关矩阵R;求出求出R的本征值的本征值 及其对应的及其对应的 本征向量本征向量 ;将本征值按从大到小排序,如:将本征值按从大到小排序,如:取前取前m个大的本征值所对应的本征向量构成变换个大的本征值所对应的本征向量构成变换矩阵:矩阵:将将n维的原向量变换成维的原向量变换成m维的
23、新向量:维的新向量:例例8-2 给出样本数据如下:给出样本数据如下:试用试用K-L变换作一维数据压缩。变换作一维数据压缩。解解.求样本总体均值向量求样本总体均值向量 无需作坐标系平移。无需作坐标系平移。求自相关矩阵求自相关矩阵 求本征值和本征向量。解本征值方程求本征值和本征向量。解本征值方程 即即 解得本征值解得本征值 由由 ,可解得本征向量为,可解得本征向量为 取取 作为变换矩阵作为变换矩阵 将原样本变换为一维的样本:将原样本变换为一维的样本:其结果如图其结果如图8-2所示。所示。8.4.3 基于基于K-L变换的特征提取变换的特征提取 K-L变换适用任何概率分布,它是在均方变换适用任何概率分
24、布,它是在均方误差最小的意义下获得数据压缩的最佳变换。误差最小的意义下获得数据压缩的最佳变换。采用大本征值对应的本征向量构成变换矩阵,采用大本征值对应的本征向量构成变换矩阵,起了减小相关性、突出差异性的效果,有人称起了减小相关性、突出差异性的效果,有人称之为之为主分量变换主分量变换。不过,采用。不过,采用K-L变换作为模式变换作为模式分类的特征提取时要注意保留不同类别的模式分类的特征提取时要注意保留不同类别的模式分类识别信息。单纯考虑尽可能准确地代表原分类识别信息。单纯考虑尽可能准确地代表原模式的主分量,有时分类效果并不好。模式的主分量,有时分类效果并不好。(1)采用模式总体自相关矩阵作采用模
25、式总体自相关矩阵作K-L变换变换 这是把多类模式合并起来看成是一个总体这是把多类模式合并起来看成是一个总体分布,按其自相关矩阵作分布,按其自相关矩阵作K-L变换,采用与大本变换,采用与大本征值对应的本征向量构成变换矩阵,使降维模征值对应的本征向量构成变换矩阵,使降维模式能在均方误差最小的条件下逼近原来的模式,式能在均方误差最小的条件下逼近原来的模式,这就是上面小节中讨论过的情况。采用自相关这就是上面小节中讨论过的情况。采用自相关矩阵能保留模式原有分布的主要结构。如果原矩阵能保留模式原有分布的主要结构。如果原来的多类模式在总体分布上存在可分性好的特来的多类模式在总体分布上存在可分性好的特征,用总
26、体自相关矩阵的征,用总体自相关矩阵的K-L变换便能尽量多地变换便能尽量多地保留可分性信息。保留可分性信息。(2)采用离散度矩阵采用离散度矩阵 作作K-L变换变换 为了强调模式的分类识别信息,可用为了强调模式的分类识别信息,可用 作作K-L变换。如果模式类别数为变换。如果模式类别数为c,则类间离散,则类间离散度矩阵度矩阵 的秩不会大于的秩不会大于c-1。假使类内离散度矩。假使类内离散度矩阵阵 为满秩矩阵,则为满秩矩阵,则 的秩也不会大于的秩也不会大于c-1,只多有只多有c-1个非零本征值。我们可求出个非零本征值。我们可求出 的的c-1个非零本征值,按从大到小排序,如:个非零本征值,按从大到小排序
27、,如:选出选出m个与大本征值对应的本征向量构成变换个与大本征值对应的本征向量构成变换矩阵。这实际上就是节讨论的基于距离可分性矩阵。这实际上就是节讨论的基于距离可分性准则的特征提取。准则的特征提取。8.5 基于神经网络的特征提取基于神经网络的特征提取 8.5.1 最大主分量的自适应提取最大主分量的自适应提取 图图8-3给出的神经网络可以完成最大主分量给出的神经网络可以完成最大主分量的自适应提取。的自适应提取。图图8-3 网络结构确定了,下面的问题是该网络的网络结构确定了,下面的问题是该网络的权向量权向量w按什么规则进行学习。按什么规则进行学习。我们定义目标函数为我们定义目标函数为 式中,式中,是
28、是x的自相关矩阵。的自相关矩阵。为了获取使为了获取使 达到最大值的权向量达到最大值的权向量w,可由梯度下降法来实现。可由梯度下降法来实现。相对于相对于w的梯度为的梯度为我们规定,权向量我们规定,权向量w为归一化向量:为归一化向量:,可得,可得 ()()即即用样本值代替随机向量,则上式为用样本值代替随机向量,则上式为 这样,权向量这样,权向量w的修正量为的修正量为该网络权向量的修正规则为该网络权向量的修正规则为 ()()该网络采用式该网络采用式(8.5-2)的权向量修正规则,经若干的权向量修正规则,经若干步迭代后,网络收敛。网络收敛后有以下三个步迭代后,网络收敛。网络收敛后有以下三个结论:结论:
29、(1)(2)w位于位于R的最大本征向量方向上的最大本征向量方向上(3)输出方差最大,即)输出方差最大,即w w位于使位于使 最大的方向上最大的方向上 以以上上结结论论告告诉诉我我们们,该该网网络络在在式式(8.5-2)学学习习规规则则下下迭迭代代,权权向向量量w将将收收敛敛于于R的的最最大大本本征征值值的的归归一一化化本本征征向向量量。因因此此,该该网网络络完完成成了了将将n维维的的数数据据压压缩缩为为一一维维的的数数据据,而而且且保保证证压压缩结果,均方误差最小。缩结果,均方误差最小。多主分量的自适应提取多主分量的自适应提取 图图8-3中的神经网络只有一个输出节点,中的神经网络只有一个输出节
30、点,可获得第一主分量。下面考虑图可获得第一主分量。下面考虑图8-4所示的具有所示的具有多个输出节点的神经网络。多个输出节点的神经网络。假定网络的前假定网络的前m-1个输出神经元的权向量个输出神经元的权向量已收敛于样本自相关矩阵已收敛于样本自相关矩阵R的前的前m-1个最大的个最大的本征向量,该网络经过学习,第本征向量,该网络经过学习,第m个神经元的个神经元的权向量可以收敛于权向量可以收敛于R的第的第m个最大的本征向量,个最大的本征向量,该权向量与前该权向量与前m-1个权向量正交。个权向量正交。假设样本向量为假设样本向量为 ,由前,由前m-1个神经元的输出构成的向量为个神经元的输出构成的向量为 ,
31、由前由前m-1个神经元的权向量构成的矩阵为个神经元的权向量构成的矩阵为 ,第第m个神经元的权向量为个神经元的权向量为 ,前前m-1个神经元与第个神经元与第m个神经个神经元的连接权向量为元的连接权向量为 。这样,网络的输入输出关系为这样,网络的输入输出关系为()()()()我们确定网络权向量修正规则如下我们确定网络权向量修正规则如下:()()()()不难看出,式不难看出,式(8.5-7)与节中的权向量修正规则与节中的权向量修正规则是相同的,式是相同的,式(8.5-8)具有正交归一化的功能。具有正交归一化的功能。下面我们分析这种算法的收敛特性。下面我们分析这种算法的收敛特性。假设前假设前m-1个神
32、经元的权向量个神经元的权向量 已分别收敛于已分别收敛于R的前的前m-1个最大的本征向量个最大的本征向量 ,即,即 我们将我们将 展开成展开成()()将式将式(8.5-5)和和(8.5-6)代入式代入式(8.5-7),得,得 对上式两边求统计平均,可得对上式两边求统计平均,可得 ()()式中,式中,()()根据式根据式(8.5-9)和式和式(8.5-10),可得的修正规则,可得的修正规则为为 即即 ()()式中,式中,为为R的第的第i个本征值。个本征值。类似地对式类似地对式(8.5-8)两边求统计平均可得两边求统计平均可得 ()()将式将式(8.5-12)和和(8.5-13)两式联立,并写成矩阵
33、形两式联立,并写成矩阵形式式 ()()由于由于 时,时,因此我们对式,因此我们对式(8.5-14)的讨的讨论可以分成论可以分成 和和 两种两种情况来进行。情况来进行。第一种情况第一种情况():如果如果 ,那么式,那么式(8.5-14)的系数矩阵有的系数矩阵有个个二重本征值:二重本征值:只要只要 足够小,使得足够小,使得 ,那么有,那么有 ()()第二种情况第二种情况 ():此时,式此时,式(8.5-12)变为变为 ()()式式(8.5-11)变为变为当当 时,有时,有 ()()假定假定 ,并令,并令由式()可得由式()可得由于由于R的本征值排序为的本征值排序为 ,所以所以进而进而由于由于 有界
34、,所以有界,所以这样,式这样,式(8.5-17)变为变为将上式代入式将上式代入式(8.5-16)可得可得由上式可得由上式可得综合以上两种情况可得:综合以上两种情况可得:这样由式这样由式(8.5-9)可得可得多主分量自适应提取算法如下:多主分量自适应提取算法如下:取取m1;随机选择初始值随机选择初始值 和和 ;适当选择步长适当选择步长 和和 ;利用式利用式(8.5-7)和和(8.5-8)计算计算 和和 ;计算误差计算误差 和和 ,若误差大于设定值,则转到第若误差大于设定值,则转到第步:步:若误差小于设定值,则令若误差小于设定值,则令mm十十1;此时;此时若若mp(p为所需的主分量个数为所需的主分
35、量个数),转第,转第步,步,否则算法结束。否则算法结束。上述多主分量提取算法有如下特点:上述多主分量提取算法有如下特点:(1)算法利用前)算法利用前m-1神经元的权向量来递推计算神经元的权向量来递推计算第第m个神经元的权向量,这样可大大减少算法个神经元的权向量,这样可大大减少算法的计算量。的计算量。(2)由于)由于 ,而,而 ,因此,从网络,因此,从网络的输出就可直接得到的自相关矩阵的输出就可直接得到的自相关矩阵R的本征值。的本征值。(3)可以采用变步长学习,对于第)可以采用变步长学习,对于第m个本征向量个本征向量的提取,可选用步长的提取,可选用步长 这样可加快算法的收敛速度。这样可加快算法的收敛速度。