基于bp神经网络的自适应伪最近邻分类-曾勇.pdf-淘文阁

资源描述

《基于bp神经网络的自适应伪最近邻分类-曾勇.pdf》由会员分享，可在线阅读，更多相关《基于bp神经网络的自适应伪最近邻分类-曾勇.pdf（6页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第 38卷第 11期电子与信息学报 Vol.38No.112016年 11月 JournalofElectronics&InformationTechnology .Nov.2016基于 BP 神经网络的自适应伪最近邻分类曾勇舒欢*胡江平葛月月(电子科技大学自动化工程学院成都611731)摘要：在伪最近邻 (PNN)分类算法中，待分类样本点与每一类样本集中各个近邻的距离加权系数都是主观确定的，这就使得算法得不到最优距离加权值。针

2、对这一问题，该文提出一种基于 BP神经网络的自适应伪最近邻分类算法。首先通过计算待分类样本点与每一类样本集中各个近邻的距离值，并将其作为 BP神经网络的输入。然后根据 BP神经网络输入与输出之间的映射来自适应确定相应的距离加权值。最后由 BP神经网络的输出值判别样本类别号。实验结果表明，该算法能够自适应地调节距离加权

3、系数，同时还能有效地改善分类准确率。关键词：伪最近邻分类； BP神经网络；自适应中图分类号： TP181 文献标识码： A 文章编号： 1009-5896(2016)11-2774-06DOI:10.11999/JEIT160133Adaptive Pseudo Nearest Neighbor ClassificationBased on BP Neural NetworkZENGYong SHUHuan HUJiangping GEYueyue(School of Automation Eng

4、ineering, University of Electronic Science andTechnology of China, Chengdu 611731, China)Abstract: Distance-weighted coefficients between unlabeled sample point and its nearest neighbors belonging tosamesamplesetaredeterminedsubjectivelyinthePseudoNearestNeighbor(PNN)classificationalgorithm,whichmak

5、es it difficult to obtain optimal distance-weighted value. In this paper, an adaptive pseudo neighborclassification algorithm based on BP neural network is proposed. Firstly, the distance-weighted values betweenunlabeled sample point and its neighbors lying in the same sample set are regarded as the

6、 input of BP neuralnetwork. Secondly, the corresponding distance-weighted values are adaptively determined according to themappingbetweentheinputsandoutputsofBPneuralnetwork.Finally,theclassificationofunlabeledsamplepointisjudgedbytheoutputsofBPneuralnetwork.Experimentalresultsshowthattheproposedapp

7、roachadaptivelyadjuststhedistance-weightedcoefficients.Moreover,theclassificationaccuracycanbeeffectivelyimproved.Key words:PseudoNearestNeighbor(PNN)classification;BPneuralnetwork;Adaptive1 引言k - 近邻分类规则 (the voting k-NearestNeighbor Rule,k -NNR)是一种经典的非参数分类方法，作为数据挖掘领域的十大

8、经典算法之一 1，已在字符识别 2、文本分类 3、时间序列 4 6- 、生物医学研究 7,8、空间查询 9等诸多领域 10,11得到了广泛的应用。在 k -近邻分类规则里，测试样本的 k 个近邻类别信息被赋予相同的权值。事实上，不同近邻对测试样本的分类会产生不同的影响。基于此，文献收稿日期： 2016-01-29；改回日期： 2016-06-17；网络出版： 2016-09-0

9、8*通信作者：舒欢基金项目：国家自然科学基金 (61104104,61473061)，四川省信号与信息重点实验室基金 (SZJJ2009-002)Foundation Items: The National Natural Science Foundation ofChina(61104104,61473061),TheFundofSichuanProvincialKeyLaboratoryofSignalandInformationProcessing(SZJJ2009-002)12-14提出了几种距离加权的

10、 k -近邻规则。在加权的 k -近邻分类规则里，与测试样本距离较近的近邻被赋予较大的权值，反之，距离较远的近邻被赋予较小的权值。在某些场合，文献 12已经发现加权的k -近邻规则可以比传统的 k -近邻规则取得较好的性能。但是一些学者发现，在样本无限的情况下，加权的 k -近邻规则的渐进分类误差率并不好于传统的 k -近邻规则 15,16。受

11、到距离加权的 k -近邻分类规则的启发，文献17提出了伪最近邻分类规则 (Pseudo NearestNeighborRule,PNNR)。在伪最近邻分类规则中，一个称之为伪最近邻 (Pseudo Nearest Neighbor,PNN) 的新的最近邻取代原来的最近邻，伪最近邻由待分类样本点的属于同一类别的 k 个近邻的距离加权和决定，待分类样本被指定为伪最近邻所属的万方数据第 11期曾

12、勇等：基于 BP神经网络的自适应伪最近邻分类 2775类别。 PNNR充分利用了测试样本在每一类原型样本集里的多个近邻信息，大量的实验结果显示该算法的分类性能优于传统的最近邻分类方法与传统的k -近邻分类方法，也优于传统的距离加权的近邻分类算法。然而在 PNNR算法中，对待分类样本点的属于同一类别的 k 个近邻的距离进行加权时，无论

13、采用倒数距离加权，还是采用指数逆距离加权，距离加权系数都是人为主观确定的，并不能得到较优的距离加权值。为了解决 PNNR存在的不足，本文提出了一种新的分类方法：基于 BP神经网络的自适应伪最近邻分类方法 (Adaptive pseudo Nearest Neighborclassification based on BP neural network,BPANN)，根据同类样本特征相似，而不同样

14、本特征值差异较大这一特性来计算测试样本在每一个类别中的 k 个近邻点，充分利用了测试样本在每一类原型样本集里的多个近邻信息，将计算出的测试样本与各近邻点间的距离值作为网络输入，并通过 BP神经网络输入和输出之间的映射自适应地训练距离加权系数，使得分类器的分类精度得以提高。本文其余部分组织如下：第 2节介绍伪最近邻分类

15、算法；第 3节将给出本文所提出的 BPANN的具体算法步骤以及分类器设计；第 4节是实验及结果分析；最后是本文结论。2 伪最近邻分类对于 N 个原型样本， 1 2, , , MN N N 分别各自表示属于类 1,2, ,M 的原型样本数，在伪最近邻分类规则里， ( ) ( ) ( )1 2, , , jkj j jx x x 表示测试样本 x 在第 j 类原型样本里的 jk 个近邻， ( ) ( ) ( )1 2,

16、, , jkj j jd d d 表示其对应按升序排列的与测试样本 x 的距离，为 jk 个近邻分配权值 1 2, , , jkj j jw w w ，这些权值有多种分配方式，如加权距离赋值方式、指数逆距离加权方式、倒数距离加权等方式，并且 1 2, , , jkj j jw w w 必须满足式 (1)关系：1 2 1 1, 1j jk kj j j j jw w w w w- = (1)式中，取测试样本 x 在不同类的原型样

17、本集里的近邻数相等，即令 ,j ik k k i j= = ，且 1min( ,k N2, , )MN N ，近邻数 jk 是利用交叉验证方法得到的。同时，令相应的权值 m mi jw w= ，这里 1,2, , m k ,miw 与 mjw 分别是测试样本 x 在第 i 类原型样本里的第 m 个近邻 ( )mix 的距离加权值及测试样本 x 在第 j类原型样本里的第 m 个近邻 ( )mjx 的距离加权值。令jd 表示测试样本

18、 x 在第 j 类原型样本里的 k 个近邻的距离加权和，则有 ( )1 1 , 1,2, ,kkj j j j jd w d w d j M= + + = (2)定义测试样本 x 的伪最近邻 PNNx 为( )PNN 1 2min , , , Mx d d d= (3)必须指出的是，这里测试样本 x 的伪最近邻PNNx 是一个标量， PNNx 并不是测试样本 x 真实的最近邻，它是一个假的最近邻，因而称为伪最近邻。伪最近邻 PNNx 代

19、表的是测试样本 x 在某一类原型样本里的 k 个近邻的距离加权和的最小值，实际上最后代表的是类别信息，因此可用它来进行分类，即伪最近邻规则。由文献 17提出的伪最近邻规则 PNNR(PseudoNearestNeighborRule)如下：一个测试样本对 ( ),x 给定，则伪最近邻分类规则把测试样本 x 分配为其伪最近邻 PNNx 所属的类别，如果有多个伪最近邻，则

20、在其中随机选择一个，并把其对应的类别指定给测试样本。实验表明伪最近邻分类方法的分类性能优于传统的最近邻分类方法与传统的 k -近邻分类方法，也优于传统的距离加权的近邻分类算法 17，但由于其中的距离加权系数都是人为主观确定的，并不能得到较优的距离加权值，为此本文提出了一种基于 BP神经网络的自适应伪最近邻分类的方法。3

21、基于 BP 神经网络的自适应伪最近邻分类基于 BP神经网络的自适应伪最近邻分类是伪最近邻分类方法的扩展，与 PNN分类算法不同的是， BP神经网络分类器的输入不是待分类样本点的特征值，而是待分类样本在每一类样本集中的各个近邻的距离值。并且距离加权值不需要人为确定，而是由 BP神经网络输入和输出之间的映射自适应确定，同时对每类原

22、型样本自适应的设计其相应的分类器，从有效的样本资料中得到尽可能多的信息，使其获得更好的分类效果。图 1显示的是自适应伪最近邻分类器的训练原理图，其中输入数据是训练数据集， 1 2, , , MN N N 分别各自表示属于类 1,2, ,M 的原型样本数， ( ) ( ) ( )1 2, , , kj j jd d d 表示其对应 k 个近邻按升序排列的与测试样本 x 的距离， 1

23、 2, , , Mj j j 表示M 个分类器的输出值。图 1 自适应伪最近邻分类器训练原理图万方数据2776 电子与信息学报第 38卷3.1 BPANN 模型的参数设置BP神经网络具有良好的容错性、与人脑相似的高度并行性以及联想记忆功能，容错能力和自适应学习都较强，可以实现从输入到输出的非线性映射。应用于近邻分类的 BP神经网络分类器，必须结合数据集的情况

24、设计，并在试验中不断改进，才能训练出泛化性能好的模式分类器。所以，必须选择适当大小的网络结构，网络太小不能解决问题，太大则推广能力差。本文中， BP神经网络在样本训练阶段通过附加动量法来调整层与层之间的权值和阈值，从而通过网络输入输出之间的映射自适应的调节距离加权权值，同时针对样本数据的数据类别自适应的设计其

25、相应的分类器，以便选出较优的分类器。 (1)输入与输出层节点数确定： BP网络的输入、输出层维数需要根据实际要求而定，本实验中，若样本预处理时采用的是 k 近邻，那么输入层的维数就为 k ；而输出层输出的则是样本的相似度即新的距离加权和，因此输出层的维数为 1。(2)隐层层数的选择及隐层节点数：根据戈尔莫戈罗夫 (Kolmogorov)定理，

26、一个 3层的 BP网络足以完成任何从输入到输出的连续映射，因此，我们采用具有一个隐层的 3层 BP神经网络。隐节点数目的选择是一个比较复杂的问题，目前确定隐节点数的方法有很多种，主要有修剪方法、复杂性调整方法、增益方法、进化方法、自适应方法 18等。在大量实验的基础上，这里选择式 (4)作为参考。( )( )Hidden In Out Classmax , 2

27、N N N N= + (4)其中， HiddenN 为隐层节点数， InN , OutN , ClassN 分别为 BP网络的输入、输出层节点数和所需分的目标分类数即样本数据的类别数。(3)激活函数的选择：神经元的激活函数一般选用 Sigmoid函数，经过大量实验对比，最终我们选取式 (5)所示 logistic函数作为激活函数。( ) ( )1( ) 1 exp ( )j j jv n v nj = + - (5)其中， (

28、 )jv n 是神经元 j 的诱导局部域，其范围位于( , )- + ，输出 ( ( )j jv nj 的范围位于 0,1 区间内。(4)初始权值的选取：因系统的非线性性使初始权值对学习是否收敛关系很大，故而希望初始权值在输入累加时使每个神经元的状态值接近于零。一般，初始权值取随机数，而且权的值要求比较小。(5)学习率以及冲量项的选择：原则上，只要学习

29、率足够小以保证收敛，但实际上学习率可以影响到最后的网络性能。而冲量项的目的在于：允许当误差曲面中存在平坦区时，网络可以以更快的速度学习，增加了学习过程的稳定性。对于我们所用的Sigmoid型网络，可以首先将学习率 h 设为 0.2，冲量项设为 0.9，然后可以在学习过程中适当的改动。3.2 BPANN 分类方法的实现基于 BP神经网络的自适

30、应伪最近邻分类方法实现的流程图如图 2所示。由于在实际应用中用于训练的样本各元素之间取值范围不可能完全一致，这就给网络的训练带来很大不便，不仅加大了逼近函数的波动性，使网络训练速度下降，而且容易造成网络训练失败。因此先对数据进行适当的预处理是非常重要的，这在一定程度上可以加速训练，提高训练的成功率。样本集经过预

31、处理后，便将其送入 BP神经网络中进行网络训练。对于一个数据集中 N 个可得的训练样本，令 1 2, , , MN N N 分别表示对应于属于类 1,2, ,M 的训练样本数。BPANN的具体步骤如下：步骤1 将样本数据集 (data)分为训练集(trainsam)和测试集 (testsam)，进行数据预处理。计算每个训练样本点 x 在每一类训练样本中的 k 个近邻 ( ) ( ) ( )1 2, , , (

32、 1,2, , )kj j jx x x j M= ，以及到各个近邻的距离，并将其按升序排列为 ( ) ( ) ( )1 2, , , (kj j jd d d j =1,2, , )M ，对每一类样本数据经过归一化处理后计算对应的正例、反例，类 1,2, ,M 的正例、反例个数分别为1 2, , , MN N N ，其中正例指在类内寻找的样本点，反例指从类间寻找的样本。将每一类的正例、反例作为 BP神经网

33、络的输入，表示为 X ，并且数据集中每一类样本分别对应一个 BP网络分类器，类 1,2, ,M 共对应 M 个分类器。步骤2 for 1 to n M=初始化 BP神经网络，即设定网络参数。其中输入层到隐含层与隐含层到输出层的权值和偏置分别表示为 1, 2, 1, 2b bw w ，将它们分别取随机数。图 2 基于 BP神经网络的自适应伪最近邻分类方法实现流程万方数据第 11期曾勇等

34、：基于 BP神经网络的自适应伪最近邻分类 2777完成步骤 3-步骤 5。步骤3 预处理后的数据送入网络中进行训练，得到新的权值以及偏置。本文采用附加动量法来作为权值和偏置的学习算法，其权值学习公式为() ( 1) () ( 1) ( 2)w t w t w t w t w t= - +D + - - - (6)式中， (), ( 1), ( 2)w t w t w t- - 分别为 , 1, 2t t t- - 时刻的权值，其

35、中 h 为学习率，为冲量项， ()w tD =d ()w th , d ()w t 表示对相应的权值求导。权值和偏置 1, 2, 1, 2b bw w 的变化率分别为outd 1=dlogsig( ) ( 2 ), d 2= ,d 1=dlogsig( ) ( 2 ), d 2=b I e b eI X e I eww w w (7)式中 e是网络输出的误差，用于权值和偏置的修正， I是网络隐含层的输出， = 1 + 1I X bw , out=logsig( 1I w1)X

36、b + ，网络输出层的输出为 T out2 2y I b= +w 。这个训练过程由 BP神经网络输入输出间的映射自适应调节权值，从而替代了 PNN中人为计算距离加权系数。步骤4 将预处理后的测试样本送入已经训练好的网络中进行分类，找出网络输出值中的最大值，也就是新的伪最近邻，并将测试样本分到最大值对应的的索引类。步骤5 分类结果与期望值对比计算误差

37、率Err, dfErr , 1,2 ,nN n MN= = ，其中 dfN 表示实际分类输出值与期望值不同的样本数据个数。步骤6 选择出 M 个 BP网络分类器中误差率最小即分类效果最好的一个。4 实验结果及分析实验是在 MATLAB7.11.0环境下实现，采用了机器学习库 UCI19上的 9个数据集。所使用的数据介绍见表 1。数据集 Letter,Pen,Thyroid,Optdigits,Landsat-Satellite

38、和 Image-Segmentation，其训练样本集与测试样本集已被预先指定。而其余的 3个数据集，通过 5倍交叉验证来选择训练集与测试集，其中对于数据集采用的距离度量是欧几里得距离。现在用 BPANN与 PNN以及传统的 KNN一起对机器学习库 UCI19上的 9个数据集进行分类，其中 PNN1,PNN2,PNN3,PNN4分别是距离逆加权、指数衰减距离加权、线性距离逆加权、

39、倒数距离加权的伪最近邻分类，分类结果见表 2。对每一个数据集，几种分类方法中最好的分类结果用黑体表示。从表 2 可以看到，对数据集 Letter, Pen,Optdigits, Image-Segmentation, Landsat-Satellite以及 Wine，基于 BP神经网络的自适应伪最近邻分类的分类性能明显好于传统的近邻分类以及伪最近邻分类。而在数据集 Thyroid上， BPANN也

40、取得了较好的分类效果。对于数据集 Iris和 Glass，最终的分类效果没有得到明显改善，这是由于它们属于小样本数据集，先前没有分出训练集和测试集。而BPANN分类算法在分类器设计阶段，是通过 5倍交叉验证来选择训练集与测试集，交叉分组的训练数据每次的变化会对权值优化产生较大影响，进而影响分类结果。并且该算法在小样本数据集上的

41、误差率是 5次分类结果的平均值，避免了实验结果由于训练集与测试集选择的随机性引起的偶然性。表 3为表 2中几种算法取得相应分类结果的分类时间 (因为 KNN直接计算测试样本与训练样本之间的距离，不需要进行训练，因此实验中记录的是各个算法的测试时间，即分类时间 )，表中时间单位均为秒，几种分类算法分别在每个数据集上最少的分类时间

42、用黑体表示。表 1 所使用数据集的一些特征仿真所使用的数据集特征维数样本数类数误差估计Letter 16 16000个训练样本 26 测试样本 4000个Pen 16 7494个训练样本 10 测试样本 3498个Thyroid 21 3772个训练样本 3 测试样本 3428个Optdigits 64 3823个训练样本 10 测试样本 1797个Landsat-Satellite 36 4435个训练样本 3 测试样本 2000个Image-Seg

43、mentation 19 210个训练样本 7 测试样本 2100个Iris 4 150 3 5CVGlass 9 214 6 5CVWine 13 178 3 5CV万方数据2778 电子与信息学报第 38卷表 2 在 9 个数据集上的分类误差 (%)数据集 KNN PNN1 PNN2 PNN3 PNN4 BPANNLetter 4.12 k=3 3.80 3.75 4.30 3.93 3.67Pen 2.12 k=4 1.94 2.26 2.26 1.97 1.92Thyroid 6.33 k=5 6.65 6.42 8.02 6.42 6

44、.33Optdigits 2.00 k=1 1.67 1.84 2.00 1.67 1.56Landsat-Satellite 10.60 10.55 10.35 10.55 9.90 8.90Image-Segmentation 12.33 12.33 12.33 12.33 12.33 12.14Wine 30.72 28.57 27.47 28.60 28.01 25.73Iris 2.67 2.67 2.67 3.33 2.67 3.33Glass 35.05 37.17 37.61 37.20 36.28 35.27平均误差率 11.77 11.71 11.63 12.36

45、11.38 10.98表 3 不同算法在各数据集上的分类时间 (s)数据集 KNN PNN1 PNN2 PNN3 PNN4 BPANNLetter 35.9965 38.1466 44.4699 45.7013 41.6946 23.9958Pen 14.3465 18.0775 14.7245 13.4599 12.5943 8.0977Thyroid 16.9841 13.5748 11.9098 11.4273 11.0418 3.6130Optdigits 14.9394 18.9481 14.3248 16.6299 13.9480 4.1931Lan

46、dsat-Satellite 13.4912 13.3566 11.0128 11.6741 11.7278 2.7176Image-Segmentation 3.9030 4.0412 4.0186 3.3453 3.7430 3.3353Wine 0.0163 0.0090 0.0296 0.0091 0.0085 0.0234Iris 0.0119 0.0216 0.0342 0.0378 0.0269 0.0187Glass 0.0091 0.0100 0.0126 0.0190 0.0257 0.0344由表 3可得， BPANN算法在数据集 Letter,Pen,T

47、hyroid, Optdigits, Landsat-Satellite 以及 Image-Segmentation上的分类时间明显的小于 PNN以及KNN，从算法原理可对此作出解释， PNN是通过计算距离加权和来分类，而 BPANN是由神经网络输入与输出间的映射来调节权值并分类，使得分类时间相对较少。对于小样本数据集 Wine, Iris 和Glass,BPANN在分类时间上没有取得明显改善，这是由于为

48、了避免实验的偶然性，其分类时间计算的是交叉验证次数的平均值。5 结论针对 PNN算法中距离加权系数的确定问题，本文提出了一种新的伪最近邻方法：基于 BP神经网络的自适应伪最近邻分类方法。在该分类方法中，BP神经网络的输入不是待分类样本点的特征值，而是待分类样本在每一类样本集中的各个近邻的距离值，同时距离加权值不需要人为

49、确定，而是由 BP神经网络输入和输出之间的映射自适应确定，并且对每一个数据集自适应的设计其相应分类器。因此在整个分类过程中进一步减少了主观因素的参与成分，这使得分类器性能具有更好的稳定性和推广性。在多个 UCI数据集上的实验结果表明，该算法与传统的 KNN算法以及 PNN算法相比，取得了更好的分类性能。参考文献1 WU Xindong, KUMAR V, QUINLAN J R, et al. Top 10algorithms in data miningJ. Knowledge and InformationSystems,2008,14(1):1-37.doi:10.1007/s10115-007-0114-2.2 MATEI O,

展开阅读全文