《2022年神经网络期末报告 .pdf》由会员分享,可在线阅读,更多相关《2022年神经网络期末报告 .pdf(17页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、学习报告基于信息论的神经网络模型专业:计算数学班级:数学二班学号:152111033姓名:刘楠楠名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 17 页 - - - - - - - - - 基于信息论的神经网络模型- 1 - 本报告主要分为两个部分,第一部分主要是对神经网络做一个整体的论述,阐述神经元的模型基理和特点, 第二部分则是利用信息论的知识来研究神经元信号传递过程中,在有外界噪声的干扰下,如何保证信息最终能够达到最大输出。第三部分列举了一个拟合图像的算例,用于对比
2、不同算法对噪声的敏感程度。1 神经网络概述1.1 人工神经网络的概念人工神经网络( Artificial Neural Networks,ANNs ) ,是人脑或自然神经网络对信息感知与处理等智能行为的抽象和模拟,是一种分布式并行处理系统,它具有自组织、自学习、自适应和非线性动态处理的特性。 可以实现人脑的概括、类比和推广能力, 因而可以从大量数据中提取所需要的信息,通过联想记忆和推理等能力来获取所需要的数据。目前,已经开发和应用的神经网络有30 多种,比较典型的有以下几种:感知器(Perceptron ) ,多层感知器( MLP ) ,BP前向网络,Hopfield网络和竞争型( Kohon
3、en )神经网络。可以说人工神经网络就是模拟人思维的第二种方式。1.2 人工神经网络的工作原理及特点人工神经网络是由大量的简单基本元件神经元相互联接而成的自适应非线性动态系统。 每个神经元的结构和功能比较简单,但大量神经元组合产生的系统行为却非常复杂。 人工神经网络首先要以一定的学习准则进行学习,然后才能工作 , 它反映了人脑功能的若干基本特性,但并非生物系统的逼真描述,只是某种模仿、 简化和抽象。 与数字计算机比较, 人工神经网络在构成原理和功能特点等方面更加接近人脑, 它不是按给定的程序一步一步地执行运算,而是能够自身适应环境、总结规律、完成某种运算、识别和过程控制。人工神经网络吸取了生物
4、神经网络的许多优点,因而有其固有的特点:(1)高度的并行性人工神经网络由许多相同的简单处理单元并列组合而成,虽然每个单元的结构和功能比较简单, 但大量简单处理单元的并行行动,使其对信息的处理能力与效果惊人。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 17 页 - - - - - - - - - 基于信息论的神经网络模型- 2 - (2)高度的非线性全局作用当对系统对于设计人员来说, 很透彻或者很清楚时, 则一般利用数值分析,偏微分方程等数学工具建立精确的数学模型,但当
5、对系统很复杂,或者系统未知,系统信息量很少时, 建立精确的数学模型很困难时, 神经网络的非线性映射能力则表现出优势, 因为它不需要对系统进行透彻的了解,但是同时能达到输入与输出的映射关系,这就大大简化设计的难度。(3)良好的容错性与联想记忆能力人工神经网络通过自身的网络结构能够实现对信息的记忆,所记忆的信息存储在神经元之间的权值中。 从单个权值中看不出所存储的信息内容,因而是分布式的存储方式。这使得网络具有良好的容错性,并能进行聚类分析、特征提取、等模式信息处理工作:又宜于做模式分类、模式联想等模式识别工作。(4)十分强的自适应、自学习功能人工神经网络可以通过训练和学习来获得网络的权值和结构,
6、呈现出很强的自学习能力和对环境的自适应能力。1.3 人工神经元模型作为 NN的基本单元的神经元模型,它有三个基本要素:(1)一组连接(对应于生物神经元的突触) , 连接强度由各连接上的权值来表示,权值为正表示激活,为负表示抑制。(2)一个求和单元,用于求取各输入信号的加权和(线性组合)。(3)一个非线性激活函数,起非线性映射作用并将神经元输出幅度限制在一定范围内(一般限制在( 0,1 )或( -1,1 )之间) 。此外还有一个阈值k,如图 1 所示名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - -
7、- - 第 3 页,共 17 页 - - - - - - - - - 基于信息论的神经网络模型- 3 - 输入信号连接权求和激活函数输出阈值( )1x2xpxkykku图1 基本神经元模型1kw2kwkpw图形中的各个作用可用数学式子表示:1,()pkkjjkkkkkkjuw x vnetuyv式中12,px xx为输入信号,12,kkkpwww为神经元的权值,ku为线性组合结果,k为阈值,( )为激活函数,ky为神经元的输出。2 基于信息论的神经网络模型2.1 信息论简介信息论是通信的数学基础, 它是随着通信技术的发展而形成和发展起来的一门新兴横断学科。 信息论创立标志是 1948 年 Cl
8、aude Shannon(香农) 发表论文“A Mathematical Theory of Communication” 。在这篇文章中香农创造性的采用概率论的方法来研究通信中的问题,并且对信息给予了科学的定量描述,第一次提出了信息熵的概念。 1928年,哈特莱 (Hartley)首先提出了用对数度量信息的概念。一个消息所含有的信息量用它的可能值的个数的对数来表示。信息的度量方式主要有以下几种:名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 17 页 - - - - -
9、 - - - - 基于信息论的神经网络模型- 4 - 1. 自信息: 一个事件 (消息)本身所包含的信息量, 它是由事件的不确定性决定的。随机事件的自信息量()iI x是该事件发生概率()ip x的函数,并且应该满足以下公理化条件:(1)()iI x是()ip x的严格递减函数。 即概率越小, 事件发生的不确定性越大,事件发生后所包含的自信息量越大。(2)极限情况下当()0ip x时,()iI x;当()1ip x时,()0iI x。(3)另外,从直观概念上讲,由两个相对独立的不同的消息所提供的信息量应等于它们分别提供的信息量之和。可以证明,满足以上公理化条件的函数形式是对数形式。2. 平均自
10、信息(信息熵):随机变量 X的每一个可能取值的自信息()iI x的统计平均值定义为随机变量X的平均自信息量:( ) ()logKikkkKH xE I xPP这里考虑离散随机变量X从-K 取到+K间 2K+1个可能值,kxx出现的概率为(),01,1KkkkkkKPP xxPP( )H x是一个系统的不确定性的度量(1)当对某一 k,1kP时,则取其他值的概率均为0,这时完全确定,即为0,(2)当取任何一个值得概率均相等时,不确定性最大,事实上,由柯西不等式22()log()(log)KKKkkkkkKkKkKPPPP等式成立的条件为,当且仅当1212loglogloglogKKKKPPPPP
11、PPP时,等式成立,所以对于2K+1个可能值得随机变量来说0( )log(21)H xK名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 17 页 - - - - - - - - - 基于信息论的神经网络模型- 5 - 3. 联合熵、条件熵、平均互信息若有两个随机变量x,y,它们的离散分布分别是,xyP P,二者的联合分布为xyP,则有联合熵和条件熵,( , )log,( | )log( , )( )xyxyxyxyx yx yyPH x yPPH x yPH x yH y
12、P其中条件熵表示观测到输出y 后输入 x 中剩余的不确定性大小, 由于信息熵是观测到 y 以前 x 中的不确定性,所以条件熵满足0( |)( )H x yH x它们的二者之差就是x 与 y 间的平均互信息,表示为( ,)( )(|)I x yH xH x y( , )H x y( | )H x y( )Hx()Hy图2 互信息与条件熵的关系由图 2 可知( , )I x y有如下性质:(1)对称性:( , )( , )I x yI y x,(2)非负性:( , )0I x y,(3)( ,)( )(| )( )(|)I x yH yH y xH xH x y。名师资料总结 - - -精品资料欢
13、迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 17 页 - - - - - - - - - 基于信息论的神经网络模型- 6 - 4. 连续信源的微分熵(差熵)当 x 为连续变量时,设其分布密度为( )f x,则可定义( )( )log( )h xf xf x dx称为微分熵, 它虽然已不能代表连续信源的平均不确定性,也不能代表连续信源输出的信息量, 但依然满足可加性。 当 x 为多维变量时, 即用向量表示,( )f x为联合分布密度,则( )( )log( )h xf xf x dx下面讨论最大微分熵问
14、题:求满足约束条件( )1f x dx22()( )xf x dx的分布密度( )f x,使得其微分熵达最大,其中为均值,2为方差。根据拉格朗日乘数法可知,只有当积分212( )log( )( )()( )f xf xf xxf xdx为稳定时,微分熵达最大,即上述积分中的被积函数212( )log( )( )()( )f xf xf xxf x对( )f x求导为零时,( )h x最大,所以求导得2121()log( )xf x对上式取自然对数,则其解为2121()( )xf xe将其代入约束条件得2111ln(2)22212所以22()21( )2xf xe可见这是一个正态分布,此时随机变
15、量x 的微分熵为名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 17 页 - - - - - - - - - 基于信息论的神经网络模型- 7 - 22()22211()( )ln222xxh xedx2222()()2222111ln2()222xxedxxedx22211ln(2)22211ln(2)2(2.1 )2.2 单个神经元受噪声干扰神经网络的一个最终目的是使得输入信号最大程度的从输出端输出,尽量减少传输过程中的信息损失, 即使得当有噪声是x 与 y 间的互信息
16、最大, 这就是所谓的信息最大保持原则, 而且最大信息保持原则与学习规则无关,它可以看作是信息论中信道容量这一概念在神经网络中的体现,即对于固定的信道, 总存在一种信源(某种输入概率分布) ,使信道平均传输一个符号接收端获得的信息量最大,也就是说对于每个固定信道都有一个最大的信息传输率,这个最大的信息传输率即为信道容量。设输入 x 是 L 维的,单个神经元受噪声干扰时,输出为1Liiiyw xv(2.2 )其中 v 为噪声,假定 v 为高斯随机变量, 方差为2v,均值为 0。输出 y 也是高斯分布的随机变量,方差为2y,且噪声与输入不相关,即,0ii E vx按照互信息的定义有( , )( )(
17、| )I y xh yh y x(2.3 )从(2.2 )可见,给定输入向量x 下 y 的分布相当于一个常数叠加上一个高斯分布的随机变量 v,因此,条件熵是输出中所含有关v 的信息(而不是x 的) ,于是有(| )( )h y xh v名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页,共 17 页 - - - - - - - - - 基于信息论的神经网络模型- 8 - (2.3 )式变为(| )( )( )I y xh yh v由(2.1 )式知21( )1ln(2)2yh y
18、21( )1ln(2)2vh v所以221(| )ln2yvI y x其中比值22yv可看作是输出的信噪比,此时,当噪声方差2v一定时,使输出方差2y达到最大即可,换句话说,这就相当于使平均互信息( , )I y x最大,因此,在一定条件下,使单个神经元的输出的方差最大就能使输入与输出间的互信息最大,从而使得信息得以最多输出。2.3 多输出单元受噪声干扰在这里,我们只考察有两个输出单元的情况,对于更多输出单元的情况也是类似的推导,如图3 所示:1x2x3xLx1v2v1y2y11w21w12w22w13w23w1Lw2Lw图 3 两个神经元受噪声影响的情况此时有名师资料总结 - - -精品资料
19、欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页,共 17 页 - - - - - - - - - 基于信息论的神经网络模型- 9 - 1111Liiiyw xv2221Liiiyw xv(1)加性噪声都均值为0,方差为2v的高斯分布,并且这两个噪声是不相关的,即120E vv(2)输出端1y与2y都是均值为 0 的高斯分布随机变量。 输出12,Tyy y与输入12,TLxx xx间的互信息为( , )( )(| )I x yh yh y x由上一节的讨论可知( , )( )( )I x yh yh v其中1
20、2,Tvv v,又由于12,v v相互独立,所以21212( )(,)( )()1 ln(2)vh vh v vh vh v12121212( )(,)(,)ln(,)h yh yyf y yf yydydy令 R为输出向量 y 的相关矩阵11122122TrrRE yyrr其中, ,1,2ijijrEy yij,由于1 20E v v以及0ijE v x,可得22111vr12211212rr22222vr其中21和22为没有噪声时1y和2y的方差,12为无噪声时1y与2y的相关系数。把此结果推广到 N维高斯变量1121( )2 det( )Ty Ryf yeR则 N维变量 y 的微分熵为名
21、师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 10 页,共 17 页 - - - - - - - - - 基于信息论的神经网络模型- 10 - 2( )ln(2)det()nh yeR对 N=2的情况有( )1ln(2det()h yR2det( )( , )lnvRI x y当噪声方差2v固定时,为使( ,)I x y最大,需要使矩阵R的行列式det( )R最大,422222211 2212 21121212det( )()(1)vvRr rr r根据噪声的一般大小,可分为两种情况
22、:(1)大的噪声方差,当2v大时,上式得第3 项可以忽略,此时应使2212达最大,也就是当该噪声方差固定时,最大信息保持原则应使输出1y与2y本身的方差最大。(2)低噪声方差, 当2v小时,上式中第 3 项占优势,此时的要求是在保持21与22较大的条件下尽量使两个输出不相关。2.4 输入受加性噪声干扰对于输入受加性噪声干扰,是在输入端对其进行变化,此时输出为1()Liiiiyw xv其中iv为均值为 0,方差为2v的相互独立的随机变量,可将上式写为1Liiiyw xv其中1Liiivwv。噪声v是均值为 0,方差为2221Livviw的高斯分布随机变量,同样按第一节的处理方法,由于222111
23、(| )( )(1 ln 2)1ln 222Lvviih y xh vw名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 11 页,共 17 页 - - - - - - - - - 基于信息论的神经网络模型- 11 - 所以互信息为222111( , )( )(| )1ln(2)1ln 222LyviiI y xh yh y xw22211ln2yLviiw当噪声方差2v固定时,使比值221Lyiiw最大可使互信息达到最大, 由此可见,最大信息保持原则的结果是与问题条件(权值)有关的。
24、3 程序实例例:采用两种训练方法,L-M 优化算法( trainlm )和贝叶斯正则化算法,用以训练 BP网络,使其能够拟合某一附加有白噪声的正弦样本数据。其中,样本数据可以采用如下 MATLAB 语句生成。close all clear echo on clc % NEWFF 生成一个新的前向神经网络% TRAIN 对BP 神经网络进行训练% SIM对BP 神经网络进行仿真pause % 敲任意键开始clc % 定义训练样本矢量% P 为输入矢量P = -1:0.05:1; % T 为目标矢量randn(seed,78341223); T = sin(2*pi*P)+0.1*randn(si
25、ze(P); % 绘制样本数据点plot(P,T,+); echo off hold on; 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 12 页,共 17 页 - - - - - - - - - 基于信息论的神经网络模型- 12 - plot(P,sin(2*pi*P),:); % 绘制不含噪声的正弦曲线echo on clc pause clc % 创建一个新的前向神经网络net=newff(minmax(P),20,1,tansig,purelin); pause clc
26、echo off clc disp(1. L-M 优化算法TRAINLM); disp(2. 贝叶斯正则化算法TRAINBR); choice=input( 请选择训练算法(1,2):); figure(gcf); if(choice=1) echo on clc % 采用L-M 优化算法TRAINLM net.trainFcn=trainlm; pause clc % 设置训练参数net.trainParam.epochs = 500; net.trainParam.goal = 1e-6; net=init(net); % 重新初始化pause clc elseif(choice=2) e
27、cho on clc % 采用贝叶斯正则化算法TRAINBR net.trainFcn=trainbr; pause clc % 设置训练参数net.trainParam.epochs = 500; randn(seed,192736547); net = init(net); % 重新初始化pause clc end 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 13 页,共 17 页 - - - - - - - - - 基于信息论的神经网络模型- 13 - % 调用相应算法训练
28、BP 网络net,tr=train(net,P ,T); pause clc % 对 BP 网络进行仿真A = sim(net,P); % 计算仿真误差E = T - A; MSE=mse(E) pause clc % 绘制匹配结果曲线close all; plot(P,A,P ,T,+,P ,sin(2*pi*P),:); pause; clc echo off 运行结果如下:图 4 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 14 页,共 17 页 - - - - - - -
29、 - - 基于信息论的神经网络模型- 14 - 图 5 图 6 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 15 页,共 17 页 - - - - - - - - - 基于信息论的神经网络模型- 15 - 图 7 图 8 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 16 页,共 17 页 - - - - - - - - - 基于信息论的神经网络模型- 16 - 通过
30、图 5 和图 7 两种不同的训练方法可以得到图6 和图 8 两种拟合效果,图中的实线表示拟合曲线,虚线代表不含白噪声的正弦曲线,“”点为含有白噪声的正弦样本数据点。从训练结果可以看出,经过trainlm 函数训练后的神经网络对样本数据有极大的匹配,而经 trainbr 函数训练的神经网络对噪声不敏感,换句话说, 噪声对其影响效果比较小, 可以实现信息的良好传递, 从而具有较好的推广能力。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 17 页,共 17 页 - - - - - - - - -