《第二章 信息的统计度量精选PPT.ppt》由会员分享,可在线阅读,更多相关《第二章 信息的统计度量精选PPT.ppt(51页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第二章 信息的统计度量第1页,本讲稿共51页第一节第一节 自信息量与条件自信息量自信息量与条件自信息量自信息量与条件自信息量 通过一定的过程或手段,对随机信息源进行了解,从信息源获得信息.获得信息的同时减少了不确定性,信息源所包含的信息与随机信源存在的不确定性有关.问题问题:随机事件包含信息,那么信息的多少称为信息量,如何度量呢?2.1.1 2.1.1 自信息自信息 定义定义2.1.1 2.1.1 任意随机事件所包含的信息多少称为自信息量,定义为该事件发生概率的对数的负值.第2页,本讲稿共51页自信息量与条件自信息量其中:1)2)I(ai)非负?若事件集合X中的事件 的自信息:本书(以及通信理
2、论中)当中,如无特殊说明,信息量的单位均默认为比特.第3页,本讲稿共51页自信息量与条件自信息量例例2.1.1 2.1.1 甲袋中有甲袋中有n n个不同阻值的电阻,从中随机取出一个不同阻值的电阻,从中随机取出一个,猜测所取得的是何种阻值的困难程度是多少?个,猜测所取得的是何种阻值的困难程度是多少?解:解:这相当于求事件的不确定性事件等概例例2.1.2 2.1.2 甲袋中有甲袋中有n(n+1)/2n(n+1)/2个不同阻值的电阻,个不同阻值的电阻,其中其中11的的1 1个,个,22的的2 2个,个,nn的的n n个,从中随机取出一个,求个,从中随机取出一个,求“取出阻值为取出阻值为i i(0 i
3、 n0 i n)的电阻)的电阻”所获得的信息量。所获得的信息量。解:解:“取出阻值为i的电阻”的概率是多少?第4页,本讲稿共51页自信息量与条件自信息量定义定义2.1.2 2.1.2 二维联合集XY上的元素()的联合自信息量为:式中:为积事件,为积事件或者元素 的二维联合概率.其中:第5页,本讲稿共51页自信息量与条件自信息量例例2.1.3 2.1.3 箱中有箱中有9090个红球,个红球,1010个白球,现从箱中随机取出个白球,现从箱中随机取出两个球;求两个球;求:(1)(1)事件事件“两个球中有红、白球各一个两个球中有红、白球各一个”的不确定性;的不确定性;(2)(2)事件事件“两个球都是白
4、球两个球都是白球”所提供的信息量;所提供的信息量;(3)(3)事件事件“两个球都是白球两个球都是白球”和和“两个球都是红球两个球都是红球”的发生,的发生,哪个事件更难猜测?哪个事件更难猜测?解解:三种情况都是求联合自信息,分别设为,其中x为红球数,y为白球数(1)第6页,本讲稿共51页自信息量与条件自信息量(2)(2)事件事件“两个球都是白球两个球都是白球”所提供的信息量;所提供的信息量;(3)(3)事件事件“两个球都是白球两个球都是白球”和和“两个球都是红球两个球都是红球”的发的发生,哪个事件更难猜测?生,哪个事件更难猜测?因为 ,所以事件”俩个都是白球”的可能性更小,其发生更难猜测.第7页
5、,本讲稿共51页自信息量与条件自信息量2.1.2 2.1.2 条件自信息量条件自信息量(随机变量随机变量)定义定义2.1.3 2.1.3 二维联合集XY中,对事件xi和yj,事件xi在事件yj给定的条件下的条件自信息量为:简记 同样p(x|y)要满足非负和归一化条件,可以证明,无条件的自信息量总比条件的自信息量大,即:第8页,本讲稿共51页自信息量与条件自信息量例例2.1.4 2.1.4 箱中有箱中有9090个红球,个红球,1010个白球,现从箱中随机取出两个白球,现从箱中随机取出两个球,现从箱中先拿出一球,再拿出一球,求个球,现从箱中先拿出一球,再拿出一球,求(1)(1)事件事件“在第一个是
6、红球,第二个是白球在第一个是红球,第二个是白球”的不确定性;的不确定性;(2)(2)事件事件“在第一个是红球,第二个是红球在第一个是红球,第二个是红球”的不确定性;的不确定性;(3)(3)事件事件“在第一个是白球,第二个是白球在第一个是白球,第二个是白球”的不确定性;的不确定性;(4)(4)事件事件“在第一个是白球,第二个是红球在第一个是白球,第二个是红球”的不确定性。的不确定性。解解:设设x x表示红球事件表示红球事件,y,y表示白球事件表示白球事件:(1)p(y|x)=10/99I(y|x)=-logp(y|x)=-log(10/99)=3.3074(比特)(2)p(y|x)=89/99I
7、(y|x)=-logp(y|x)=-log(89/99)=0.1536(比特)(3)p(y|x)=9/99I(y|x)=-logp(y|x)=-log(9/99)=?(4)p(y|x)=90/99I(y|x)=-logp(y|x)=-log(90/99)=?第9页,本讲稿共51页例例2.1.5 2.1.5 有有8 88=648=64个方格个方格,甲将一棋子放入方格中甲将一棋子放入方格中,求让求让乙乙猜猜顺序号的困难程度:顺序号的困难程度:1 1)方格按顺序编号)方格按顺序编号,让乙猜测棋子所在的方格序号让乙猜测棋子所在的方格序号;2 2)方格按行和列编号)方格按行和列编号,且且告诉乙方格的行号
8、告诉乙方格的行号,让乙猜测棋子让乙猜测棋子所在的方格序号所在的方格序号.自信息量与条件自信息量解:解:解:解:1 1)多少种可能性?)多少种可能性?64642 2)多少种可能性?)多少种可能性?8 8第10页,本讲稿共51页互信息量与条件互信息量第二节第二节 互信息量与条件互信息量互信息量与条件互信息量 互信息是指俩个不同的事件XY相互从对方能够获得信息,把这类信息称为互信息互信息,大小称为互信息量互信息量.其大小与俩事件之间的联系有关,如果俩者之间联系越大,及相关性越大,则互信息量越大,反之越小,如果俩者相互独立,则互信息量为零,这种情况可以解释成为,当俩者没有任何联系时,不可能从对方那里获
9、得任何信息.这种度量方式也用于其他学科里用来代替事件的相关性.互信息量是从通信过程当中定义出来的.第11页,本讲稿共51页互信息量与条件互信息量 上图所示为简化的通信系统模型图,其中假设发送端(信源)为离散符号集合X,接受端(信宿)为离散符号集合Y.现代通信系统一般为数字双工通信模型.第12页,本讲稿共51页互信息量与条件互信息量2.2.1 2.2.1 互信息量互信息量定义定义2.2.1 2.2.1 俩个离散随机事件集X与Y,对事件yj的出现给出关于xi的信息量(或者说xi从yj中获得了信息量),定义为互信息量.其定义式为:第13页,本讲稿共51页例例例例2.2.1 2.2.1 2.2.1 2
10、.2.1 e e e e表示表示表示表示“降雨降雨降雨降雨”,f f f f表示表示表示表示“空中有乌云空中有乌云空中有乌云空中有乌云”,且,且,且,且 P(e)=0.125P(e)=0.125P(e)=0.125P(e)=0.125,P(eP(eP(eP(e|f)=0.8f)=0.8f)=0.8f)=0.8.互信息量与条件互信息量解:解:解:解:求:求:求:求:1 1 1 1)“降雨降雨降雨降雨”的自信息的自信息的自信息的自信息 2 2 2 2)“空中有乌云空中有乌云空中有乌云空中有乌云”条件下条件下条件下条件下“降雨降雨降雨降雨”的自信息的自信息的自信息的自信息 3 3 3 3)“无雨无雨
11、无雨无雨”的自信息的自信息的自信息的自信息 4 4 4 4)“空中有乌云空中有乌云空中有乌云空中有乌云”条件下条件下条件下条件下“无雨无雨无雨无雨”的自信息的自信息的自信息的自信息 5 5 5 5)“降雨降雨降雨降雨”与与与与“空中有乌云空中有乌云空中有乌云空中有乌云”的互信息的互信息的互信息的互信息 6 6 6 6)“无雨无雨无雨无雨”与与与与“空中有乌云空中有乌云空中有乌云空中有乌云”的互信息的互信息的互信息的互信息1)3 bit1)3 bit2)2)0.322 bit bit3)3)0.193 bit bit4)4)2.322 bit bit5)5)2.678 bit bit6)6)-2
12、.129 bit bit第14页,本讲稿共51页互信息量与条件互信息量2.2.2 2.2.2 互信息量的性质互信息量的性质互信息量具有下述的性质1 1 互信息量的互易性互信息量的互易性x与y的互信息等于x的自信息减去在y条件下x的自信息。I(x)表示x的不确定性,I(x|y)表示在 y发生条件下x 的不确定性;因此I(x;y)表示当 y发生后x不确定性的变化。这种变化,反映了由y发生所得到的关于x的信息量第15页,本讲稿共51页互信息量与条件互信息量证明证明:第16页,本讲稿共51页互信息量与条件互信息量2 2 当事件当事件当事件当事件x,yx,yx,yx,y统计独立时统计独立时统计独立时统计
13、独立时,互信息为互信息为互信息为互信息为0,0,0,0,即即即即I(x;y)=0;I(x;y)=0;I(x;y)=0;I(x;y)=0;3 3 互信息可正可负互信息可正可负互信息可正可负互信息可正可负;4 4 4 4 任何两事件之间的互信息不可能大于其中任一事件的自任何两事件之间的互信息不可能大于其中任一事件的自任何两事件之间的互信息不可能大于其中任一事件的自任何两事件之间的互信息不可能大于其中任一事件的自信息信息信息信息.证明证明证明证明:第17页,本讲稿共51页2.2.3 2.2.3 条件互信息条件互信息定义定义2.2.2 2.2.2 设联合集XYZ,在给定zZ 条件下x(X)与y(Y)之
14、间的互信息定义为:互信息量与条件互信息量 除条件外,条件互信息的含义与互信息的含义与性质都除条件外,条件互信息的含义与互信息的含义与性质都相同相同相同相同.第18页,本讲稿共51页联合集XYZ上还存在x与yz之间的互信息量,其定义式为:进一步表示为:互信息量与条件互信息量 可见一对事件yz出现后所提供的关于x的信息量I(x;yz),等于事件y出现后提供的有关x的信息量I(x;y)加上给定事件y的条件下再出现事件z所提供的关于x的信息量.第19页,本讲稿共51页第三节第三节 离散集的平均自信息量离散集的平均自信息量离散集的平均自信息量 现代通信技术是数字通信技术,在通信的信源部分是用离散符号集合
15、来表示的.通信的实质是传输交换信息,信息的多少取决于信源,本节主要探讨离散符号集合的信息度量.2.3.1 2.3.1 平均自信息量平均自信息量(信源熵信源熵)通常离散信息源的离散符号集合用下面所示的符号集合和概率空间描述:第20页,本讲稿共51页离散集的平均自信息量定义定义2.3.1 2.3.1 离散信源符号集合X上,随机变量I(xi)的数学期望定义为平均自信息量.用H(X)表示,也称为信息(源)熵.信源熵的的单位是哈特比特奈特/(信源)符号,如果对数符号的底数取2的话,单位是比特/符号.这也是最常用的单位符号,本书中如无特别强调,都采用此符号.例例例例2.3.1 2.3.1 2.3.1 2.
16、3.1 一个信源一个信源一个信源一个信源X X X X的符号集为的符号集为的符号集为的符号集为0000,1111,其中,其中,其中,其中“0”“0”“0”“0”符号出符号出符号出符号出现的概率为现的概率为现的概率为现的概率为p p p p,求信源的熵,求信源的熵,求信源的熵,求信源的熵?解:解:出现“1”的概率是多少?(1-p)那么:那么:第21页,本讲稿共51页离散集的平均自信息量例例2.3.2 2.3.2 一电视屏幕的格点数为一电视屏幕的格点数为500500600=600=300000,300000,每点有每点有1010个灰度等级个灰度等级,若每幅画面等概率出现若每幅画面等概率出现,求每幅
17、画面平均所求每幅画面平均所包含的信息量包含的信息量?解:解:可能的画面数是多少?代入公式:第22页,本讲稿共51页离散集的平均自信息量例例2.3.3 A2.3.3 A、B B两城市天气情况概率分布如下表:两城市天气情况概率分布如下表:晴晴 阴阴 雨雨 A A城城 0.8 0.15 0.05 0.8 0.15 0.05 B B城城 0.4 0.3 0.3 0.4 0.3 0.3 问哪个城市的天气具有更大的不确定性?问哪个城市的天气具有更大的不确定性?解解:A、B城市天气情况的平均不确定性如下:所以,B城市的天气具有更大的不确定性。第23页,本讲稿共51页离散集的平均自信息量例例2 23 34 4
18、 有甲、乙两箱球,甲箱中有红球有甲、乙两箱球,甲箱中有红球5050、白球、白球2020、黑球黑球3030;乙箱中有红球;乙箱中有红球9090、白球、白球1010。现做从两箱中分别随。现做从两箱中分别随机取一球的实验,问从哪箱中取球的结果随机性更大?机取一球的实验,问从哪箱中取球的结果随机性更大?。解解:设甲、乙分别用A B代表所以,从甲箱中取球的结果随机性更大。第24页,本讲稿共51页2.3.2 2.3.2 熵函数的性质熵函数的性质 熵函数具有如下性质,对称性、非负性、扩展性、可加性、极值性、确定性、上凸性等。我们先看一个定义:定义定义2.3.22.3.2 设f(X)=f(x1,x2,xn)为
19、一多元函数.若对于任意一个小于1的正数a(0a1)以及函数f(X)定义域内的任意俩个矢量X1,X2有:faX1+(1-a)X2 af(X1)+(1-a)f(X2)则称f(X)为定义域上的上凸函数(Cap型函数).若:faX1+(1-a)X2 af(X1)+(1-a)f(X2)则称f(X)为定义域上的严格上凸函数.反之:离散集的平均自信息量第25页,本讲稿共51页离散集的平均自信息量 若:faX1+(1-a)X2 af(X1)+(1-a)f(X2)则称f(X)为定义域上的下凸函数(Cup型函数).若:faX1+(1-a)X2 af(X1)+(1-a)f(X2)则称f(X)为定义域上的严格下凸函数
20、.证明证明:本定义的证明相对比较复杂,我们只对f(x)为实连续函数,x为随机变量的情况进行证明.在区间x1 x2上取值x,且x1xx2,令:a=x2-x/x2-x1 则 1-a=x-x1/x2-x1 x=ax1+(1-a)x2 f(x)=fax1+(1-a)x2第26页,本讲稿共51页离散集的平均自信息量如右图所示,只需要求出h(x)的值,就可以得出我们想要的结论:h(x)=f(x1)+x再由相似三角形定理有:上凸下凸第27页,本讲稿共51页引理引理 2.3.1 2.3.1 若f(x)是定义在a、b上的实值连续上凸函数,则对于任意一组x1,x2,xq a、b和任意一组非负实数1,2,q且满足:
21、离散集的平均自信息量则有则有:称此为詹森不等式称此为詹森不等式 此引理的证明比较简单,用数学归纳法即可证明,这是一个在本课程里很重要的引理,我们对它做一个简单的推广:也可以简写成也可以简写成:第28页,本讲稿共51页离散集的平均自信息量1 1 对称性对称性 概率空间当中,P=p1,p2,pr中各概率分量的次序任意变更时,其熵值不变.2 2 非负性非负性 当且仅当概率空间中有一个符号的概率为”1”,其他所有概率为”0”时,等号成立.或者说成确定概率空间的熵为”0”.第29页,本讲稿共51页离散集的平均自信息量3 3 扩展性扩展性 这个性质的含义是,若符号集合X有q个事件,如果将这个符号集合扩展成
22、为有q+1个事件的符号集合,这第(q+1)个事件可以看作是在第q个事件分离出来的概率为0的事件,这样扩展后的集合的熵值不会发生变化.或者说,一个事件集合中如果某事件的概率和其它事件概率相比很小时,它对整个集合熵值的影响可以忽略不计.第30页,本讲稿共51页离散集的平均自信息量4 4 可加性可加性 随机变量X、Y构成联合事件集合XY,则二维随机变量(X,Y)的熵等于其中一个变量X(或者Y)的无条件熵加上一个变量Y(或者X)给定时的另一个变量X(或者Y)的条件熵.或者:多变量时:当各个变量相互独立时有:第31页,本讲稿共51页离散集的平均自信息量证明证明:联合集概率空间为:其中:第32页,本讲稿共
23、51页离散集的平均自信息量第33页,本讲稿共51页离散集的平均自信息量5 5 极值性极值性 离散集的熵值具有最大值:利用前面的詹森公式可以很简单的证明这个性质:条件(1)(2)k为非负实数(3)f(x)为上凸函数.第34页,本讲稿共51页离散集的平均自信息量即可得即可得:当且仅当每个事件等概率出现时等号成立.6 6 确定性确定性 当事件集合中只有一个事件为必然事件,其余全为不可能事件,则此时事件集合的熵为零.第35页,本讲稿共51页离散集的平均自信息量7 7 上凸性上凸性H(p)=H(pH(p)=H(p1 1,p,p2 2,p,pn n)是是(p(p1 1,p,p2 2,p,pn n)的严格的
24、上凸函数的严格的上凸函数证明证明:设设是俩个概率矢量,且取0a1,则:第36页,本讲稿共51页离散集的平均自信息量第四节第四节 离散集的其它熵及其关系离散集的其它熵及其关系2.4.1 2.4.1 条件熵条件熵定义定义2.4.12.4.1 联合集XY上,条件自信息I(yj|xi)的概率加权平均值定义为条件熵值.定义式如下:第37页,本讲稿共51页2.4.2 2.4.2 联合熵联合熵(或称共熵或称共熵)定义定义2.4.22.4.2 联合集XY上,每对元素xiyj的自信息量的统计平均(加权平均)定义为联合熵.定义式如下:2.4.3 2.4.3 各种熵值的关系各种熵值的关系1 1 联合熵与信息熵、条件
25、熵的关系联合熵与信息熵、条件熵的关系离散集的平均自信息量当各个变量相互独立时有:第38页,本讲稿共51页离散集的平均自信息量2 2 联合熵与信息熵的关系联合熵与信息熵的关系第39页,本讲稿共51页离散集的平均自信息量可以得出可以得出:推论推论:3 3 条件熵与信息熵的关系条件熵与信息熵的关系(见见P P28-3128-31例例2.3.4)2.3.4)熵的不增原理熵的不增原理(条件熵不大于信息熵条件熵不大于信息熵)证明思路:试证明证明思路:试证明H(Y)-H(Y|X)0 H(Y)-H(Y|X)0 推论推论:联合熵不大于各信息熵的和:联合熵不大于各信息熵的和:第40页,本讲稿共51页离散集的平均自
26、信息量第五节第五节 离散集的平均互信息量离散集的平均互信息量 互信息是通信问题中一个很重要的概念,通信(特别是数字通信)系统的输入和输出都可以看作离散符号集合,输入与输出之间的关联程度用互信息来衡量.联合集XY=xiyj;xiX,yjY,i=1,2,m;j=1,2,n二维联合概率为p(xiyj),且第41页,本讲稿共51页离散集的平均自信息量2.5.1 2.5.1 平均互信息量平均互信息量定义定义2.5.12.5.1 互信息在XY联合空间上的统计平均值定义为平均互信息量.定义式如下:其中其中:或者或者:第42页,本讲稿共51页简单说明简单说明:离散集的平均自信息量 从通信的角度来看这个定义式,
27、其中H(X)由概率p(xi)得出,可以看作是通信信源的不确定性,H(X|Y)由条件概率p(xi|yj)得出,可以看作是通信后在知道输出信号集合Y的情况下对信源X仍存在的不确定性,俩这之差就是通信过程中平均每个符号所获得的不确定性.第43页,本讲稿共51页离散集的平均自信息量2.5.2 2.5.2 平均互信息量的性质平均互信息量的性质1 1 非负性非负性 当且仅当X与Y统计独立时,等号成立,因为统计独立时,俩这之间相互没有任何联系,不能提供任何信息.证明证明:第44页,本讲稿共51页离散集的平均自信息量2 2 互易性互易性物理意义物理意义:对称性表示从Y集合中获得的关于X的信息量等于从X中获得的
28、关于Y的信息量.第45页,本讲稿共51页离散集的平均自信息量3 3 平均互信息与各类熵的关系平均互信息与各类熵的关系 I(X;Y)=H(X)-H(X|Y)I(X;Y)=H(X)-H(X|Y)I(X;Y)=H(Y)-H(Y|X)I(X;Y)=H(Y)-H(Y|X)I(X;Y)=H(X)+H(Y)-H(XY)I(X;Y)=H(X)+H(Y)-H(XY)第46页,本讲稿共51页离散集的平均自信息量4 4 极值性极值性证明证明:可以利用下式进行证明(条件熵的非负性).5 5 凸函数性凸函数性(在本书第四章证明在本书第四章证明)I(X;Y)为分布在p(x)的上凸函数对于固定的概率分布p(x),I(X;Y
29、)为条件概率p(x|y)的下凸函数。第47页,本讲稿共51页离散集的平均自信息量例例2.5.1 2.5.1 二元信源二元信源X X输出符号为输出符号为0,10,1,P PX X(0)=(0)=,条件概率条件概率分别为分别为P PY Y|X X(0(0|0)=P0)=PY Y|X X(1(1|1)=1-p1)=1-p,P PY Y|X X(1|1|0)=P0)=PY Y|X X(0|10|1)=p)=p,求求I(X;Y)I(X;Y)。解:设解:设第48页,本讲稿共51页因为因为:离散集的平均自信息量这是一个关于这是一个关于这是一个关于这是一个关于p p p p的上凸函数;的上凸函数;的上凸函数;的上凸函数;因为因为:第49页,本讲稿共51页离散集的平均自信息量 若输入信号源概率分布p(x)=固定,则平均互信息量I(X;Y)为条件概率p(y|x)=p的下凸函数:当p=1或0时,I(X;Y)=最大值H();当p=1/2时,I(X;Y)=0为最小值.第50页,本讲稿共51页本章作业题离散集的平均自信息量第51页,本讲稿共51页