《信息论第2章信息的度量.ppt》由会员分享,可在线阅读,更多相关《信息论第2章信息的度量.ppt(32页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第2章 信息的度量 重庆交通大学信息与工程学院通信工程系李益才2012月第第2章章 信息的度量信息的度量 2.1 自信息和互信息 2.2 平均自信息 2.3 平均互信息 2.1 自信息和互信息自信息和互信息 几个重要概念p自自信信息息:一一个个事事件件(消消息息)本本身身所所包包含含的的信信息息量量,它它是是由由事事件件的的不不确确定定性性决决定定的的。比比如如抛抛掷掷一一枚枚硬硬币币的的结结果果是是正面这个消息所包含的信息量。正面这个消息所包含的信息量。p互互信信息息:一一个个事事件件所所给给出出关关于于另另一一个个事事件件的的信信息息量量,比比如今天下雨所给出关于明天下雨的信息量。如今天下
2、雨所给出关于明天下雨的信息量。p平平均均自自信信息息(信信息息熵熵):事事件件集集(用用随随机机变变量量表表示示)所所包包含含的的平平均均信信息息量量,它它表表示示信信源源的的平平均均不不确确定定性性。比比如如抛掷一枚硬币的试验所包含的信息量。抛掷一枚硬币的试验所包含的信息量。p平平均均互互信信息息:一一个个事事件件集集所所给给出出关关于于另另一一个个事事件件集集的的平平均均信信息息量量,比比如如今今天天的的天天气气所所给给出出关关于于明明天天的的天天气气的的信信息量。息量。2.1.1 自信息自信息 随机事件的自信息量I(xi)是该事件发生概率p(xi)的函数,并且应该满足以下公理化条件:p
3、I(xi),是是 p(xi)的的严严格格递递减减函函数数。当当p(x1)I(x2),概概率率越越小小,事事件件发发生生的的不不确确定定性性越越大,事件发生以后所包含的自信息量越大。大,事件发生以后所包含的自信息量越大。p极极限限情情况况下下当当p(xi)=0时时,I(xi);当当p(xi)=1时,时,I(xi)=0。p另另外外,从从直直观观概概念念上上讲讲,由由两两个个相相对对独独立立的的不不同同的的消消息息所所提提供供的的信信息息量量应应等等于于它它们们分分别别提提供供的的信信息量之和。息量之和。可以证明,满足以上公理化条件的函数形式是对数形式。2.1.1 自信息自信息定义2.1 随机事件的
4、自信息量定义为该事件发生概率的对数的负值。设事件xi的概率为p(xi),则它的自信息定义为 从图2.1种可以看到上述信息量的定义正是满足上述公理性条件的函数形式。I(xi)代表两种含义:当事当事当事当事件发生以前,件发生以前,件发生以前,件发生以前,等于事件发等于事件发等于事件发等于事件发生的不确定性的大小;当生的不确定性的大小;当生的不确定性的大小;当生的不确定性的大小;当事件发生以后,表示事件事件发生以后,表示事件事件发生以后,表示事件事件发生以后,表示事件所含有或所能提供的信息所含有或所能提供的信息所含有或所能提供的信息所含有或所能提供的信息量量量量。图2.1 自信息量2.1.1 自信息
5、自信息自信息量的单位p常常取取对对数数的的底底为为2,信信息息量量的的单单位位为为比比特特(bit,binary unit)。当当p(xi)=1/2时时,I(xi)=1比比特特,即即概率等于概率等于1/2的事件具有的事件具有1比特的自信息量。比特的自信息量。p若若取取自自然然对对数数(对对数数以以e为为底底),自自信信息息量量的的单单位位为为奈奈特特(nat,natural unit)。1奈奈特特=log2e比比特特=1.443比特比特 p工工程程上上用用以以10为为底底较较方方便便。若若以以10为为对对数数底底,则则自自信信息息量量的的单单位位为为哈哈特特莱莱(Hartley)。1哈哈特特莱
6、莱=log210比特比特=3.322比特比特p如如果果取取以以r为为底底的的对对数数(r1),则则I(xi)=-logrp(xi)进制单位进制单位 1r进制单位进制单位=log2r比特比特例 8个串联的灯泡x1,x2,x8,其损坏的可能性是等概率的,现假设其中有一个灯泡已损坏,问每进行一次测量可获得多少信息量?最少需要多少次测量才能获知和确定哪个灯泡已损坏。解:收到某消息获得的信息量(即收到某消息后获得关于某事件发生的信息量)不确定性减少的量 (收到此消息前关于某事件发生的不确定性)-(收到此消息后关于某事件发生的不确定性)已知8个灯泡等概率损坏,所以先验概率P(x1)1/8,即第二次测量获得
7、的信息量第二次测量获得的信息量=I P(x2)-I P(x3)=1(bit)第三次测量获得第三次测量获得的信息量的信息量=I P(x3)=1(bit)v至少要获得至少要获得3个比特的信息量就可确切知道哪个灯泡已坏了。个比特的信息量就可确切知道哪个灯泡已坏了。第一次测量获得的信息量第一次测量获得的信息量=I P(x1)-I P(x2)=1(bit)经过二次测量后,剩经过二次测量后,剩2个灯泡,等概率损坏,个灯泡,等概率损坏,P(x3)1/2一次测量后,剩一次测量后,剩4个灯泡,等概率损坏,个灯泡,等概率损坏,P(x2)1/42.1.2 互信息互信息 定义2.2 一个事件yj所给出关于另一个事件x
8、i的信息定义为互信息,用I(xi;yj)表示。互信息I(xi;yj)是已知事件yj后所消除的关于事件xi的不确定性,它等于事件xi本身的不确定性I(xi)减去已知事件yj后对 仍然存在的不确定性I(xi|yj)。互信息的引出,使信息得到了定量的表示,是信息论发展的一个重要的里程碑。2.2 平均自信息平均自信息 2.2.1 平均自信息(信息熵)的概念自信息量是信源发出某一具体消息所含有的信息量,发出的消息不同,所含有的信息量也不同。因此自信息量不能用来表征整个信源的不确定度。定义平均自信息量来表征整个信源的不确定度。平均自信息量又称为信息熵、信源熵,简称熵。因为信源具有不确定性,所以我们把信源用
9、随机变量来表示,用随机变量的概率分布来描述信源的不确定性。通常把一个随机变量的所有可能的取值和这些取值对应的概率 X,P(X)称为它的概率空间。2.2.1 平均自信息(信息熵)的概念平均自信息(信息熵)的概念定义2.3 随机变量X的每一个可能取值的自信息I(xi)的统计平均值定义为随机变量X的平均自信息量:p这里这里q为的所有为的所有X可能取值的个数。可能取值的个数。p熵熵的的单单位位也也是是与与所所取取的的对对数数底底有有关关,根根据据所所取取的的对对数数底底不不同同,可可以以是是比比特特/符符号号、奈奈特特/符符号号、哈哈特特莱莱/符符号号或或者者是是r进制单位进制单位/符号。通常用比特符
10、号。通常用比特/符号为单位。符号为单位。一般情况下,信息熵并不等于收信者平均获得的信息量,收信者不能全部消除信源的平均不确定性,获得的信息量将小于信息熵。熵的计算例:有一布袋内放l00个球,其中80个球是红色的,20个球是白色的。随便摸出一个球,猜测是什么颜色,那么其概率空间为:如果被告知摸出的是红球,那么获得的信息量是:如果被告知摸出的是红球,那么获得的信息量是:I(a1)log p(a1)log0.8=0.32 (比特)(比特)如被告知摸出来的是白球,所获得的信息量应为:如被告知摸出来的是白球,所获得的信息量应为:I(a2)log p(a2)log0.2=2.32 (比特)(比特)平均摸取
11、一次所能获得的信息量为平均摸取一次所能获得的信息量为 :H(X)=p(a1)I(a1)+p(a2)I(a2)=0.72(比特(比特/符号)符号)熵的含义熵是从整个集合的统计特性来考虑的,它从平均意义上来表征信源的总体特征。在信源输出后,信息熵H(X)表示每个消息提供的平均信息量;在信源输出前,信息熵H(X)表示信源的平均不确定性;信息熵H(X)表征了变量X的随机性。例如例如,有两信源有两信源X X、Y Y,其概率空间分别为,其概率空间分别为:计算其熵,计算其熵,得:得:得:得:H(X)=0.08H(X)=0.08(bit/bit/符号)符号)符号)符号)H(Y)=1 H(Y)=1(bit/bi
12、t/符号)符号)符号)符号)H(Y)H(X),因此信源,因此信源Y比信源比信源X的平均不确定性要大。的平均不确定性要大。例 设甲地的天气预报为:晴(占48)、阴(占28)、大雨(占18)、小雨(占18)。又设乙地的天气预报为:晴(占78),小雨(占18)。试求两地天气预报各自提供的平均信息量。若甲地天气预报为两极端情况,一种是晴出现概率为1而其余为0。另一种是晴、阴、小雨、大雨出现的概率都相等为14。试求这两极端情况所提供的平均信息量。又试求乙地出现这两极端情况所提供的平均信息量。两个信源两个信源解:甲地天气预报构成的信源空间为:则其提供的平均信息量即信源的信息熵则其提供的平均信息量即信源的信
13、息熵:乙地天气预报的信源空间为乙地天气预报的信源空间为:n n结论结论结论结论:甲地:甲地:甲地:甲地天气预报天气预报提供的平均信息量大于乙地,因为乙地提供的平均信息量大于乙地,因为乙地提供的平均信息量大于乙地,因为乙地提供的平均信息量大于乙地,因为乙地比甲地的平均不确定性小。比甲地的平均不确定性小。比甲地的平均不确定性小。比甲地的平均不确定性小。甲地极端情况:极端情况1:晴天概率1n 结论:等概率分布时信源的不确定性最大,所结论:等概率分布时信源的不确定性最大,所以信息熵以信息熵(平均信息量)最大。平均信息量)最大。极端情况2:各种天气等概率分布乙地极端情况乙地极端情况:极端情况1:晴天概率
14、1n 结论结论:在极端情况:在极端情况2 2下,甲地比乙地提供更多的信息量。下,甲地比乙地提供更多的信息量。因为,甲地可能出现的消息数比乙地可能出现的消息数多。因为,甲地可能出现的消息数比乙地可能出现的消息数多。极端情况2:各种天气等概率分布2.2.2 熵函数的性质熵函数的性质信息熵H(X)是随机变量X的概率分布的函数,所以又称为熵函数。如果把概率分布p(xi),i=1,2,q,记为p1,p2,pq,则熵函数又可以写成概率矢量P=(p1,p2,pq)的函数的形式,记为H(P)。熵函数H(P)具有以下性质:p对称性对称性 说明熵函数仅与信源的总体统计特性有关。说明熵函数仅与信源的总体统计特性有关
15、。2.2.2 熵函数的性质熵函数的性质p确定性确定性 在在概概率率矢矢量量中中,只只要要有有一一个个分分量量为为1,其其它它分分量量必必为为0,它它们们对对熵熵的的贡贡献献均均为为0,因因此此熵熵等等于于0。也就是说确定信源的不确定度为也就是说确定信源的不确定度为0。p非负性非负性 对对确确定定信信源源,等等号号成成立立。信信源源熵熵是是自自信信息息的的数数学学期期望望,自自信信息息是是非非负负值值,所所以以信信源源熵熵必必定定是是非非负负的。的。2.2.2 熵函数的性质熵函数的性质p扩展性扩展性 这这个个性性质质的的含含义义是是增增加加一一个个基基本本不不会会出出现现的的小小概概率事件,信源
16、的熵保持不变。率事件,信源的熵保持不变。p连续性连续性 即即信信源源概概率率空空间间中中概概率率分分量量的的微微小小波波动动,不不会会引引起熵的变化。起熵的变化。2.2.2 熵函数的性质熵函数的性质p递增性递增性 这这性性质质表表明明,假假如如有有一一信信源源的的n个个元元素素的的概概率率分分布布为为(p1,p2,pn),其其中中某某个个元元素素xn又又被被划划分分成成m个个元元素素,这这m个个元元素素的的概概率率之之和和等等于于元元素素的的概概率率,这这样样得得到到的的新新信信源源的熵增加,熵增加了一项是由于划分产生的不确定性。的熵增加,熵增加了一项是由于划分产生的不确定性。p极值性:极值性
17、:式中n是随机变量X的可能取值的个数。极极值值性性表表明明离离散散信信源源中中各各消消息息等等概概率率出出现现时时熵熵最最大大,这这就就是是最最大大离离散散熵熵定定理理。连连续续信信源源的的最最大大熵熵则则与与约约束束条条件件有关。有关。2.2.2 熵函数的性质熵函数的性质p上凸性上凸性:H(P)是严格的上凸函数,设是严格的上凸函数,设则对于任意小于则对于任意小于1的正数的正数 有以下不等式成立:有以下不等式成立:凸凸函函数数在在定定义义域域内内的的极极值值必必为为极极大大值值,可可以以利利用熵函数的这个性质可以证明熵函数的极值性。用熵函数的这个性质可以证明熵函数的极值性。2.2.2 熵函数的
18、性质熵函数的性质 二进制信源是离散信源的一个特例。该信源符号只有二个,设为“0”和“1”。符号输出的概率分别为“”和“1-”,即信源的概率空间为:H(X)=-log (1-)log(1-)=H()即信息熵即信息熵H(x)是是 的函数。的函数。取值于取值于0,1区间,可区间,可画出熵函数画出熵函数H()的曲线来,的曲线来,如右图所示。如右图所示。2.2.3 联合熵与条件熵联合熵与条件熵 一个随机变量的不确定性可以用熵来表示,这一概念可以方便地推广到多个随机变量。定义2.4 二维随机变量 XY的概率空间表示为 其中 满足概率空间的非负性和完备性:2.2.3 联合熵与条件熵联合熵与条件熵二维随机变量
19、XY的联联合合熵熵定义为联合自信息的数学期望,它是二维随机变量XY的不确定性的度量。定义定义2.5 给定X时,Y的条件熵条件熵:其中,其中,H(Y|X)H(Y|X)表示已知表示已知X X时,时,Y Y的的平均平均不确定性。不确定性。2.2.3 联合熵与条件熵联合熵与条件熵各类熵之间的关系p联合熵与信息熵、条件熵的关系:联合熵与信息熵、条件熵的关系:这个关系可以方便地推广到这个关系可以方便地推广到N个随机变量的情况:个随机变量的情况:称为熵函数的链规则。称为熵函数的链规则。推推论论:当当二二维维随随机机变变量量X,Y相相互互独独立立时时,联联合合熵熵等等于于X和和Y各自熵之和:各自熵之和:p条件
20、熵与信息熵的关系:条件熵与信息熵的关系:p联合熵和信息熵的关系:联合熵和信息熵的关系:当当X、Y相互独立时等号成立。相互独立时等号成立。2.3 平均互信息平均互信息2.3.1 平均互信息的概念 为了从整体上表示从一个随机变量Y所给出关于另一个随机变量X的信息量,我们定义互信息I(xi;yj)在XY的联合概率空间中的统计平均值为随机变量X和Y间的平均互信息:定义2.6 2.3.2 平均互信息的性质平均互信息的性质 非负性:p平平均均互互信信息息是是非非负负的的,说说明明给给定定随随机机变变量量Y后后,一般来说总能消除一部分关于一般来说总能消除一部分关于X的不确定性。的不确定性。互易性(对称性):
21、p对对称称性性表表示示Y从从X中中获获得得关关于于的的信信息息量量等等于于X从从Y中获得关于的信息量。中获得关于的信息量。平均互信息和各类熵的关系:当X,Y统计独立时,2.3.2 平均互信息的性质平均互信息的性质极值性:p极极值值性性说说明明从从一一个个事事件件提提取取关关于于另另一一个个事事件件的的信信息息量量,至至多多只只能能是是另另一一个个事事件件的的平平均均自自信信息息量量那那么多,不会超过另一事件本身所含的信息量。么多,不会超过另一事件本身所含的信息量。凸函数性:p定定理理2.1 当当条条件件概概率率分分布布 给给定定时时,平平均均互互信信息息 是输入分布是输入分布 的上凸函数。的上
22、凸函数。p定定理理2.2 对对于于固固定定的的输输入入分分布布 ,平平均均互互信信息息量量 是条件概率分布是条件概率分布 的下凸函数。的下凸函数。图中两圆外轮廓表示联合熵H(XY),圆(1)表示H(X),圆(2)表示H(Y),则H(XY)=H(X)+H(Y/X)=H(Y)+H(X/Y)H(X)H(X/Y),H(Y)H(Y/X)I(X;Y)=H(X)H(X/Y)=H(Y)-H(Y/X)=H(X)+H(Y)-H(XY)H(XY)H(X)+H(Y)如果X与Y互相独立,则I(X;Y)=0H(XY)=H(X)+H(Y)H(X)=H(X/Y),H(Y)=H(Y/X)2.3.3 数据处理定理数据处理定理为了
23、证明数据处理定理,引入三元随机变量X,Y,Z的平均条件互信息和平均联合互信息的概念。定义2.7 平均条件互信息 p它它表表示示随随机机变变量量Z给给定定后后,从从随随机机变变量量Y所所得得到到得得关关于于随随机变量机变量X的信息量。的信息量。定义2.8 平均联合互信息 p它它表表示示从从二二维维随随机机变变量量YZ所所得得到到得得关关于于随随机机变变量量X的的信信息量。息量。2.3.3 数据处理定理数据处理定理定理2.3(数据处理定理)p如如果果随随机机变变量量X,Y,Z构构成成一一个个马马尔尔可可夫夫链链,则则有有以以下下关关系系成立:成立:等号成立的条件是对于任意的等号成立的条件是对于任意的X,Y,Z,有,有 p数数据据处处理理定定理理再再一一次次说说明明,在在任任何何信信息息传传输输系系统统中中,最最后后获获得得的的信信息息至至多多是是信信源源所所提提供供的的信信息息,如如果果一一旦旦在在某某一一过过程程中中丢丢失失一一些些信信息息,以以后后的的系系统统不不管管如如何何处处理理,如如不不触触及及丢丢失失信信息息的的输输入入端端,就就不不能能再再恢恢复复已已丢丢失失的的信信息息,这这就就是是信信息息不不增增性性原原理理,它它与与热热熵熵不不减减原原理理正正好好对对应应,反映了信息的物理意义。反映了信息的物理意义。