《2014信息论第2章信息的统计度量.pdf》由会员分享,可在线阅读,更多相关《2014信息论第2章信息的统计度量.pdf(72页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1第二章 信息的统计度量信息的可度量性是信息论建立的基础;香农的信息论用事件发生概率的对数来描述事件的不确定性,得到消息的信息量,建立熵的概念;熵熵是香农信息论最基本最重要的概念。22.1 自信息量和条件自信息量2.1.1自信息量 定义2.1.1 任意随机事件的自信息量定义为该事件发生概率的对数的负值。小概率事件所包含的不确定性大,自信息量大。大概率事件所包含的不确定性小,自信息量小。概率为1的确定性事件,自信息量为零。3 对数基础知识log(xy)=logx+logylog(x/y)=logx-logy4 自信息量I(xi)的性质 I(xi)是非负值;当P(xi)=1时,I(xi)=0;当P
2、(xi)=0时,I(xi)=;I(xi)是P(xi)的单调递减函数5例:棋盘共8列,甲随手一放,将一枚棋子放在了第3列。6例:袋内红、白球各50个,随意从袋中摸出一球。7例:袋内红球1个、白球7个,随意从袋中摸出一球。8联合自信息量 定义2.1.2 二维联合集XY上的元素(xiyj)的联合自信息量定义为其中p(xiyj)为元素xiyj的二维联合概率。9xiyjxiyj设在一正方形棋盘上共有64个方格,将方格分别按行和列编号。如果甲将一粒棋子随意地放在棋盘中的某方格且让乙猜测旗子所在位置;10由于甲是将一粒旗子随意地放在棋盘中某一方格内,因此,棋子在棋盘中所处位置为二维等概率分布。二维概率分布函
3、数为p(xiyj)=1/64,故在二维联合集XY上的元素xiyj的联合自信息量为112.1.2条件自信息量 定义2.1.3 联合集XY中,对事件xi和yj,事件xi在事件yj给定的条件下的条件自信息量定义为 条件概率对数的负值,在特定条件下(yj已定)随机事件xi发生所带来的信息量 联合自信息量和条件自信息量也满足非负和单调递减性。12在二维联合集XY上,元素xi相对yj的条件自信息量为甲将棋子所在方格的行告诉乙之后,再令乙猜测棋子所在列的位置。xiyj棋盘上有若干个方格,将方格分别按行和列编号。甲将一粒棋子随意地放在棋盘中的某方格内,让乙猜测棋子所在位置;概率基础知识14 只考虑第几列的情况
4、,涉及一个随机事件,可用离散随机变量X来表示。其中,X代表随机变量;代表随机事件的某一结果。15 只考虑第几行的情况,涉及一个随机事件,可用离散随机变量Y来表示。其中,Y代表随机变量;代表随机事件的某一结果。16 同时考虑行和列,涉及两个随机事件,可用两个离散随机变量来表示。随机变量X,Y分别取值于集合其中,xiyjxiyj19 有12块银元,其中有一块是假的。真假银元从外观看完全相同,但假银元的重量与真银元略有不同。求证,用一架天平称3次即可找出假银元,并知道假银元是轻是重。给出一种称量方法。作业题202.2互信息量和条件互信息量2.2.1 互信息量 定义2.2.1 对两个离散随机事件集X和
5、Y,事件yj的出现给出关于事件xi的信息量,定义为互信息量,其定义式为xiyj互信息量等于自信息量减去条件自信息量。是获得的信息量,或消除的不确定性的度量,等于先验的不确定性减去尚存在的不确定性。21例:某地二月份天气构成的信源为现有人告诉你“今天不是晴天”。收到这个消息 后,各种天气发生的概率为:22由y1分别得到x2、x3、x4各1比特的信息量,也可以理解为y1使x2、x3、x4不确定度各减少1比特算式无意义,因x1已成为确定事件。232.2.2 互信息的性质 互信息量的互易性由事件yj提供的有关事件xi的信息量等于由事件xi提供的有关事件yj的信息量。证明:当事件xi,yj统计独立时,互
6、信息量为零。不能从观测yj获得关于另一个事件xi的任何信息。证明:xiyjxiyj24 互信息量可正可负 当后验概率p(xi|yj)大于先验概率p(xi)时,互信息量I(xi;yj)大于零,为正值,意味着事件yj的出现有助于肯定事件xi的出现;当后验概率p(xi|yj)小于先验概率p(xi)时,互信息量I(xi;yj)小于零,为负值,意味着事件yj的出现不利于肯定事件xi的出现。造成不利的原因是存在信道干扰。25Y=危险X=危险;Y=安全X=安全若信道无干扰26Y=安全X=安全;信道故障(设备故障,人员问题)XX信道错误,X,Y取值相反27 任何两个事件之间的互信息量不可能大于其中任一事件的自
7、信息量。自信息量I(xi)是为了确定事件xi的出现所必须提供的信息量,也是任何其他事件所能提供的最大信息量。xiyj28 在接到D的电话后,A获得关于B的互信息量为 在接到两次电话后,A获得关于B的互信息量为 事件E,F的出现有助于肯定事件B的出现。例:A某已知其三位朋友B,C,D中必定会有一人晚上到他家,并且这三人来的可能性均相同,其先验概率p(B)=p(C)=p(D)=1/3。但这天上午A接到D的电话,说因故不能来了。下午,A又接到C的电话,说他因晚上要出席一个重要会议不能来A家。若把上午D电话作为事件E,则p(D/E)=0,p(B/E)=p(C/E)=1/2若把下午C电话作为事件F,则p
8、(C/EF)=p(D/EF)=0,p(B/EF)=1292.2.3 条件互信息量 给定条件 下,与 之间的互信息量 联合集XYZ上还存在 与 之间的互信息量xi zk yj30等于事件zk出现后所提供的有关xi的信息量I(xi;zk),加上给定事件zk的条件下再出现事件yj所提供的有关xi的信息量。等于事件yj出现后所提供的有关xi的信息量I(xi;yj),加上给定事件yj 的条件下再出现事件zk所提供的有关xi的信息量。一对事件yj zk出现后所提供的有关xi的信息量I(xi;yjzk),xi zk yj312.3 离散集的平均自信息量2.3.1平均自信息量(熵)一个离散随机变量X,以不同的
9、取值概率有N个可能取值,是一个随机变量,不能用来作为整个信源的信息测度。32 定义2.3.1 集X上,随机变量I(xi)的数学期望定义为平均自信息量,又称作集X的信源熵,简称熵。熵函数的自变量是X,表示信源整体。集X的平均自信息量表示集X中事件出现的平均不确定性。即集X中每出现一个事件平均给出的信息量 熵这个名词是香农从物理学中的统计热力学借用过来的,在物理学中热熵是表示分子混乱程度的一个物理量。33熵的单位 信息熵信息熵的单位与公式中的对数取底底有关。通信与信息中最常用的是以2为底,这时单位为比特比特(bit),H(X);理论推导中用以e为底较方便,这时单位为奈奈特特(nat),He(X);
10、工程上用以10为底较方便,这时单位为哈特哈特(hat),H10(X)。它们之间可应用对数换底公式进行互换。1 bit=0.693 nat=0.301 hat理解理解BIT一个二进制信源,如果0和1两个符号出现的概率都是0.5,那么,这个信源平均每输出一个符号,我们就得到1bit信息。3435例:一个布袋内放100个球,其中80个是红的,20个白的,若随机摸取一个,猜测其颜色,求平均摸取一次所能获得的自信息量。概率空间随机模取n次后总共所获得的信息量为平均模取1次所获得的信息量为熵是从平均意义上来表征信源的总体特征平均不确定性随机摸取n次,红球出现的次数为np(x1),白球出现的次数为np(x2
11、)36电视屏上约有5006003105个点,按每点有10个不同的灰度等级考虑,则共能组成103105个不同的画面。按等概计算,平均每个画面可提供的信息量为另有一篇千字的文章,每字从万字表中选择,共有不同的千字文N10 0001 000篇104 000篇,仍按等概计算,平均每篇千字文可提供的信息量为500*600的一个画面比1000个字的文章提供的信息量大。372.3.2 熵函数的数学特性 熵函数H(X)只是其概率分布的函数,当X有q个可能取值时,是q-1元函数。38 对称性:当概率矢量P=(p1,p2,pq)中的各分量的次序任意变更时,熵值不变。信源的熵仅与信源总体的统计特性有关。不能描述事件
12、本身的具体含义和主观价值。A地天气情况 晴 阴 雨B地天气情况 晴 阴 雨A地人口6039 非负性确知信源具有最小熵零。40 确定性(不确定性完全消失)集合X中只要有一个事件为必然事件,则其余事件为不可能事件。此时,集合中每个事件对熵的贡献都为0,因而熵为0。41 扩展性 证明:因为 故上式成立。集中一个事件的概率相对于其他事件的概率很小时,对集合的熵值的贡献可忽略不计。42 对于离散随机变量,当其可能的取值等概分布时,其熵达到最大值。即:极值性43结论:等概率分布时熵最大,不确定性最大。故这一定理又被称为离散信源最大熵定理。证明:先证明不等式:lnxx-1可令f(x)=lnx(x-1)44p
13、=0.5p=0.5等概时,等概时,熵最大为1bit。p=0,1p=0,1时,时,随机变量的不确定性消失,熵为0。例:二元熵函数XP(x)x1 x2 p 1-pH(X)=-plogp-(1-p)log(1-p)=H(p)1.01.00.50pH(p)/bit二元熵函数曲线45 上凸性是概率分布的严格上凸函数H对任何 和任何两个概率矢量PQ有46上凸函数:有对任意意味着在区间(x1,x2)内,任意一点的函数值总在连接x1和x2的函数值的连线的上方。对于一元函数,设x1x2为定义域中的任意两点。令则必有x1x2xf(x1)f(x2)f(x)47詹森不等式:若f(x)是定义在区间a,b上的实值连续上凸
14、函数,则对于任意一组和任意一组满足的非负实数有当取xk为一离散信源x的符号,而k为其相应概率时,不等式可写成48 可加性如果有两个随机变量X和Y,它们不是相互独立的,则二维随机变量X和Y的联合熵,等于X的无条件熵加上当X已给定时Y的条件概率定义的熵。XY492.3.3条件熵 在已知随机变量Y的条件下,随机变量X的熵称为集X对集Y的条件熵。是联合集XY上条件自信息量的数学期望。是已知一随机变量,对另一个随机变量的不确定性的量度当X表示信源的输出,Y表示信宿的输入时,条件熵H(X/Y)可表示信宿在收到Y后,信源X仍然存在的不确定度,即信道的损失。求条件熵为什么要用联合概率?5051例:已知X,Yp
15、(00)=p(11)=1/8,p(01)=p(10)=3/8,计算条件熵H(X/Y)。,XY的联合概率为:解:根据条件熵公式522.3.4 联合熵(共熵)联合离散符号集合XY上的每个元素对 的联合自信息量的数学期望。是二元随机变量不确定性的度量。532.3.5 各种熵的性质联合熵等于无条件熵加上条件熵。XY证明:54等式成立的条件是X和Y统计独立证明:XY55联合熵等于无条件熵加上条件熵。XY条件熵小于等于无条件熵,等式成立的条件是集X集Y相互独立。联合熵小于等于各自熵的和,等式成立的条件是集X集Y相互独立。XY56 互信息量 是定量地研究信息流通问题的重要基础。但只能描述信源发出某个具体消息
16、 ,信宿收到某具体消息 时流经信道的信息量,是随 和 变化的随机变量。不能从整体上作为信道中信息流通的测度。平均互信息量 从整体的角度出发,在平均意义上度量每通过一个符号流经信道的平均信息量。2.4平均互信息量57已知Y后,X的不确定度的减少量 互信息量I(xi;yj)在集XY上的概率加权平均值称为集合Y与集合X间的平均互信息量。58将已知信源接到下图所示的信道上,求在该信道上传输的平均互信息量I(X;Y)、条件熵H(X/Y)、条件熵H(Y/X)和联合熵H(XY)。59解:(1)由求出各联合概率:0.50.560(2)由得到Y集各消息概率:0.50.561(3)由,得到X的各后验概率:62(4
17、 4)平均互信息)平均互信息(5 5)联合熵)联合熵63(6 6)条件熵)条件熵642.4.3 平均互信息量的性质 非负性65 互易性(对称性)当集合X,Y相互独立时66 平均互信息和各类熵的关系XY676869H(X)H(Y)H(X,Y)H(X|Y)H(Y|X)I(X;Y)最大平均互信息量就是信道容量。70 极值性 凸函数性 平均互信息量是信源概率分布的上凸函数。(参见第4章)71 信息熵是表征随机变量本身统计特性的一个物理量,它是随机变量平均不确定性的度量,是从总体统计特性上对随机变量的一个客观描述。平均互信息I(U;V),一般是针对观测到另一个随机变量时而言的,是指观测者从随机变量V中所获得的关于随机变量U的信息度量。在通信中,互信息是针对接收者而言的,是指接收者收到的关于信源的信息度量,当通信中无干扰时,接收者获得的信息量数量上就等于信源给出的信息熵。从统计数学的角度看:熵是一个系统无序性的度量;互信息是两个随机变量之间统计依存性的度量。72 本章作业题:2.1 2.2 2.4 2.18 2.26