信息论与编码理论基础王育民(第二章).ppt

上传人:wuy****n92 文档编号:63527927 上传时间:2022-11-25 格式:PPT 页数:100 大小:776.50KB
返回 下载 相关 举报
信息论与编码理论基础王育民(第二章).ppt_第1页
第1页 / 共100页
信息论与编码理论基础王育民(第二章).ppt_第2页
第2页 / 共100页
点击查看更多>>
资源描述

《信息论与编码理论基础王育民(第二章).ppt》由会员分享,可在线阅读,更多相关《信息论与编码理论基础王育民(第二章).ppt(100页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、2022/11/221第二章:第二章:信息量和熵2.1 离散型随机变量的非平均信息量(事件的信息量)离散型随机变量的非平均信息量(事件的信息量)2.2 离散型随机变量的平均自信息量(熵)离散型随机变量的平均自信息量(熵)2.4 离散型随机变量的平均互信息量离散型随机变量的平均互信息量2.5 连续型随机变量的平均互信息量和微分熵连续型随机变量的平均互信息量和微分熵2.6 凸函数与凸函数与(离散型随机变量的离散型随机变量的)平均互信息量凸性平均互信息量凸性2022/11/2222.1 离散型随机变量的非平均信息量离散型随机变量的非平均信息量 (事件的信息量)(事件的信息量)2022/11/223非

2、平均互信息量输入输入输入输入消息消息消息消息码字码字码字码字(输出)(输出)(输出)(输出)p(xp(xk k)收到收到收到收到0 0收到收到收到收到0101收到收到收到收到011011X1X2X3X4X5X6X7x80000010100111001011101111/81/81/81/81/81/81/81/81/41/41/41/40000001/21/2000000010000例例2022/11/224非平均互信息量输入消息输入消息码字码字p(xk)收到收到0收到收到01收到收到011X1X2X3X4X5X6X7x80000010100111001011101111/81/41/81/4

3、1/161/161/161/161/61/31/61/30000001/32/30000000100002022/11/225直观认识n对观察者来说,同样观察事件011,但输入消息等概情况下“收获”要大些,即得到的“信息”要多些。n越是不太可能发生的事件竟然发生了,越是令人震惊令人震惊。获得的“信息”要多些。2022/11/226非平均互信息量n 例输入消息码字p(xk)收到0收到01收到010X1X20001111/21/21-pp1/21/21-pp1-p1-p0011pp2022/11/227直观认识n在接收010的过程中,消息出现的可能性,即后验概率也在不断变化,但变化趋势不再像例2.

4、1.1 那样单调地变化,而是有起伏的,且最后并未达到1或0.n观察到010之后不能断定是哪个消息出现了。但是由观察结果计算出来的某个消息出现的后验概率大于1/2或小于1/2,使我们可比未观察前较有把握地推断消息出现的可能性,因而多少得到了一些有关出现的“信息”。n若p1/2,也即010是消息x1的输出可能性大。2022/11/228直观认识n从上述两个系统可以看出,在一个系统中我们所关心的输入是哪个消息的问题,只与事件出现的先验概率先验概率和经过观察后事件出现的后验概后验概率率有关。n信息信息应当是先验概率先验概率和后验概率后验概率的函数,即 I(xk;yj)=f Q(xk),P(xk|yj)

5、2022/11/229n研究表明信息量信息量就表示成为事件的就表示成为事件的后验概率后验概率与事件的与事件的先先验概率验概率之比之比的的对数函数对数函数!2022/11/2210非平均互信息量(本章将给出各种信息量的定义和它们的性质。)定义定义(非平均互信息量)给定一个二维离散型随机变量因此就给定了两个离散型随机变量事件xkX与事件yjY的互信息量定义为2022/11/2211非平均互信息量直观认识n若信源发某符号xi,由于信道中噪声的随机干扰,收信者收到的是xi的某种变形yj,收信者收到yj后,从yj中获取xi的信息量用I(xi;yj)表示,则有nI(xi;yj)=收到yj 前,收信者对信源

6、发xi 的不确定性 -收到yj 后,收信者对信源发xi仍然存在 的 不确定性 =收信者收到yj 前后,收信者对信源发xi 的 不确定性的消除不确定性的消除2022/11/2212非平均互信息量性质非平均互信息量性质其中底数a是大于1的常数。常用a=2或a=e,当a=2时互信息量的单位为“比特”。互信息量的性质:互信息量的性质:(1)I(xk;yj)=loga(rkj/(qkwj)。因此有对称性:。因此有对称性:I(xk;yj)=I(yj;xk)。(2)当)当rkj=qkwj时时,I(xk;yj)=0。即当。即当(rkj/qk)=wj时,时,I(xk;yj)=0。又即当又即当(rkj/wj)=q

7、k时,时,I(xk;yj)=0。换句话说,当换句话说,当“X=xk”与与“Y=yj”这两个事件相互独立时,互信这两个事件相互独立时,互信息量为息量为0)。)。2022/11/2213非平均互信息量性质非平均互信息量性质(3)当)当rkjqkwj时时 I(xk;yj)0,当,当rkjqkwj时时 I(xk;yj)wj时,时,I(xk;yj)0;当当(rkj/qk)wj时,时,I(xk;yj)0。换句话说,换句话说,当当“X=xk”与与“Y=yj”这两个事件相互肯定时,互信息量为正这两个事件相互肯定时,互信息量为正值;值;当当“X=xk”与与“Y=yj”这两个事件相互否定时,互信息量为负这两个事件

8、相互否定时,互信息量为负值。值。2022/11/2214条件互信息和联合事件互信息n三个事件集的条件互信息定义(定义定义)为n可以推广到任意有限多个空间情况2022/11/2215互信息的可加性互信息的可加性系统u1u2u3系统u1u2u3意味着意味着:(u2,u3)联联合合给给出的关于出的关于u1的信息量等于的信息量等于u2给给出的关出的关于于u1的信息量与的信息量与u2已知条件下已知条件下u3给给出的关于出的关于u1的信息量之和的信息量之和。2022/11/2216非平均自信息量非平均自信息量定义定义(非平均自信息量)给定一个离散型随机变量X,xk,qk,k=1K。事件xkX的自信息量定义

9、为I(xk)=loga(1/qk),其中底数a是大于1的常数。2022/11/2217自信息量的性质:自信息量的性质:(1)非负性)非负性.I(xk)0(2)单调性)单调性.qk越小,越小,I(xk)越大越大(3)I(xk;yj)minI(xk),I(yj)即互信息量不超过各自的自信息量。即互信息量不超过各自的自信息量。证明 注意到总有rkjminqk,j。(why?什么情况下相等?)因此根据定义,I(xk;yj)I(xk),I(xk;yj)I(yj)。非平均自信息量非平均自信息量2022/11/2218非平均自信息量的直观认识n若信源发某符号xi,没有信道中噪声的随机干扰,收信者收到的yj就

10、是xi本身。收信者收到yj=xi后,当然就完全消除了对信源发符号xi的不确定性,即 收到yj=xi 后,收信者对信源发xi仍然存在的不确定性=0nI(xi;xi)=收到xi前,收信者对信源发xi 的不确定性 =I(xi)2022/11/22192022/11/22202022/11/22212022/11/2222条件的非平均自信息量条件的非平均自信息量定义定义(条件的非平均自信息量)给定一个二维离散型随机变量 (X,Y),(xk,yj),rkj,k=1K;j=1J在事件yj发生的条件下事件xk的条件自信息量条件自信息量定义为 I(xk|yj)=loga(1/P(X=xk|Y=yj)=loga

11、(wj/rkj)条件的非平均自信息量条件的非平均自信息量n条件的非平均自信息量实际上是非平均自信息量的简单推广,只不过将概率换成了条件概率条件概率。n条件的非平均自信息量的特殊性质:条件的非平均自信息量的特殊性质:I(xk|yj)=I(xk)-I(xk;yj)2022/11/22232022/11/2224联合的非平均自信息量联合的非平均自信息量定义定义(联合联合的非平均自信息量)给定一个二维离散型随机变量 (X,Y),(xk,yj),rkj,k=1K;j=1J事件(xk,yj)(X,Y)的自信息量自信息量定义为I(xk,yj)=loga(1/rkj)联合的非平均自信息量联合的非平均自信息量n

12、联合的非平均自信息量实际上是非平均自信息量的简单推广。即可以将(X,Y)直接看成是一维的随机变量。n 联合的非平均自信息量的特殊性质:联合的非平均自信息量的特殊性质:I(xk,yj)=I(yj)+I(xk|yj)=I(xk)+I(yj|xk)I(xk,yj)=I(xk)+I(yj)-I(xk;yj)。2022/11/22252022/11/2226非平均信息量(事件的信息量)非平均信息量(事件的信息量)小结小结非平均互互信息量I(xk;yj)非平均自自信息量I(xk),I(yj)条件条件的非平均自自信息量I(xk|yj),I(yj|xk)联合联合的非平均自自信息量I(xk,yj)非平均信息量(

13、事件的信息量)非平均信息量(事件的信息量)相互关系:I(xk;yj)min I(xk),I(yj)I(xk;yj)=I(xk)-I(xk|yj)I(xk,yj)=I(yj)+I(xk|yj)=I(xk)+I(yj|xk)I(xk,yj)=I(xk)+I(yj)-I(xk;yj)2022/11/22272022/11/2228联合自信息、条件自信息和互信息I(xk)I(yj)I(xk;yj)2022/11/22292.2 离散型随机变量的平均自信息量离散型随机变量的平均自信息量熵熵2022/11/2230自信息量的不足n信息函数 I(xk)破天荒地使信息度量成为可能,是信息度量的有力工具,n但在

14、信息度量方面仍然存在某些不足.自信息量的不足n信源发符号xk不是确定事件,是以p(xk)为概率的随机事件,相应的自信息量I(xk)也是一个以p(xk)为概率的随机性的量,显然,用一个随机性的量来度量信息是不方便的.n信息函数I(xk)只能表示信源发某一特定的具体符号xk所提供的信息量.不同的符号由不同的自信息量.所以它不足以作为整个信源的总体信息测度.n据此,在信息函数I(xk)的基础上,构架一个确定的量,作为信源的总体信息测度,就成为我们面临的一个重要课题.2022/11/22312022/11/2232统计平均值n能作为信源总体信息测度的确定的量,应是信源X可能发出的各种不同符号xk(k=

15、1,2,K)含有的自信息量I(xk)(k=1,2,K),在信源的概率空间 p(x1),p(x2),p(xK)中的统计平均值H(X).2022/11/2233平均自信息量平均自信息量熵熵定义定义(平均自信息量平均自信息量熵熵)离散型随机变量X,xk,qk,k=1K的平均自信息量(又称为熵)定义为 其中底数a是大于1的常数。平均自信息量平均自信息量(信息)熵 集X的平均自信息量表示集X中事件出现的平平均不确定性均不确定性,即为了确定n集X中出现一个事件平均所需的信息量(观测之前),或n集X中每出现一事件平均给出的信息量(观测之后)。2022/11/2234信息熵与热熵n信息熵和统计热力学中定义的热

16、熵在形式上完全相同。n在热力学中,X表示系统所有可能的状态,p(x)表示某一个特定状态x出现的概率。热熵热熵H(X)描述了系系统统的的“无无规则规则”的程度的程度,即在某一给定时刻一个系统可能出现的有关状态的“不确定”的程度。2022/11/22352022/11/2236例子2022/11/22372022/11/22382022/11/2239平均自信息量平均自信息量熵熵注意:(1)事件xk的自信息量值为I(xk)=loga(1/qk),因此H(X)是随机变量X的各事件自信息量值的“数学期望”。(2)定义H(X)时,允许某个qk=0。(此时将qkloga(1/qk)通盘考虑)此时补充定义q

17、kloga(1/qk)=0。这个定义是合理的,因为2022/11/2240平均自信息量平均自信息量熵熵例例 离散型随机变量X有两个事件x1和x2,P(X=x1)=p,P(X=x2)=1-p则X 的平均自信息量(熵)为H(X)=ploga(1/p)+(1-p)loga(1/(1-p)观察H(X),它是p的函数,图给出了函数图象.2022/11/2241图图2.2.1 H(X)1.00.5 0 0.5 1 P 平均自信息量平均自信息量熵熵该图象具有某种对称性:n当p=0或p=1时,H(X)=0。(随机变量X退化为常数时,熵为0)n当0p0。p越靠近1/2,H(X)越大。(X是真正的随机变量时,总有

18、正的熵。随机性越大,熵越大)n当p=1/2时,H(X)达到最大。(随机变量X的随机性最大时,熵最大。特别如果底数a=2,则H(X)=1比特)2022/11/22422022/11/2243平均自信息量平均自信息量熵熵2022/11/2244平均自信息量平均自信息量熵熵2022/11/2245平均自信息量平均自信息量熵熵2022/11/2246平均自信息量平均自信息量熵熵2022/11/2247平均自信息量平均自信息量熵熵2022/11/2248平均自信息量平均自信息量熵熵2022/11/2249平均自信息量平均自信息量熵熵条件平均自信息量(条件熵)条件平均自信息量(条件熵)n条件非平均自信息量

19、是集 上的随机变量n由此可类似给出条件平均自信息量称做是给定 条件下,集 的条件熵n同时,又可以看作是集 上的随机变量,继续求统计平均/期望2022/11/22502022/11/2251条件平均自信息量条件平均自信息量条件熵条件熵定义定义(条件熵)给定一个二维离散型随机变量(X,Y),(xk,yj),rkj,=p(xk,yj)k=1K;j=1J,称如下定义的H(X|Y)为X相对于Y的条件熵联合的非平均自信息量联合的非平均自信息量2022/11/2252给定一个二维离散型随机变量 (X,Y),(xk,yj),rkj=p(xk,yj),k=1K;j=1J事件(xk,yj)(X,Y)的自信息量自信

20、息量 I(xk,yj)=-log p(xk,yj)求其统计平均或数学期望2022/11/2253联合的平均自信息量联合的平均自信息量联合熵联合熵定义定义(联合熵)二维离散型随机变量(X,Y),(xk,yj),rkj=p(xk,yj),k=1K;j=1J的联合熵定义为2022/11/2254各熵之间的关系各熵之间的关系熵、条件熵、联合熵之间的关系:(1)H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)(由定义容易证明)(2)当 X与 Y相互独立时,H(Y|X)=H(Y),H(X|Y)=H(X)此时也有 H(X,Y)=H(X)+H(Y)。各熵之间的关系各熵之间的关系2022/11/22

21、55证明(2)2022/11/2256熵的性质熵的性质对于随机变量X,xk,qk,k=1K的熵 H(X)=kqkloga(1/qk),有以下的性质。1、H(X)与事件xk,k=1K的具体形式无关,仅仅依赖于概率向量qk,k=1K。而且H(X)与概率向量qk,k=1K的分量排列顺序无关。2、H(X)0。完全同理,H(X|Y)0;H(Y|X)0;H(X,Y)0。熵的性质熵的性质n3、确定性:当概率向量qk,k=1K的一个分量为1时(此时其它分量均为0),H(X)=0。(这就是说,当随机变量X实际上是个常量时,不含有任何信息量)。2022/11/22572022/11/22582.2 离散型随机变量

22、的平均自信息量(熵)离散型随机变量的平均自信息量(熵)4、可忽略性:当随机变量X的某个事件的概率很小时,该事件对熵的贡献可以忽略不计。(虽然小概率事件的自信息量很大。这是因为当qk0时,qkloga(1/qk)0)。5、可加性:H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)。因此,H(X,Y)H(X);H(X,Y)H(Y)。(性质5有一个隐含的结论:设X的概率向量为q1,q2,qK,Y的概率向量为q1,q2,qK-2,qK-1+qK,其中qK-1qK0,则H(X)H(Y)。)2022/11/22592.2 离散型随机变量的平均自信息量(熵)离散型随机变量的平均自信息量(熵)6、极

23、值性:H(X)logaK。当q1=q2=qK=1/K时,才有H(X)=logaK。(以下是极值性的证明过程)引理引理1 对任何x0总有lnxx-1。证明 令f(x)=lnx-(x-1),则f(x)=1/x-1。因此当0 x0;当x1时f(x)0。换句话说,当0 x1时,f(x)的值严格单调减。注意到f(1)=0。所以对任何x0总有f(x)f(1)=0。得证。2022/11/22602.2 离散型随机变量的平均自信息量(熵)离散型随机变量的平均自信息量(熵)引理引理2 设有两个K维概率向量(什么叫概率向量?每个分量都是非负的,且各分量之和等于1)qk,k=1K和pk,k=1K。则总满足 2022

24、/11/22612.2 离散型随机变量的平均自信息量(熵)离散型随机变量的平均自信息量(熵)证明 注意到引理1,2022/11/22622.2 离散型随机变量的平均自信息量(熵)离散型随机变量的平均自信息量(熵)引理2得证。(注意:此证明过程省略了若干细节,比如当概率向量的某个分量为0时,情况比较复杂)极值性的证明极值性的证明 qk,k=1K是一个K维概率向量。令pk=1/K,k=1K。则pk,k=1K也是一个K维概率向量。由引理2,H(X)=kqkloga(1/qk)kqkloga(1/(1/K)=logaK。得证。2022/11/22632.4 离散型随机变量的平均互信息量离散型随机变量的

25、平均互信息量2022/11/22642.4 离散型随机变量的平均互信息量离散型随机变量的平均互信息量2022/11/22652.4 离散型随机变量的平均互信息量离散型随机变量的平均互信息量定义定义(平均互信息量)给定一个二维离散型随机变量(X,Y),(xk,yj),rkj,k=1K;j=1J(因此就给定了两个离散型随机变量X,xk,qk,k=1K和Y,yj,wj,j=1J)。X与Y的平均互信息量定义为如下的I(X;Y):2022/11/2266注意:事件对(xk,yj)的“非平均互信息量”值为I(xk;yj)。此外,可以定义“半平均互信息量”I(xk;Y)和I(X;yj)。I(xk;Y)表示事

26、件“X=xk”与随机变量Y之间的半平均互信息量;I(X;yj)表示事件“Y=yj”与随机变量X之间的半平均互信息量。2022/11/22672.4 离散型随机变量的平均互信息量离散型随机变量的平均互信息量平均互信息量的性质平均互信息量的性质 1、I(X;Y)0。(虽然每个“非平均互信息量”I(xk;yj)未必非负,但平均互信息量I(X;Y)非负)证明2022/11/22682.4 离散型随机变量的平均互信息量离散型随机变量的平均互信息量rkj,k=1K;j=1J是一个概率向量:qkwj,k=1K;j=1J是另一个概率向量:故由引理2知,2022/11/22692.4 离散型随机变量的平均互信息

27、量离散型随机变量的平均互信息量2、对称性:I(X;Y)=I(Y;X)。3、平均互信息量的熵表示:I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)=H(X)+H(Y)-H(XY)。证明2022/11/22702.4 离散型随机变量的平均互信息量离散型随机变量的平均互信息量2022/11/22712.4 离散型随机变量的平均互离散型随机变量的平均互信息量信息量3、若X与Y相互独立,则I(X;Y)=0,H(X|Y)=H(X),H(Y|X)=H(Y),H(XY)=H(X)+H(Y)。证明 若X与Y相互独立,则rkj=qkwj,k=1K;j=1J。因此此时loga(rkj/(qkwj)=0,

28、k=1K;j=1J。因此I(X;Y)=0。再由性质3,性质3得证。2022/11/22722.4 离散型随机变量的平均互离散型随机变量的平均互信息量信息量4、I(X;Y)H(X),I(X;Y)H(Y)。(性质4有多种简单的证明方法。第一种证明方法:由I(X;Y)的定义,loga(rkj/(qkwj)loga(1/qk)。第二种证明方法:由性质3,I(X;Y)=H(X)-H(X|Y)H(X)。)4、若X是Y的确定的函数X=g(Y),则I(X;Y)=H(X)H(Y)。若Y是X的确定的函数Y=g(X),则I(X;Y)=H(Y)H(X)。(证略)2022/11/22732.4 离散型随机变量的平均互离

29、散型随机变量的平均互信息量信息量一般印象一般印象(平均互信息量I(X;Y)的各种性质与我们对“平均互信息量”这个名词的直观理解非常吻合)。一般情形:总有0I(X;Y)minH(X),H(Y)。一种极端情形:若X与Y相互独立,则I(X;Y)=0。另一种极端情形:若X、Y中有一个完全是另一个的确定的函数,则I(X;Y)=minH(X),H(Y)。2022/11/22742.4 离散型随机变量的平均互离散型随机变量的平均互信息量信息量定理定理(信息处理定理)对于以下给定的系统串联有:I(X;Y)I(X;Z)。信息处理定理的含义:串联的系统越多,两端的平均互信息量越小。信息处理定理的证明思想:注意到X

30、、Z、Y构成了马尔可夫链。简单地说,在已知Z的条件下,X与Y条件独立。根据这种马尔可夫链结构,可以证明I(X;Y)I(X;Z)。(证略)2022/11/22752.1 2.4 诸概念直观理解诸概念直观理解两个事件的非平均互信息量:互相肯定的程度。一个事件的非平均自信息量:令人震惊的程度。一个随机变量的平均自信息量(熵):不可预测的程度。一个随机变量X相对于另一个随机变量Y的条件熵:当Y的值确定时,X剩余的不可预测的程度。二维随机变量(XY)的联合熵:联合不可预测的程度。两个随机变量X与Y的平均互信息量:互相依赖的程度。(当Y的值确定时,X的可预测的程度;当Y的值确定时,所能够给出的X的信息量)

31、(当X的值确定时,Y的可预测的程度;当X的值确定时,所能够给出的Y的信息量)事件X=x与随机变量Y的半平均互信息量:当X=x时,所能够给出的Y 的信息量。2022/11/22762.2 和和2.4 中的若干公式中的若干公式 恒等式I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)=H(X)+H(Y)-H(XY)由定义容易看出第一类不等式H(X)logaK;I(X;Y)0;H(XY)H(X)+H(Y);H(X|Y)H(X);H(Y|X)H(Y)。根据引理1和引理2来证明第二类不等式I(X;Y)minH(X),H(Y);H(XY)maxH(X),H(Y)。根据概率论的基本事实来证明独立情

32、形下的等式I(X;Y)=0,H(X|Y)=H(X),H(Y|X)=H(Y),H(XY)=H(X)+H(Y)。第一类不等式的特殊情形2022/11/22772.5 连续型随机变量的连续型随机变量的平均互信息量平均互信息量和微分熵和微分熵2022/11/2278事件互信息量定义定义 给定二维连续型随机变量(X,Y),p(X,Y)(x,y)(因此就给定了两个连续型随机变量X,pX(x)和Y,pY(y))。事件xX与事件yY的互信息量定义为2022/11/2279平均互信息量平均互信息量定义定义 给定二维连续型随机变量(X,Y),p(X,Y)(x,y)(因此就给定了两个连续型随机变量X,pX(x)和Y

33、,pY(y))。X与Y的平均互信息量定义为 2022/11/2280平均互信息量性质平均互信息量性质平均互信息量的性质平均互信息量的性质 1、I(X;Y)0。2、对称性:I(X;Y)=I(Y;X),3、信息处理定理:对于如下的系统串联有I(X;Y)I(X;Z)。4、2022/11/2281微分熵、相对熵微分熵、相对熵(连续型随机变量为什么不能类似地定义平均自信息量熵?这是因为,连续型随机变量的事件有无穷多个,每个事件发生的概率无穷小。如果类似地定义熵,则熵是无穷大。因此只能定义所谓“微分熵”,而“微分熵”的直观合理性大打折扣。比如“微分熵”可以是负的)微分熵的定义微分熵的定义 给定连续型随机变

34、量X,pX(x)。X的微分熵(又称为相对熵)定义为2022/11/2282联合微分熵联合微分熵联合的微分熵的定义联合的微分熵的定义 给定二维连续型随机变量(X,Y),p(X,Y)(x,y)。(X,Y)的联合的微分熵定义为2022/11/2283例题例题例例 设(XY)是连续型的二维随机变量,其联合分布密度函数pXY(xy)为二维高斯概率密度函数(二元正态密度函数):2022/11/2284例题例题2022/11/2285例题例题例2.5.2 设XU(a,b),求X的微分熵(相对熵)(我们将发现,X的相对熵未必非负)。2022/11/2286例题例题例2.5.3 设XN(m,2),求X的微分熵(

35、相对熵)(我们将发现,X的相对熵未必非负)。2022/11/2287例题例题熵功率2022/11/2288微分熵的极大化微分熵的极大化(已知:当离散型随机变量X的事件有K个时,H(X)logaK;只有当X服从等概分布时才有H(X)=logaK)n1.峰值功率受限n均匀分布相对熵最大定理定理 若连续型随机变量X的取值范围在区间(-M,M)之内(即当x不在区间(-M,M)时,fX(x)=0),则Hc(X)loga 2M;只有当X服从U(-M,M)分布时才有Hc(X)=loga 2M。2022/11/2289微分熵的极大化微分熵的极大化n2.平均功率受限n高斯分布相对熵最大定理定理 若连续型随机变量

36、X的方差等于2,则Hc(X)(1/2)loga(2e2);只有当X服从N(m,2)分布时才有Hc(X)=(1/2)loga(2e2)。n3.平均功率大于等于熵功率2022/11/22902.6 凸函数与凸函数与(离散型随机变量的离散型随机变量的)平均互平均互信息量的凸性信息量的凸性2022/11/2291凸函数n凸集R:a,b属于R,qa+(1-q)b也属于R,其中0q1n概率矢量矢量a的所有分量和为1n上凸函数2022/11/2292凸函数的性质1.f(a)是上凸的,f(a)是下凸的2.f1(a),fL(a)是R上的上凸函数,c1,cL是正数,c1f1(a)+cLfL(a)也是上凸函数3.f

37、(a)是上凸函数,Ef(a)fE(a),E为求数学期望2022/11/2293K-T条件f(a)是定义域R上的上凸函数,a是概率矢量。偏导数 存在且连续,f(a)在R上为极大的充分必要条件2022/11/2294互信息的凸性记离散型随机变量X的事件为1,2,K。记X的概率分布为P(X=k)=qk,k=1K。记离散型随机变量Y的事件为1,2,J。记条件概率P(Y=j|X=k)=p(j|k)。则rkj=P(X,Y)=(k,j)=qkp(j|k),(概率论中的乘法公式)wj=P(Y=j)=k qkp(j|k),(概率论中的全概率公式)2022/11/2295互信息的凸性np(j|k)给定,I(X;Y

38、)是q(x)的上凸函数nq=(q1,q2,qK)给定,I(X;Y)是p(j|k)的下凸函数2022/11/2296互信息的凸性互信息的凸性设条件概率p(j|k),k=1K,j=1J被确定。此时I(X,Y)是概率向量q=(q1,q2,qK)的函数。我们希望找到这样的概率向量,使得对应的I(X,Y)达到最大。这就是说,记我们希望找到这样的K维概率向量a=(a1,a2,aK),使得2022/11/2297互信息的凸性互信息的凸性(本节的核心内容是定理,但它有太长的推导。)简述定理的含义简述定理的含义 K维概率向量a=(a1,a2,aK)使得当且仅当:以a为X的概率向量的时候,I(X=k;Y)对所有a

39、k0的k都取一个相同的值C;I(X=k;Y)对所有满足ak=0的k都取值不超过上述的相同值C。其中2022/11/22982.6 凸函数与凸函数与(离散型随机变离散型随机变量的量的)平均互信息量的凸性平均互信息量的凸性I(X=k;Y)表示什么?表示事件X=k与随机变量Y之间的“半平均互信息量”。2022/11/22992.6 凸函数与凸函数与(离散型随机变离散型随机变量的量的)平均互信息量的凸性平均互信息量的凸性例例 设X的事件有0、1;Y的事件有0、1;已知p(0|0)=1-u;p(1|0)=u;p(0|1)=u;p(1|1)=1-u。当X服从等概分布(a0=P(X=0)=1/2;a1=P(X=1)=1/2)时,I(X;Y)达到最大。因为此时2022/11/221002.6 凸函数与凸函数与(离散型随机变离散型随机变量的量的)平均互信息量的凸性平均互信息量的凸性

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁