《信息的统计度量讲稿.ppt》由会员分享,可在线阅读,更多相关《信息的统计度量讲稿.ppt(82页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、信息的统计度量第一页,讲稿共八十二页哦2022/9/261本章内容、基本要求、重点与难点本章内容、基本要求、重点与难点 1.1.1.1.内容:内容:内容:内容:离散信源的数学模型。离散信源的数学模型。离散信源的数学模型。离散信源的数学模型。自信息量;互信息量等。自信息量;互信息量等。自信息量;互信息量等。自信息量;互信息量等。离散信源熵和平均互信息量及其性质。离散信源熵和平均互信息量及其性质。离散信源熵和平均互信息量及其性质。离散信源熵和平均互信息量及其性质。2.2.2.2.基本要求:基本要求:基本要求:基本要求:掌握信源的分类及对应的数学模型。掌握信源的分类及对应的数学模型。掌握信源的分类及
2、对应的数学模型。掌握信源的分类及对应的数学模型。掌握熵和(平均)互信息量的定义、定义式、性质。掌握熵和(平均)互信息量的定义、定义式、性质。掌握熵和(平均)互信息量的定义、定义式、性质。掌握熵和(平均)互信息量的定义、定义式、性质。3.3.3.3.重点与难点:重点与难点:重点与难点:重点与难点:离散信源熵的含义。离散信源熵的含义。离散信源熵的含义。离散信源熵的含义。离散信源的互信息量的含义。离散信源的互信息量的含义。离散信源的互信息量的含义。离散信源的互信息量的含义。第二页,讲稿共八十二页哦2022/9/262样本空间:把某事物可能出现的不同状态,即所有可能选择的消息的集合,成为样本空间。概率
3、测度:对离散消息的集合而言,对每一个可能选择的消息指定一个概率(非负,总和为1)。概率空间:一个样本空间和它的概率测度称为一个概率空间。第三页,讲稿共八十二页哦2022/9/263一个概率空间用X,P表示。离散型的概率空间:离散型的概率空间:nX代表随机变量代表随机变量nxi代表随机事件的某一结果或某个元素代表随机事件的某一结果或某个元素np(xi)=P(X=xi),表示随机事件表示随机事件X发生某一结果发生某一结果xi的概率。的概率。nn是有限正整数或可数无限大是有限正整数或可数无限大第四页,讲稿共八十二页哦2022/9/264先验概率:p(xi);后验概率:发送xi,收到yj,yj可能与x
4、i相同也可能与xi不同,p(xi|yj)称为后验概率。第五页,讲稿共八十二页哦2022/9/2652.1 自信息量和条件自信息量一、自信息量已知道,信息是对不确定性的描述,而不确定性取决于事件发生的概率。因此,某事件发生所含有的信息量应该是该事件发生的先验概率的函数。I(ai)=fp(ai)第六页,讲稿共八十二页哦2022/9/266该函数应满足以下条件:1I(ai)应是概率p(ai)的单调递减函数,即:当p(a1)p(a2)时有I(a1)H(x)n本例结论本例结论信源信源Y的二个输出消息是等可能性的,所以事先猜测哪一个消息出现的不确定性要的二个输出消息是等可能性的,所以事先猜测哪一个消息出现
5、的不确定性要大;大;信源信源X的二个输出消息不是等概率的,事先猜测的二个输出消息不是等概率的,事先猜测x1和和x2哪一个出现,虽然具有不确定哪一个出现,虽然具有不确定性,但大致可以猜出性,但大致可以猜出x1会出现,所以信源会出现,所以信源X的不确定性要小;的不确定性要小;信息熵反映的就是信源输出前平均不确定程度的大小。信息熵反映的就是信源输出前平均不确定程度的大小。第三十九页,讲稿共八十二页哦2022/9/2639例:一信源有6种输出符号,概率分别为P(A)=0.5,P(B)=0.25,P(C)=0.125,P(D)=P(E)=0.05,P(F)=0.025。计算H(X)。解:解:由信息熵定义
6、,该信源输出的信息熵为由信息熵定义,该信源输出的信息熵为 第四十页,讲稿共八十二页哦2022/9/2640二、熵的基本性质和定理熵函数熵函数H(X):熵熵H是是p(x1),p(x2),p(xn)的的n元函数元函数(实际上,(实际上,因因p(xi)=1,独立变量只有,独立变量只有n-1个,个,H是是(n-1)元函数)元函数):第四十一页,讲稿共八十二页哦2022/9/2641定义:设f(x)=f(x1,x2,xn)为一多元函数。若对于任意一个小于1的正数(0 1)以及函数f(x)定义域内的任意两个矢量X1,X2,有则称f(x)为定义域上的上凸函数;若则称f(x)为定义域上的严格上凸函数。第四十二
7、页,讲稿共八十二页哦2022/9/2642反之,若则称f(x)为定义域上的下凸函数;若则称f(x)为定义域上的严格下凸函数。第四十三页,讲稿共八十二页哦2022/9/2643l上凸性的几何意义:上凸性的几何意义:在上凸函数的任两点之在上凸函数的任两点之间画一条割线,函数总在割线间画一条割线,函数总在割线的上方的上方.l上凸函数在定义域内的上凸函数在定义域内的极值必为最大值,这对极值必为最大值,这对求最大熵很有用。求最大熵很有用。f(x)x1x2 f(x1)f(x2)第四十四页,讲稿共八十二页哦2022/9/2644詹森不等式引理:引理:若f(x)是定义在区间a,b上的连续上凸函数,则对于任意一
8、组x1,x2,.,xqa,b和任意一组非负实数1,2 q满足有第四十五页,讲稿共八十二页哦2022/9/2645第四十六页,讲稿共八十二页哦2022/9/2646 取xk为一个离散集的事件,k为相应的概率。若:f(.)为对数函数,詹森不等式为 Elogxlog(Ex)f(.)为一般凸函数 Ef(x)f(Ex)第四十七页,讲稿共八十二页哦2022/9/2647熵函数的基本性质(1)非负性非负性(2)对称性对称性(3)最大离散熵定理最大离散熵定理(4)扩展性扩展性(5)确定性确定性(6)可加性可加性(7)极值性极值性(8)上凸性上凸性第四十八页,讲稿共八十二页哦2022/9/2648(1)非负性即
9、:即:H(X)0n因为随机变量因为随机变量X的所有取值的概率分布满足的所有取值的概率分布满足0p(xi)1;n当取对数的底大于当取对数的底大于1时时log p(xi)0,而,而-p(xi)log p(xi)0,所以熵,所以熵H(X)0;第四十九页,讲稿共八十二页哦2022/9/2649(2)对称性 定义:定义:当变量当变量p(x1),p(x2),p(xn)的顺序任意互换时,熵函数的的顺序任意互换时,熵函数的值不变,即值不变,即 含义:含义:该性质说明熵只与随机变量的该性质说明熵只与随机变量的总体结构总体结构有关,与信源的有关,与信源的总体统计特性总体统计特性有关。如果某些信源的统计特性相同(含
10、有的有关。如果某些信源的统计特性相同(含有的符号符号数数和和概率分布概率分布相同),那么这些信源的熵就相同。相同),那么这些信源的熵就相同。第五十页,讲稿共八十二页哦2022/9/2650例:三个信源分别为:X与与Z信源的差别信源的差别:具体消息其含义不同;具体消息其含义不同;X与与Y信源的差别信源的差别:同一消息的概率不同;同一消息的概率不同;但它们的信息熵是相同的。但它们的信息熵是相同的。第五十一页,讲稿共八十二页哦2022/9/2651(3)最大离散熵定理(极值性)定理:定理:离散无记忆信源输出离散无记忆信源输出n个不同的信息符号,当且个不同的信息符号,当且仅当各个符号出现仅当各个符号出
11、现概率相等概率相等时时(即即p(xi)=1/n),熵最大。,熵最大。Hp(x1),p(x2),p(xn)H(1/n,1/n,1/n)=log2n 出现任何符号的可能性相等时,不确定性最大。出现任何符号的可能性相等时,不确定性最大。第五十二页,讲稿共八十二页哦2022/9/2652l扩展性说明,增加一个概率接近于零的事件,信源熵保持扩展性说明,增加一个概率接近于零的事件,信源熵保持不变。不变。l虽然小概率事件出现后,给予收信者较多的信息,但从总虽然小概率事件出现后,给予收信者较多的信息,但从总体来考虑时,因为这种概率很小的事件几乎不会出现,所体来考虑时,因为这种概率很小的事件几乎不会出现,所以它
12、对于离散集的熵的贡献可以忽略不计。这也是熵的总以它对于离散集的熵的贡献可以忽略不计。这也是熵的总体平均性的一种体现。体平均性的一种体现。(4)扩展性第五十三页,讲稿共八十二页哦2022/9/2653 H(1,0)=H(1,0,0)=H(1,0,0,0)=H(1,0,0)=0 含义:在概率空间中,只要有一个事件是必然事件,那么其它事件一含义:在概率空间中,只要有一个事件是必然事件,那么其它事件一定是不可能事件,因此信源没有不确定性,熵必为定是不可能事件,因此信源没有不确定性,熵必为0。(5)确定性第五十四页,讲稿共八十二页哦2022/9/2654(6)可加性H(XY)=H(X)+H(Y/X)H(
13、XY)=H(Y)+H(X/Y)第五十五页,讲稿共八十二页哦2022/9/2655(7)极值性(最大离散熵定理)定理定理:离散无记忆信源输出离散无记忆信源输出n个不同的信息符号,当且个不同的信息符号,当且仅当各个符号出现概率相等时仅当各个符号出现概率相等时(即即 ),熵最大,即,熵最大,即 第五十六页,讲稿共八十二页哦2022/9/2656第五十七页,讲稿共八十二页哦2022/9/2657再令x=1/y,便得到(1-1/y)lny,于是有1-1/xlnx第五十八页,讲稿共八十二页哦2022/9/2658第五十九页,讲稿共八十二页哦2022/9/2659证极值性:令qi=1/n1,根据以上引理,有
14、Hn(p1,p2,pn)-pilog1/n=pilogn=logn当前仅当pi=1/n,i=1,2,.,n时,等号成立。表明:等概率场的平均不确定性最大,具有最大熵。第六十页,讲稿共八十二页哦2022/9/2660可以被看做是一种新的概率分布。可以被看做是一种新的概率分布。是概率分布是概率分布 的严格上凸函数,即的严格上凸函数,即证明:证明:(8)上凸性第六十一页,讲稿共八十二页哦2022/9/2661三、条件熵定义:定义:条件熵是在联合符号集合条件熵是在联合符号集合XY上的条件自信息的数学期望。上的条件自信息的数学期望。n在已知在已知Y时,时,X的条件熵为的条件熵为n已知已知X时,时,Y的条
15、件熵为的条件熵为n条件熵是一个确定的值条件熵是一个确定的值第六十二页,讲稿共八十二页哦2022/9/2662n 表示在已知表示在已知 的情况下的情况下,Y的平均不确定性。的平均不确定性。n对于不同的对于不同的 xi ,是变化的。因此,是变化的。因此,是一个是一个随机变量。随机变量。第六十三页,讲稿共八十二页哦2022/9/2663四.联合熵 定义定义 随机变量X和Y的联合分布为p(xiyj),则这两个随机变量的联合熵定义为:联合熵表示对于二维随机变量的平均不确定性。第六十四页,讲稿共八十二页哦2022/9/2664例例:已知已知 联合概率分布如下,求:联合概率分布如下,求:H(XY),H(X)
16、,H(Y),H(Y|X),H(X|Y)。第六十五页,讲稿共八十二页哦2022/9/26651)H(XY)=-0.25*log2(0.25)+3*0.1*log2(0.1)+0.3*log2(0.3)+3*0.05*log2(0.05)=2.665解:解:H(X)=2.0662)3)H(Y)=1.856第六十六页,讲稿共八十二页哦2022/9/26664)5)H(X|Y)=0.809H(Y|X)=0.600第六十七页,讲稿共八十二页哦2022/9/2667五、各种熵之间的关系五、各种熵之间的关系 1)H(XY)=H(X)+H(Y|X)=H(Y)+H(X|Y)2)H(X|Y)H(X),H(Y|X)
17、H(Y)3)H(XY)H(X)+H(Y)若X与Y统计独立,则H(XY)=H(X)+H(Y)可推广到多个随机变量的情况可推广到多个随机变量的情况:第六十八页,讲稿共八十二页哦2022/9/26683)式的证明:第六十九页,讲稿共八十二页哦2022/9/2669故H(XY)H(X)+H(Y)证毕第七十页,讲稿共八十二页哦2022/9/26702.4平均互信息量一一、平均互信息量定义:平均互信息量定义:互信息量互信息量I(xi;yj)在联合概率空间在联合概率空间P(XY)中中的统计平均值。的统计平均值。称称I(X;Y)是是Y对对X的平均互信息量的平均互信息量(简称(简称平均互信息平均互信息/交互熵交
18、互熵)。nX对对Y的平均互信息定义为的平均互信息定义为n平均互信息平均互信息I(X;Y)克服了克服了互信息量互信息量I(xi;yj)的随机性,成为一个的随机性,成为一个确确定的量定的量。第七十一页,讲稿共八十二页哦2022/9/2671性质:I(X;yj)0二、平均条件互信息量二、平均条件互信息量定义:联合集XY上,有yj提供的关于集X的平均条件互信息量等于由yj所提供的互信息量I(xi,yj)在整个X中以后验概率加权的平均值。定义式:第七十二页,讲稿共八十二页哦2022/9/2672则,平均互信息量的又一定义:定义:互信息量I(X;yj)在整个集Y上的概率加权平均值。定义式:当xi和yj相互
19、独立时,为0;第七十三页,讲稿共八十二页哦2022/9/2673三、平均互信息量的物理含义 观察者站在输出端观察者站在输出端 观察者站在输入端观察者站在输入端 观察者站在通信系统总体立场上观察者站在通信系统总体立场上第七十四页,讲稿共八十二页哦2022/9/2674 观察者站在输出端nI(X;Y)收到收到Y前、后关于前、后关于X的不确定度减少的量。的不确定度减少的量。从从Y获得的关于获得的关于X的平均信息量的平均信息量。第七十五页,讲稿共八十二页哦2022/9/2675 观察者站在输入端nI(Y;X)发出发出X前、后关于前、后关于Y的不确定度减少的量。的不确定度减少的量。第七十六页,讲稿共八十
20、二页哦2022/9/2676 观察者站在通信系统总体立场上nI(X;Y)通通信信前前、后后整整个个系系统统不不确确定定度度减减少少量量。在在通通信信前前把把X和和Y看看成成两两个个相相互互独独立立的的随随机机变变量量,整整个个系系统统的的先先验验不不确确定定度度为为X和和Y的的联联合合熵熵H(X)+H(Y);通通信信后后把把信信道道两两端端出出现现X和和Y看看成成是是由由信信道道的的传传递递统统计计特特性性联联系系起起来来的的、具具有有一一定定统统计计关关联联关关系系的的两两个个随随机机变变量量,这这时时整整个个系系统统的的后后验验不不确定度由确定度由H(XY)描述。描述。第七十七页,讲稿共八
21、十二页哦2022/9/2677四、平均互信息量的性质 对称性对称性 非负性非负性 极值性极值性 凸函数性凸函数性第七十八页,讲稿共八十二页哦2022/9/2678 对称性I(X;Y)=I(Y;X)n根据互信息量的对称性根据互信息量的对称性I(xi;yj)=I(yj;xi)n结论:结论:由由Y提取到的关于提取到的关于X的信息量与从的信息量与从X中提取到的关于中提取到的关于Y的信的信息量是一样的。息量是一样的。I(X;Y)和和 I(Y;X)只是观察者的立足点不同。只是观察者的立足点不同。第七十九页,讲稿共八十二页哦2022/9/2679即即 I(X;Y)0当且仅当当且仅当X和和Y相互独立,即相互独
22、立,即p(xiyj)=p(xi)p(yj)I(X;Y)=0式中式中结论:结论:n平均互信息量不是从两个具体消息出发,而是从随机变平均互信息量不是从两个具体消息出发,而是从随机变量量X和和Y的整体角度出发,在平均意义上观察问题,所以平的整体角度出发,在平均意义上观察问题,所以平均互信息不会出现负值。均互信息不会出现负值。非负性第八十页,讲稿共八十二页哦2022/9/2680 极值性I(X;Y)H(X)I(Y;X)H(Y)证明:证明:n意义:从一个事件提取关于另一个事件的信息量,至多是另一意义:从一个事件提取关于另一个事件的信息量,至多是另一个事件的熵那么多,不会超过另一个事件自身所含的信息量。个事件的熵那么多,不会超过另一个事件自身所含的信息量。第八十一页,讲稿共八十二页哦2022/9/2681 凸函数性n平均互信息量平均互信息量I(X;Y)是输入信源概率分布是输入信源概率分布p(xi)的上凸函数的上凸函数n平均互信息量平均互信息量I(X;Y)是输入转移概率分布是输入转移概率分布p(yj/xi)的下凸函数的下凸函数 (证明暂不给出证明暂不给出)第八十二页,讲稿共八十二页哦2022/9/2682