《(信息论)第2章信息的统计度量.ppt》由会员分享,可在线阅读,更多相关《(信息论)第2章信息的统计度量.ppt(46页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第第 2 章章 信息的统计度量信息的统计度量2.1 自信息量和条件自信息量自信息量和条件自信息量2.1.1 自信息量自信息量 从信息源获得信息的过程就是其不确定性缩减的过程。可见信息源包含的信息与其不确定性是紧密相关的。在统计分析中,使用概率作为衡量不确定性的一种指标。可以推论,随机事件包含信息的度量应是其概率的函数。1 定义定义 2.1.1 任意随机事件的自信息量自信息量定义为该事件发生概率的对数的负值。设该事件 的概率为 ,那么,它的自信息定义式为自信息的单位与所用对数底有关:对数的底 2 e 10 比特(bit)奈特(nat)哈脱来(haitely)小概率事件所包含的不确定性大,其自信息
2、量大;出现概率大的随机事件所包含的不确定性小,其自信息量小。(2.1)2 定义定义2.1.2 二维联合集XY上的元素 的联合自信息量定义为式中,为积事件,为元素 的二维联合概率。例:例:(2.2)32.1.2 条件自信息量条件自信息量 定义定义 2.1.3 联合集XY中,对事件 和 ,事件 在事件 给定的条件下的条件自信息量定义为(2.3)例:例:42.2 互信息量和条件互信息量互信息量和条件互信息量2.2.1 互信息量互信息量信源集合 X 的概率空间为其中 为集合 X 中各个消息 的取值;概率 称为先验概率先验概率。信源信道信宿XY5 信宿收到的符号消息集合 Y的概率空间为其中 是集合 Y
3、中各个消息符号 的取值;概率 为消息符号 出现的概率。当信宿收到集合Y中的一个消息 后,接收者重新估计关于信源各个消息发生的概率就变成条件概率 ,这种条件概率又称为后验概率后验概率。6 定义定义 2.2.1 对两个离散随机事件集X和Y,事件 的出现给出关于事件 的信息量定义为互信息量互信息量。其定义式为互信息量的单位与自信息量的单位一样取决于对数的底。当对数底为2时,互信息量的单位为比特。由式(2.4)又可得到上式意味着互信息量等于自信息量减去条件自信息量。或者说互信息量是一种消除的不确定性的度量,亦即互信息量等于先验的不确定性 减去尚存在的不确定性 。(2.4)72.2.2 互信息量的性质互
4、信息量的性质 互互信息量的互易性信息量的互易性互互信息量可为零信息量可为零当事件 统计独立时,互信息量为零,即互互信息量可正可负信息量可正可负这意味着不能从观测 获得关于另一个事件 的任何信息。任何两个事件之间的互信息量不可能大于其中任何一任何两个事件之间的互信息量不可能大于其中任何一事件的自信息量事件的自信息量(2.5)(2.6)82.2.3 条件互信息量条件互信息量(2.7)定义定义 2.2.2 联合集XYZ中,在给定 的条件下,与 的互信息定义为条件互信息量。其定义式为联合集XYZ上还存在 与 之间的互信息量,其定义式为或进一步表示为(2.8)9式(2.9)表明,一对事件 出现后所提供的
5、有关 的信息量 等于事件 出现后所提供的有关 的信息量 加上在给定事件 的条件下再出现事件 所提供的有关 的信息量。(2.9)102.3 离散集的平均自信息量离散集的平均自信息量2.3.1 平均自信息量平均自信息量(熵熵)自信息量,是一个随机变量,它不能用来作为整个信源的信息测度。这样,我们引入平均自信息量,即信息熵。定义定义 2.3.1 集X上,随机变量 的数学期望定义为平均自信息量 集 X 的平均自信息量又称作是集 X 的信息熵,简称作熵。平均自信息量的表示式和统计物理学中热熵的表示式相似。(2.10)11 信息熵的单位取决于对数选取的底,与自信息量的单位相一致。在现代数字通信系统中,一般
6、选用二进制计数方式。在信息熵的计算中也多以2为对数底。这里当以2为对数底时,信息熵写成 形式,其单位为 bit。其他对数底的信息熵可以利用对数换底公式进行转换。由对数换底公式可得(2.11)122.3.2 熵函数的数学特性熵函数的数学特性 定义定义 2.3.2 设 为一多元函数。若对于任意一个小于1的正数 及函数 定义域内的任意两个矢量 有则称 为定义域上的凸函数(Cap型函数)。若则称 为定义域上的严格上凸函数严格上凸函数。反之,若或或则称 为定义域上的下凸函数(Cup型函数)或严格下凸函严格下凸函数数。(2.14)(2.15)(2.13)(2.16)13 引理引理 2.3.1 若 是定义在
7、区间 上的实值连续上凸函数,则对于任意一组 和任意一组非负实数 满足有有上面的不等式通常称为Jenson不等式不等式。当取 为一个离散无记忆信源的信源符号,取为相应的概率时,显然满足引理的条件。若取 为对数函数,不等式(2.18)可写为或对于一般的凸函数 ,写成(2.18)(2.20)(2.19)14熵熵函数的数学性质函数的数学性质 对称性对称性 说明熵仅与随机变量的总体结构有关,或者说熵仅与信源总体的统计特性有关。如果总体统计特性相同,但内部结构不同,导致具有相同的熵值。这说明反映不出不同内部结构的信源间的差异。可见该定义的熵具有一定的局限性。非负性非负性(2.21)其中,等号成立的充要条件
8、是当且仅当对某 其余的 ,这表明,确定场的熵最小。15 扩展性扩展性 这说明一个事件的概率和集中其他事件相比很小时,它对于集合的熵值的贡献就可以忽略不计。可加性可加性 如果有两个随机变量X,Y,它们不是相互独立的,则二维随机变量(X,Y)的熵等于X的无条件熵加上当X已给定时Y的条件概率定义的熵的统计平均值,即其中(对于一切 i)(2.22)16 上式中 为集合 X 中 的概率 为已知 的条件下,集合 Y 中 的条件概率 所以 为 和 的联合概率 。式(2.22)的物理意义是,先知道 获得 的平均信息量为 ,在这个条件 下,再知道 所获得的平均信息量 ,两者相加等于同时知道 X和Y 所获得的平均
9、信息量 。17 推论推论 当二维随机变量X,Y相互统计独立,则有这是因为随机变量 X 和 Y 相互统计独立,故有 ,于是(2.23)极值性极值性式中,n 是集合 X 的元素数目。上式表明,在离散情况下,集合 X 中的各事件依等概率发生时,熵达到极大值。由于对数函数的单调上升性,集合中元素的数目 n 越多,其熵值越大。(2.24)18引理引理 2.3.2 对任意实数 有引理引理 2.3.3 式(2.26)表明,对于任一集合X,对任一概率分布 ,它对其他概率分布 的自信息 取数学期望 时必不小于由概率 本身定义的熵 。其中等号成立当且仅当 ,这表明等概场的平均不确定性为最大,具有最大熵。这是一个很
10、重要的结论,称为最大熵定理最大熵定理。(2.25)式中(2.26)19 确定性确定性 在概率矢量 中,当其中某一分量 而其他分量 故上式成立。集合 X 中只要有一个事件为必然事件,则其余事件为不可能事件。此时,集合X中每个事件对熵的贡献都为零,因而熵必为零。上凸性上凸性 是概率分布 的严格上凸函数。202.3.3 条件熵条件熵 定义定义 2.3.3 联合集XY上,条件自信息 的概率加权平均值定义为条件熵。其定义式为上式称为联合集 XY 中,集 Y 相对于集 X 的条件熵。条件熵又可写成式中取和的范围包括 XY 二维空间中的所有点。要注意条件熵是用联合概率 ,而不是用条件概率 进行加权平均。(2
11、.27)(2.28)当 X 表示信道的输入,Y 表示信道的输出时,条件熵 表示在得到输出Y的条件下,输入X 中剩余的不确定性,即信道损失信道损失。212.3.4 联合熵联合熵 定义定义 2.3.4 联合集 XY上,每对元素 的自信息量的概率加权平均值定义为联合熵。其定义式为根据式(2.2),联合熵又可定义为联合熵联合熵又可称为共熵共熵。(2.30)(2.29)222.3.5 各种熵的性质各种熵的性质 联合熵与信息熵、条件熵的关系联合熵与信息熵、条件熵的关系(2.32)(2.31)式(2.31)表明,共熵等于前一个集合 X 出现的熵加上前一个集合 X 出现的条件下,后一个集合 Y 出现的条件熵。
12、如果集 X 和集 Y 相互统计独立,则有此时,。式(2.33)则表示熵的可加性熵的可加性。而式(2.31)称为熵的强可加性熵的强可加性。(2.33)23 性质1还可推广到多个随机变量构成的概率空间之间的关系。设有N个概率空间 ,其联合熵可表示为如果N个随机变量相互独立,则有(2.35)(2.36)24 共熵与信息熵的关系共熵与信息熵的关系等式成立的条件是集 X 和 Y 统计独立。(2.37)当集合 X 和 Y 取自同一符号集合 Z 时,则有且且性质2 可推广到 N 个概率空间的情况同理,等号成立的充要条件是概率空间 相互统计独立。25 条件熵与通信熵的关系条件熵与通信熵的关系(2.38)等式成
13、立的条件是当且仅当集X和Y统计独立,意即例例:设一系统的输入符号集 ,输出符号集 ,如图所示。输入符号与输出符号的联合分布为26输入输出关系解:解:2728292.3.6 加权熵加权熵设有随机变量X,引入事件的重量后,其概率空间为其中30 定义定义 2.3.5 离散无记忆信源 的加权熵定义为这样定义的加权熵保留了Shannon熵的许多有用的性质,但是也失去了某些性质,不过也增加了一些新的性质。(2.42)非负性非负性 若若权重权重 ,则,则即若每一事件都被赋予同样的重量,则加权熵退化为Shannon熵31 确定性确定性 若 而 则加权熵为零,即 若 而 为样本空间,并且 ,则加权熵为零,即这一
14、性质表明,某些事件有意义 ,但不发生 而另外一些事件虽然发生 ,但毫无意义 。所以从主观效果来看,人们并没有获得任何有意义的信息。322.4 离散集的平均互信息量离散集的平均互信息量 令 X 表示离散输入事件集。其中 对每个事件 ,相应概率为 ,简化为 ,且以 表示输入概率空间,。类似地令 Y 表示离散输出事件集,对每个事件 ,相应概率为 ,简记为 ,且以 表示输出概率空间,。33X 和 Y 的联合空间与每组事件(积事件)相应的概率为二维联合概率 ,且以 表示二维联合概率空间。一般地有条件概率当事件 和 彼此统计独立统计独立时,有若上式所有的 i,j 成立,则称集 X 与 Y 统计独立,否则称
15、为统计相关统计相关。342.4.1 平均条件互信息量平均条件互信息量 定义定义 2.4.1 在联合集 XY 上,由 提供的关于集 X的平均条件互信息量等于由 所提供的互信息量 在整个X中以后验概率加权的平均值,其定义式为式中,为后验概率。由于互信息 是表示观测到 后获得的关于事件 的信息量,即故平均条件互信息量又可以表示为(2.43)(2.44)35定理定理 2.4.1 联合集 XY 上的平均条件互信息量其中等号成立当且仅当 X 集中的各个 都与事件 相互独立。(2.45)36也可定义为其中当 和 相互独立时,且 2.4.2 平均互信息量平均互信息量 定义定义 2.4.2 互信息量 在整个集Y
16、上的概率加权平均值。其定义式为或定义为(2.47)(2.46)(2.48)(2.50)(2.49)372.4.3 平均互信息量的性质平均互信息量的性质 非负性非负性 当且仅当 X 与 Y 相互独立时,等号成立。即如果 X 与 Y 相互独立,它们之间相互不能提供任何信息。互易互易性性(对称性对称性)平均互信息量 的对称性表示从集 Y 中获得关于X 的信息量等于从集 X 中获得关于 Y 的信息量。当集 X 和集 Y 统计独立时,则有这一性质意味着不能从一个集获得关于另一个集的任何信息。(2.51)38 平均互信息和各类熵的关系平均互信息和各类熵的关系平均互信息和熵、条件熵的关系为平均互信息和熵、联
17、合熵的关系为(2.53)(2.54)(2.52)39 和通信熵的关系 图中两个长方形的长度分别代表熵 和 。其重叠部分的长度代表平均互信息量 。不重叠部分的长度分别代表条件熵 和 。而总长度代表共熵 。当集 X 和 Y 统计独立时,得到40 条件熵 表示在已知输出 Y 的条件下输入 X的剩余不确定性,即信道损失信道损失。由互信息量 与条件熵 的关系看出,等于输入平均信息量 减去信道损失,它反映信道传输信息的能力。最大平均互信息量就是信道容量信道容量。极值性极值性(2.55)(2.56)凸凸函数性函数性 平均互信息量是信源概率分布 和信道传递概率 的凸函数。412.5 连续随机变量的互信息和相对
18、熵连续随机变量的互信息和相对熵 与研究离散集相似,描述连续随机变量 X 和 Y 的统计特征是边沿概率密度 和 ,以及联合概率密度 。分别为其中,为 条件概率密度条件概率密度。对于连续随机变量 X 取值在 x 值附近的概率 随机变量 Y 取值在 y 值附近的概率为 ,二维连续随机变量XY同时取值在 x 和 y 附近的概率为 ,其中 为任意小的区间。422.5.1 连续随机变量的互信息连续随机变量的互信息 定义定义 2.5.1 连续随机变量集 XY,事件 和事件 之间的互信息定义为 与离散情况下所定义的形式一样,所不同的只是用概率密度代替了离散集情况下的概率函数。(2.57)43 定义定义 2.5
19、.2 连续随机变量集合 X 和 Y 之间的平均互信息定义为 显然,连续随机变量定义的平均互信息 和离散集情况是一样的,只要将离散情况下的概率函数换成概率密度,求和化成积分即可。(2.58)连续随机变量平均互信息的主要性质如下:连续随机变量平均互信息的主要性质如下:非负性非负性当且仅当连续随机变量 X 和 Y 统计独立时等号成立。对称性对称性442.5.2 连续随机变量的熵连续随机变量的熵连续随机变量的相对熵(微分熵)连续随机变量的相对熵仍然具有离散熵的主要特性,即可加性可加性,但不具有非负性但不具有非负性。(2.61)连续随机变量的熵 具有相对性相对性。在取两熵之间的差时,才具有信息的所有特征
20、,例如非负性等。所以相对熵 不能像离散熵那样充当集合中事件出现不能像离散熵那样充当集合中事件出现的不确定性的测度的不确定性的测度,但它还有许多和离散熵一样的性质,特别是相对熵的差值仍能像离散情况那样表征两个集合两个集合之间的互信息量之间的互信息量。由于信息的非负性,就不能像离散变量的情况那样,代表信源输出的信息了。45连续集的联合熵和条件熵连续集的联合熵和条件熵联合事件集联合事件集XY的相对熵的相对熵(联合熵联合熵)联合事件集联合事件集XY的条件熵的条件熵连续随机变量各种熵之间的关系连续随机变量各种熵之间的关系(2.62)(2.63)(2.64)(2.65)(2.66)(2.67)(2.68)46