《第2章离散信源及其信息测度PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《第2章离散信源及其信息测度PPT讲稿.ppt(88页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第2章离散信源及其信息测度第1页,共88页,编辑于2022年,星期一第一节第一节 信源的数学模型及分类信源的数学模型及分类 在通信系统中,收信者在未收到信息以前,对在通信系统中,收信者在未收到信息以前,对信源发出什么样的消息是不确定的,是随机的,所信源发出什么样的消息是不确定的,是随机的,所以可以用随机变量、随机矢量或随机过程来描述信以可以用随机变量、随机矢量或随机过程来描述信源输出的消息,或者说用一个源输出的消息,或者说用一个样本空间样本空间及其及其概率测度概率测度来描述信源。来描述信源。不同的信源根据其输出消息的不同的随机性质不同的信源根据其输出消息的不同的随机性质进行分类。进行分类。第2
2、页,共88页,编辑于2022年,星期一随机变量x描述信源输出的消息 离散信源连续信源 随机序列x描述信源输出的消息 离散平稳信源连续平稳信源 非平稳信源平稳信源 第一节第一节 信源的数学模型及分类信源的数学模型及分类第3页,共88页,编辑于2022年,星期一1、离散信源、离散信源:指发出在时间和幅度上都是离散分布的指发出在时间和幅度上都是离散分布的离散消息的信源,如文字、数字、数据等符号都是离散离散消息的信源,如文字、数字、数据等符号都是离散消息。消息。数学模型如下:数学模型如下:集合集合X中,包含该信源包含的所有可能输出的消息,中,包含该信源包含的所有可能输出的消息,集合集合P中包含对应消息
3、的概率密度,各个消息的输中包含对应消息的概率密度,各个消息的输出概率总和应该为出概率总和应该为1。例:天气预报例:天气预报第一节第一节 信源的数学模型及分类信源的数学模型及分类第4页,共88页,编辑于2022年,星期一2、连续信源指发出在时间和幅度上都是连续分布的连续、连续信源指发出在时间和幅度上都是连续分布的连续消息(模拟消息)的信源。消息(模拟消息)的信源。数学模型如下:数学模型如下:每次只输出一个消息,但消息的可能数目是无穷多个。每次只输出一个消息,但消息的可能数目是无穷多个。例:电压、温度等。例:电压、温度等。第一节第一节 信源的数学模型及分类信源的数学模型及分类第5页,共88页,编辑
4、于2022年,星期一收到某消息获得的收到某消息获得的信息量信息量 不确定性减少的量不确定性减少的量 (收到此信息(收到此信息前前关于某事件发生的不确定性)关于某事件发生的不确定性)(收到此信息(收到此信息后后关于某事件发生的不确定性)关于某事件发生的不确定性)第二节第二节 离散信源的信息熵离散信源的信息熵在信息传输的一般情况下,直观地把信息量定义为:事件发生的不确定性与事件发生的概率有关。事件发生的不确定性与事件发生的概率有关。第6页,共88页,编辑于2022年,星期一o事件发生的概率越小,我们猜测它有没有发生的困难程度就越大,事件发生的概率越小,我们猜测它有没有发生的困难程度就越大,不确定性
5、就越大。不确定性就越大。概率等于概率等于1的必然事件,就不存在不确定性。的必然事件,就不存在不确定性。o某事件发生所含有的信息量应该是该事件发生的某事件发生所含有的信息量应该是该事件发生的先验概率的函数。先验概率的函数。第二节第二节 离散信源的信息熵离散信源的信息熵第7页,共88页,编辑于2022年,星期一1、自信息、自信息 某事件发生所携带的信息量是和该事件出现的概率有关,概率可某事件发生所携带的信息量是和该事件出现的概率有关,概率可以表征自信息量的大小以表征自信息量的大小 根据客观事实和人们的习惯概念,应满足以下条件:根据客观事实和人们的习惯概念,应满足以下条件:是事件的发生的先验概率。是
6、事件的发生的先验概率。第二节第二节 离散信源的信息熵离散信源的信息熵第8页,共88页,编辑于2022年,星期一(2)当)当时(3)当 时(4)两个独立事件的联合信息量应等于它们分别的信息量之和。)两个独立事件的联合信息量应等于它们分别的信息量之和。(1)应是先验概率的单调递减函数,即应是先验概率的单调递减函数,即 当当 时时 第二节第二节 离散信源的信息熵离散信源的信息熵第9页,共88页,编辑于2022年,星期一 根据上述条件可以从数学上证明这种函数形式是对数函数,即:有两个含义:1 1、当事件发生、当事件发生前前,表示该事件发生的不确定性表示该事件发生的不确定性;2 2、当事件发生、当事件发
7、生后后,表示该事件所提供的信息量表示该事件所提供的信息量。第二节第二节 离散信源的信息熵离散信源的信息熵第10页,共88页,编辑于2022年,星期一o 自信息的测度单位及其换算关系l如果如果取以取以2 2为底,则信息量单位称为为底,则信息量单位称为比特比特(binary unit)l如果取以如果取以e为底,则信息量单位称为为底,则信息量单位称为奈特奈特(nature unit)l如果取以如果取以1010为底,则信息量单位称为为底,则信息量单位称为哈特哈特(Hart unit,以纪念哈特莱首以纪念哈特莱首先提出用对数来度量消息先提出用对数来度量消息)l1 1奈特奈特1.441.44比特比特 1
8、1哈特哈特3.323.32比特比特l一般都采用以一般都采用以“2”2”为底的对数,为了书写简洁,有时把底数为底的对数,为了书写简洁,有时把底数2 2略略去不写。去不写。第二节第二节 离散信源的信息熵离散信源的信息熵第11页,共88页,编辑于2022年,星期一 信息论中“比特”与 计算机术语中“比特”区别l如果如果p(xi)=1/2,则,则I(xi)=1比特。所以比特。所以1比比特信息量就是两个互不相容的等可能特信息量就是两个互不相容的等可能事件之一发生时所提供的信息量。事件之一发生时所提供的信息量。l信息论中信息论中“比特比特”是指抽象的信息量是指抽象的信息量单位;单位;l计算机术语中计算机术
9、语中“比特比特”是代表二元数字;是代表二元数字;l这两种定义之间的关系是:这两种定义之间的关系是:每个二元数字每个二元数字所能提供的最大平均信息量为所能提供的最大平均信息量为1比特。比特。第12页,共88页,编辑于2022年,星期一例:设天气预报有两种消息,晴天和雨天,出现的概率分别为例:设天气预报有两种消息,晴天和雨天,出现的概率分别为1/41/4和和3/43/4,我们分别用,我们分别用a a1 1来表示晴天,以来表示晴天,以a a2 2 来表示雨天,则我们来表示雨天,则我们的信源模型如下:的信源模型如下:第二节第二节 离散信源的信息熵离散信源的信息熵第13页,共88页,编辑于2022年,星
10、期一联合自信息量联合自信息量o信源模型为信源模型为o其中其中0p(xiyj)1(i=1,2,n;j=1,2,m)o则则联合自信息量联合自信息量为为o当当X和和Y相互独立时,相互独立时,p(xiyj)=p(xi)p(yj)o两个随机事件相互独立时,同时发生得到的信息量,等于两个随机事件相互独立时,同时发生得到的信息量,等于各自自信息量之和。各自自信息量之和。第14页,共88页,编辑于2022年,星期一条件自信息量条件自信息量o设设yj条件下,发生条件下,发生xi的条件概率为的条件概率为p(xi/yj),那么它的条件自信,那么它的条件自信息量息量I(xi/yj)定义为定义为o表示在特定条件下(表示
11、在特定条件下(yj已定)随机事件已定)随机事件xi所带来的信息量所带来的信息量o同理,同理,xi已知时发生已知时发生yj的条件自信息量为的条件自信息量为o自信息量、条件自信息量和联合自信息量之间的关系自信息量、条件自信息量和联合自信息量之间的关系第15页,共88页,编辑于2022年,星期一【例例】某某住住宅宅区区共共建建有有若若干干栋栋商商品品房房,每每栋栋有有5个个单单元元,每每个个单单元元住住有有12户,甲要到该住宅区找他的朋友乙,若:户,甲要到该住宅区找他的朋友乙,若:1.甲甲只只知知道道乙乙住住在在第第5栋栋,他他找找到到乙乙的的概概率率有有多多大大?他他能能得得到到多多少少信息?信息
12、?2.甲甲除除知知道道乙乙住住在在第第5栋栋外外,还还知知道道乙乙住住在在第第3单单元元,他他找找到到乙乙的的概概率率又有多大?他能得到多少信息?又有多大?他能得到多少信息?用用xi代表单元数,代表单元数,yj代表户号:代表户号:(1 1)甲甲 找找 到到 乙乙 这这 一一 事事 件件 是是 二二 维维 联联 合合 集集 X Y上上 的的 等等 概概 分分 布布 ,这一事件提供给甲的信息量为,这一事件提供给甲的信息量为 I(xi yj)=-)=-log p(xi yj)=log60=5.907(比特)(比特)(2 2)在在二二维维联联合合集集X Y上上的的条条件件分分布布概概率率为为 ,这这一
13、一事件提供给甲的信息量为条件自信息量事件提供给甲的信息量为条件自信息量 I(yjxi)=-)=-logp(yjxi)=log12=)=log12=3.585(比特)(比特)第16页,共88页,编辑于2022年,星期一我们定义我们定义自信息的数学期望自信息的数学期望为为信源的平均信息量信源的平均信息量信息熵具有以下两种物理含义:信息熵具有以下两种物理含义:1 1、表示信源输出前信源的平均不确定性;、表示信源输出前信源的平均不确定性;2 2、表示信源输出后每个符号所携带的平均信息量。、表示信源输出后每个符号所携带的平均信息量。2、信息熵、信息熵信息熵是从平均意义平均意义上来表征信源的总体信息测度。
14、信息熵的单位:信息熵的单位:取决于对数选取的底。一般选用以取决于对数选取的底。一般选用以2为底,其单位为为底,其单位为比比特特/符号符号。第二节第二节 离散信源的信息熵离散信源的信息熵第17页,共88页,编辑于2022年,星期一信息熵:信息熵:从从平均平均意义上来表征信源的意义上来表征信源的总体总体信息测度的信息测度的一个量。一个量。自信息:自信息:指某一信源发出某一消息所含有的信息量。指某一信源发出某一消息所含有的信息量。所发出的消息不同所发出的消息不同,它们所含有的信息量也它们所含有的信息量也就不同。就不同。自信息自信息I(xi)是一个随机变量是一个随机变量,不能用它来作不能用它来作为整个
15、信源的信息测度。为整个信源的信息测度。第18页,共88页,编辑于2022年,星期一例:天气预报,有两个信源 则:说明第二个信源的平均不确定性更大一些。第二节第二节 离散信源的信息熵离散信源的信息熵第19页,共88页,编辑于2022年,星期一n 信源熵与平均获得的信息量 信源熵信源熵是信源的是信源的平均不确定性平均不确定性的描述。在一般情的描述。在一般情况下它并不等于况下它并不等于平均获得的信息量平均获得的信息量。只有在。只有在无噪无噪情况情况下,接收者才能正确无误地接收到信源所发出的消息,下,接收者才能正确无误地接收到信源所发出的消息,消除了消除了H(X)大小的平均不确定性,所以获得的平均信大
16、小的平均不确定性,所以获得的平均信息量就等于息量就等于H(X)。在一般情况下获得的信息量是在一般情况下获得的信息量是两两熵之差熵之差,并不是信源熵本身。,并不是信源熵本身。第20页,共88页,编辑于2022年,星期一o电视屏上约有 500 600=3105个格点,按每点有 10个不同的灰度等级考虑,则共能组成 个不同的画面。每个画面出现按等概率 计算,平均每个画面可提供的信息量为 3 105 3.32 比特/画面 上节课自信息复习上节课自信息复习第21页,共88页,编辑于2022年,星期一o有一篇千字文章,假定每字可从万字表中任选,则共有不同的千字文N=100001000=104000 篇,按
17、等概率1/100001000计算,平均每篇千字文可提供的信息量为 H(X)log2N 4 103 3.32 1.3 104 比特/千字文 o比较:o“一个电视画面”平均提供的信息量远远超过“一篇千字文”提供的信息量。第22页,共88页,编辑于2022年,星期一第三节第三节 信息熵的基本性质信息熵的基本性质熵函数可以表示为:信源概率空间:信源概率空间:用概率矢量P来表示概率分布:第23页,共88页,编辑于2022年,星期一性质性质1 1:非负性:非负性性质性质2 2:对称性:对称性 根据加法交换律可以证明,当变量交换顺序时熵函数的值不变。根据加法交换律可以证明,当变量交换顺序时熵函数的值不变。信
18、源的熵只与概率空间的总体结构有关,而与每个概率分量对应的状态顺信源的熵只与概率空间的总体结构有关,而与每个概率分量对应的状态顺序无关;序无关;由于 ,所以 ,则 。第三节第三节 信息熵的基本性质信息熵的基本性质n这种非负性这种非负性对于离散信源的熵是合适的对于离散信源的熵是合适的,但,但对连续信源来说这一性质并不存在对连续信源来说这一性质并不存在。第24页,共88页,编辑于2022年,星期一性质性质3 3:确定性:确定性 当信源当信源X的信源空间的信源空间X,P中,任一个概率分量等于中,任一个概率分量等于1,根据完备空间特性,根据完备空间特性,其它概率分量必为其它概率分量必为0,这时信源为一个
19、确知信源,其熵为,这时信源为一个确知信源,其熵为0。如果一个信源的输出符号几乎必然为某一状态,那么这个信源没有不确如果一个信源的输出符号几乎必然为某一状态,那么这个信源没有不确定性,信源输出符号后不提供任何信息量。定性,信源输出符号后不提供任何信息量。第三节第三节 信息熵的基本性质信息熵的基本性质第25页,共88页,编辑于2022年,星期一性质性质4 4:扩展性:扩展性这说明信源空间中增加某些概率很小的符号,虽然当发出这些符号时,提供很这说明信源空间中增加某些概率很小的符号,虽然当发出这些符号时,提供很大的信息量,但由于其概率接近于大的信息量,但由于其概率接近于0,在信源熵中占极小的比重,使信
20、源熵保,在信源熵中占极小的比重,使信源熵保持不变。持不变。性质性质5 5:可加性:可加性统计独立的信源统计独立的信源X和和Y的联合信源的熵等于分别熵之和。的联合信源的熵等于分别熵之和。第三节第三节 信息熵的基本性质信息熵的基本性质性质性质6 6:强可加性:强可加性第26页,共88页,编辑于2022年,星期一性质性质7 7:极值性:极值性上式表明,对于具有上式表明,对于具有q个符号的离散信源,只有个符号的离散信源,只有在在q个信源符个信源符号号等可能等可能出现的情况下,信源熵才能达到最大值出现的情况下,信源熵才能达到最大值,这也表明,这也表明等概等概分布的信源的平均不确定性最大分布的信源的平均不
21、确定性最大,这是一个很重要得结论,称为,这是一个很重要得结论,称为最大离散熵定理最大离散熵定理。例:对于一个二元信源例:对于一个二元信源 H(X)=H(1/2,1/2)=log2=1bit第三节第三节 信息熵的基本性质信息熵的基本性质第27页,共88页,编辑于2022年,星期一举 例o二进制信源是离散信源的一个特例。二进制信源是离散信源的一个特例。o设该信源符号只有二个:设该信源符号只有二个:0和和1o设符号输出的概率分别为设符号输出的概率分别为p和和1-po信源的概率空间为信源的概率空间为o二进制信源的信息熵为二进制信源的信息熵为o这时信息熵这时信息熵H(X)是是p的函数。的函数。p取值于取
22、值于0,1区间,我们可区间,我们可以画出熵函数以画出熵函数H(p)的曲线。的曲线。第28页,共88页,编辑于2022年,星期一第29页,共88页,编辑于2022年,星期一 从图中可以得出熵函数的一些性质:从图中可以得出熵函数的一些性质:o如果二进制信源的输出是确定的如果二进制信源的输出是确定的(p=1或或/p=1),则该信源不提供任何,则该信源不提供任何信息;信息;o当二进制信源符号当二进制信源符号0和和1等概率等概率发生时,信源的发生时,信源的熵达到最大熵达到最大值,值,等于等于1比特比特信息信息o二元数字二元数字是二进制信源的输出。在具有是二进制信源的输出。在具有等概率等概率的二进制信源输
23、出的的二进制信源输出的二进制数字序列中,每一个二元数字提供二进制数字序列中,每一个二元数字提供1比特比特的信息量。如果的信息量。如果符号符号不是等概率分布不是等概率分布,则每一个二元数字所提供的平均信息量,则每一个二元数字所提供的平均信息量总是总是小于小于1比特比特。这也进一步说明了。这也进一步说明了“二元数字二元数字”(计算机术语称(计算机术语称“比特比特”)与信息量单位与信息量单位“比特比特”的关系。的关系。第30页,共88页,编辑于2022年,星期一o上凸性的几何意义:上凸性的几何意义:在上凸在上凸函数的任两点之间画一条函数的任两点之间画一条割线,函数总在割线的上割线,函数总在割线的上方
24、方.o严格上凸函数在定义域内严格上凸函数在定义域内的极值必为最大值,这对的极值必为最大值,这对求最大熵很有用。求最大熵很有用。HP+(1-)Q H(P)+(1-)H(Q)性质性质8:上凸性:上凸性第31页,共88页,编辑于2022年,星期一图 一维和二维凸集合的例子凸集合非凸集合 从几何上来看,若,是集合R中的任意两点,+(1-)表示这两点间的连线,若该连线也在集合R中,则称为R凸集。下面给出了几个凸集和非凸集合的例子。第32页,共88页,编辑于2022年,星期一第四节第四节 离散无记忆的扩展信源离散无记忆的扩展信源 实际信源输出的消息往往是时间上或空间上的实际信源输出的消息往往是时间上或空间
25、上的一系列符号,如电报系统;一系列符号,如电报系统;这类信源每次输出的这类信源每次输出的不是一个单个的符号,而是一个符号序列。在信不是一个单个的符号,而是一个符号序列。在信源输出的序列中,每一位出现哪个符号都是随机源输出的序列中,每一位出现哪个符号都是随机的,而且一般前后符号的出现是有统计依赖关系的,而且一般前后符号的出现是有统计依赖关系的。的。这种信源称为多符号离散信源这种信源称为多符号离散信源。第33页,共88页,编辑于2022年,星期一o多符号离散信源可用多符号离散信源可用随机矢量随机矢量/随机变量序列随机变量序列描描述,即述,即 X=X1,X2,X3,o信源在不同时刻的随机变量信源在不
26、同时刻的随机变量Xi 和和Xi+r 的概率分的概率分布布P(Xi)和和P(Xi+r)一般来说是不相同的,即随一般来说是不相同的,即随机变量的统计特性随着时间的推移而有所变化。机变量的统计特性随着时间的推移而有所变化。第34页,共88页,编辑于2022年,星期一离散无记忆的扩展信源离散无记忆的扩展信源基本概念:基本概念:假定随机变量序列的长度是有限的,假定随机变量序列的长度是有限的,信源序列的前后符号之间是统计独立的信源序列的前后符号之间是统计独立的/符号之间是无相互依赖关系。则称这类信符号之间是无相互依赖关系。则称这类信源为源为离散无记忆信源离散无记忆信源/离散无记忆信源的离散无记忆信源的扩展
27、扩展。第35页,共88页,编辑于2022年,星期一o把信源输出的序列看成是一组一组发出的。把信源输出的序列看成是一组一组发出的。o例例1 1:电报系统中,可以认为每二个二进制数字组成一电报系统中,可以认为每二个二进制数字组成一组。这样信源输出的是由二个二进制数字组成的一组组组。这样信源输出的是由二个二进制数字组成的一组组符号。这时可以将它们等效看成一个新的信源,它由四符号。这时可以将它们等效看成一个新的信源,它由四个符号个符号0000,0101,1010,1111组成,把该信源称为组成,把该信源称为二元无记忆二元无记忆信源的信源的二次扩展二次扩展。o例例2 2:如果把每三个二进制数字组成一组,
28、这样长度为如果把每三个二进制数字组成一组,这样长度为3 3的二进制序列就有的二进制序列就有8 8种不同的序列,可等效成一个具有种不同的序列,可等效成一个具有8 8个个符号的信源,把它称为符号的信源,把它称为二元无记忆信源的二元无记忆信源的三次扩展信源三次扩展信源。o二元无记忆信源的二元无记忆信源的N N次扩展:次扩展:把每把每N N个二进制个二进制数字组成一组,则信源等效成一个具有数字组成一组,则信源等效成一个具有2 2N N个个符号的新信源,把它称为二进制无记忆信源符号的新信源,把它称为二进制无记忆信源的的N N次扩展信源次扩展信源。第36页,共88页,编辑于2022年,星期一一般情况设一个
29、离散无记忆信源为:则该信源的N次扩展信源为:数学模型其中:第37页,共88页,编辑于2022年,星期一根据信息熵的定义,根据信息熵的定义,N N次扩展信源的熵次扩展信源的熵:可以证明,可以证明,对于离散无记忆的扩展信源离散无记忆信对于离散无记忆的扩展信源离散无记忆信源源X X的的N N次扩展信源的熵等于离散信源次扩展信源的熵等于离散信源X X的熵的的熵的N N倍倍 因为是无记忆的因为是无记忆的/统计独立,若统计独立,若 ,则则第38页,共88页,编辑于2022年,星期一证明:H(X)=H(XN)=NH(X)设设ai是是XN概率空间中的一个符号,对应于由概率空间中的一个符号,对应于由N个个xi组
30、成的序列组成的序列ai=(xi1,xi2,xiN)而而p(ai)=p(xi1)p(xi2)p(xiN)i1,i2,iN1,2,nN次扩展信源的熵次扩展信源的熵求和号是对信源求和号是对信源XN中所有中所有nN个符号求和,所以求和号共有个符号求和,所以求和号共有nN个。个。这种求和号可以等效于这种求和号可以等效于N个求和号个求和号,其中的每一个又是对,其中的每一个又是对X中的中的n个个符号求和,所以符号求和,所以 第39页,共88页,编辑于2022年,星期一因此因此上式共有上式共有N项,考察其中第一项项,考察其中第一项因为因为所以所以H(X)=H(XN)=H(X)+H(X)+H(X)=NH(X)第
31、40页,共88页,编辑于2022年,星期一例例:离散无记忆信源的离散无记忆信源的N N次扩展信源次扩展信源离散无记忆信源为:离散无记忆信源为:X:a1,a2,a3;X:a1,a2,a3;P(X):1/4,1/2,1/4P(X):1/4,1/2,1/42次扩展信源为::A1A9信源的9个符号为:A1=a1a1A2=a1a2A3=a1a3A4=a2a1A5=a2a2A6=a2a3A7=a3a1A8=a3a2A9=a3a3第41页,共88页,编辑于2022年,星期一其概率关系为:A1A2A3A4A5A6A7A8A91/161/81/16 1/81/41/81/161/81/16计算可知n结论的解释:
32、结论的解释:因为扩展信源的每一个输出符号因为扩展信源的每一个输出符号a ai i是由是由N N个个x xi i所组成的所组成的序列,并且序列中前后符号是统计独立的。现已知每个信源符号序列,并且序列中前后符号是统计独立的。现已知每个信源符号x xi i含有的平均信息量为含有的平均信息量为H H(X X),那么,那么,N N个个x xi i组成的无记忆序列平均含有的组成的无记忆序列平均含有的信息量就为信息量就为NHNH(X X)(根据熵的可加性)。因此信源(根据熵的可加性)。因此信源X XN N每个输出符号含有的每个输出符号含有的平均信息量为平均信息量为NHNH(X X)。第42页,共88页,编辑
33、于2022年,星期一第五节第五节 离散平稳信源离散平稳信源 一般来说,信源的前后消息之间有前后依赖关系,可以用随机一般来说,信源的前后消息之间有前后依赖关系,可以用随机矢量描述:矢量描述:信源在信源在t=i时刻发出什么样的值取决于两方面时刻发出什么样的值取决于两方面1 1、这一时刻该变量的分布概率、这一时刻该变量的分布概率;2;2、这一时刻以前发出的消息、这一时刻以前发出的消息 我们现在讨论我们现在讨论平稳的平稳的随机序列,随机序列,所谓平稳是指序列所谓平稳是指序列的统计性质与时间的推移无关的统计性质与时间的推移无关(两个任意时刻信源发出(两个任意时刻信源发出符号的概率分布完全相同)。符号的概
34、率分布完全相同)。1、离散平稳信源的数学定义第43页,共88页,编辑于2022年,星期一2、二维平稳信源及其信息熵 最简单的平稳信源最简单的平稳信源二维平稳信源二维平稳信源,信源发出序列中只,信源发出序列中只有前后两个符号间有依赖关系,我们可以对其二维扩展信源进有前后两个符号间有依赖关系,我们可以对其二维扩展信源进行分析。行分析。信源的概率空间信源的概率空间:连续两个信源符号出现的联合概率分布为:连续两个信源符号出现的联合概率分布为:第44页,共88页,编辑于2022年,星期一已知符号已知符号 出现后,紧跟着出现后,紧跟着 出现的条件概率为:出现的条件概率为:由二维离散信源的发出符号序列的特点
35、可以把其分由二维离散信源的发出符号序列的特点可以把其分成每两个符号一组,每组代表新信源成每两个符号一组,每组代表新信源 中的一个中的一个符号。并假设组与组之间是统计独立的,互不相关的。符号。并假设组与组之间是统计独立的,互不相关的。得到一个新的离散无记忆信源得到一个新的离散无记忆信源 ,其联合概率空间为:,其联合概率空间为:第45页,共88页,编辑于2022年,星期一根据信息熵的定义,可得:根据信息熵的定义,可得:(1 1)联合熵)联合熵可以表征信源输出长度为可以表征信源输出长度为2的平均不确定性,或所含的平均不确定性,或所含有的信息量。因此可以用有的信息量。因此可以用 作为二维平稳作为二维平
36、稳信源的信息熵的近似值。信源的信息熵的近似值。二维平稳信源的信源熵二维平稳信源的信源熵第46页,共88页,编辑于2022年,星期一(2)(2)条件熵条件熵则:第47页,共88页,编辑于2022年,星期一根据信源熵的定义根据信源熵的定义结论:结论:两个有相互依赖关系的随机变量两个有相互依赖关系的随机变量X1和和X2所组成的随机矢量所组成的随机矢量X=X1X2的联合熵的联合熵H(X),等于第一个随机变量的熵等于第一个随机变量的熵H(X1)与第一个与第一个随机变量随机变量X1已知的前提下,第二个随机变量已知的前提下,第二个随机变量X2的条件熵的条件熵H(X2/X1)之和。之和。第48页,共88页,编
37、辑于2022年,星期一可以证明可以证明:o结论:结论:o随机变量随机变量X X1 1和和X X2 2统计独立时,二维离散平稳无记忆信源统计独立时,二维离散平稳无记忆信源X=X X1 1X X2 2的熵的熵H H(X)等等于于X X1 1的熵的熵H H(X X1 1)和和X X2 2的熵的熵H H(X X2 2)之和。当之和。当X X1 1和和X X2 2取值于同一集合时,取值于同一集合时,H H(X X1 1)=)=H H(X X2 2)=)=H H(X X),H H(X)=)=H H(X X2 2)=2)=2H H(X X),与离散无记忆信源二次扩展,与离散无记忆信源二次扩展信源的情况相同。
38、信源的情况相同。o可以把离散无记忆信源的二次扩展信源看成是二维离散平稳信源的特例;可以把离散无记忆信源的二次扩展信源看成是二维离散平稳信源的特例;反过来又可以把二维离散平稳信源看成是离散无记忆信源的二次扩展信反过来又可以把二维离散平稳信源看成是离散无记忆信源的二次扩展信源的推广。源的推广。o可以证明可以证明H H(X X2 2/X X1 1)H H(X X2 2),所以,所以H H(X X2 2X X1 1)H H(X X1 1)+)+H H(X X2 2)。即。即二维离散平二维离散平稳有记忆信源的熵小于等于二维平稳无记忆信源的熵稳有记忆信源的熵小于等于二维平稳无记忆信源的熵。第49页,共88
39、页,编辑于2022年,星期一例例2.设某二维离散信源的原始信源的信源空间设某二维离散信源的原始信源的信源空间X=x1,x2,x3;P(X)=1/4,1/4,1/2,一维条件概率为:一维条件概率为:p(x1/x1)=1/2;p(x2/x1)=1/2;p(x3/x1)=0;p(x1/x2)=1/8;p(x2/x2)=3/4;p(x3/x2)=1/8;p(x1/x3)=0;p(x2/x3)=1/4;p(x3/x3)=3/4;求:求:H(X),H(X2/X1),H(X2X1)例1第50页,共88页,编辑于2022年,星期一o原始信源的熵为:原始信源的熵为:H(X)=1.5 bit/符号符号o条件熵:条
40、件熵:H(X2/X1)=1.4 bit/符符号号o可见:可见:H(X2/X1)H(X)o二维信源的联合熵:二维信源的联合熵:H(X1,X2)=H(X1)+H(X2/X1)=2.9 bit/消息消息o每个信源符号提供的每个信源符号提供的平均信息量为:平均信息量为:oH2(X1,X2)=H(X1,X2)/2=1.45 bit/符号。符号。第51页,共88页,编辑于2022年,星期一 我们现在有两种方法去近似信源的实际熵,一种是我们现在有两种方法去近似信源的实际熵,一种是 ,但这种方法不太准确,因为它把两个消息看成一组,认,但这种方法不太准确,因为它把两个消息看成一组,认为两组之间是统计独立的,实际
41、上它们之间是有关联的;为两组之间是统计独立的,实际上它们之间是有关联的;另一种是我们可以用另一种是我们可以用条件熵条件熵H(X2/X1)来近似,到底那一来近似,到底那一种正确呢?我们可以通过对一般离散平稳信源的分种正确呢?我们可以通过对一般离散平稳信源的分析来找到这个答案。析来找到这个答案。分析:分析:我们用我们用 来近似信源的实际熵来近似信源的实际熵第52页,共88页,编辑于2022年,星期一3 3、离散平稳信源的极限熵、离散平稳信源的极限熵平均符号熵平均符号熵条件熵条件熵有以下几点性质有以下几点性质(1)条件熵随)条件熵随N的增加是非递增的;的增加是非递增的;(2)N给定时,平均符号熵大于
42、等于条件熵;给定时,平均符号熵大于等于条件熵;(3)平均符号熵随)平均符号熵随N的增加是非递增的;的增加是非递增的;(4),称称 为极限熵。为极限熵。第53页,共88页,编辑于2022年,星期一 可以证明,对于二维离散平稳信源,条件熵可以证明,对于二维离散平稳信源,条件熵等于极限熵,因此等于极限熵,因此条件熵就是条件熵就是二维离散平稳信源二维离散平稳信源的的真实熵。真实熵。对于一般信源,求出极限熵是很困难的,然对于一般信源,求出极限熵是很困难的,然而,一般来说,取而,一般来说,取N N不大时就可以得到与极限熵非不大时就可以得到与极限熵非常接近的条件熵和平均符号熵,因此可以用条件熵常接近的条件熵
43、和平均符号熵,因此可以用条件熵和平均符号熵来近似极限熵。和平均符号熵来近似极限熵。第54页,共88页,编辑于2022年,星期一o极限熵的含义:极限熵的含义:代表了代表了一般离散平稳有记一般离散平稳有记忆信源平均每发一个符号提供的信息量忆信源平均每发一个符号提供的信息量。o多符号离散平稳信源实际上就是原始信源多符号离散平稳信源实际上就是原始信源在不断地发出符号,符号之间的统计关联在不断地发出符号,符号之间的统计关联关系也并不仅限于长度关系也并不仅限于长度N N之内,而是伸向之内,而是伸向无穷远。所以要研究实际信源,必须求出无穷远。所以要研究实际信源,必须求出极限熵极限熵H H,才能确切地表达多符
44、号离散平,才能确切地表达多符号离散平稳有记忆信源平均每发一个符号提供的信稳有记忆信源平均每发一个符号提供的信息量。息量。第55页,共88页,编辑于2022年,星期一o极限熵的计算:极限熵的计算:必须测定信源的无穷阶联必须测定信源的无穷阶联合概率和条件概率分布,这是相当困难合概率和条件概率分布,这是相当困难的。有时为了简化分析,往往用的。有时为了简化分析,往往用条件熵条件熵或平均符号熵作为极限熵的近似值。或平均符号熵作为极限熵的近似值。在有在有些情况下,即使些情况下,即使N N值并不大,这些熵值也很值并不大,这些熵值也很接近接近H H,例如马尔可夫信源。,例如马尔可夫信源。第56页,共88页,编
45、辑于2022年,星期一例题 第57页,共88页,编辑于2022年,星期一第六节第六节 马尔可夫信源马尔可夫信源 在很多信源的输出序列中,符号之间的依赖关系是有限的,任何时刻在很多信源的输出序列中,符号之间的依赖关系是有限的,任何时刻信源符号发生的概率只与前边已经发出的若干个符号有关,而与更前面的符信源符号发生的概率只与前边已经发出的若干个符号有关,而与更前面的符号无关。号无关。为了描述这类信源除了信源符号集外还要引入状态集。这时,信为了描述这类信源除了信源符号集外还要引入状态集。这时,信源输出消息符号还与信源所处的状态有关。源输出消息符号还与信源所处的状态有关。若一个信源满足下面两个条件,则称
46、为若一个信源满足下面两个条件,则称为马尔可夫信源马尔可夫信源:(1 1)某一时刻信源输出的符号的概率只与当前所处的状态有关,而与以)某一时刻信源输出的符号的概率只与当前所处的状态有关,而与以前的状态无关;前的状态无关;(2 2)信源的下一个状态由当前状态和下一刻的输出唯一确定。)信源的下一个状态由当前状态和下一刻的输出唯一确定。第58页,共88页,编辑于2022年,星期一(1)某一时刻信源输出的符号的概率只与当前所处的状态有关,某一时刻信源输出的符号的概率只与当前所处的状态有关,而与以前的状态无关。即而与以前的状态无关。即当符号输出概率与时刻当符号输出概率与时刻L无关,称为具有无关,称为具有时
47、齐性时齐性。即。即马尔可夫信源定义马尔可夫信源定义设信源所处状态为设信源所处状态为每一状态下可能输出的符号为每一状态下可能输出的符号为状态集状态集符号集符号集第59页,共88页,编辑于2022年,星期一(2)信源的下一个状态由当前状态和下一刻的输出唯一确定。条件(条件(2)表明,若信源处于某一状态)表明,若信源处于某一状态 ,当它发出,当它发出 一个符号后,所处的状态就变了,一定转移到另一状态。一个符号后,所处的状态就变了,一定转移到另一状态。状态的转移依赖于发出的信源符号,因此任何时刻信源处状态的转移依赖于发出的信源符号,因此任何时刻信源处在什么状态完全由前一时刻的状态和发出的符号决定。在什
48、么状态完全由前一时刻的状态和发出的符号决定。第60页,共88页,编辑于2022年,星期一若信源处于某一状态若信源处于某一状态ei,当它发出一个符号后,所处的状态就变了;,当它发出一个符号后,所处的状态就变了;任何时刻信源处在什么状态完全由任何时刻信源处在什么状态完全由前一时刻的状态前一时刻的状态和和发出的符号发出的符号决决定定;因为条件概率因为条件概率p(xk/ei)已给定,所以状态的转移满足一定的概率分布,已给定,所以状态的转移满足一定的概率分布,并可求出状态的一步转移概率并可求出状态的一步转移概率p(ej/ei)。o马尔可夫链的状态转移图:马尔可夫链的状态转移图:每个每个圆圈圆圈代表一种状
49、态,状态之间的代表一种状态,状态之间的有向线有向线代表某一状态向另一状态的转移。有向线一侧的代表某一状态向另一状态的转移。有向线一侧的符号和数字符号和数字分别代表发出的符号和条件概率分别代表发出的符号和条件概率。结论结论第61页,共88页,编辑于2022年,星期一例例1:二阶马尔可夫信源,原始符号集为:二阶马尔可夫信源,原始符号集为1,0,条件概率定为:条件概率定为:P(0|00)=P(1|11)=0.8 P(1|00)=P(0|11)=0.2 P(0|01)=P(0|10)=P(1|01)=P(1|10)=0.5 由此可见,信源共有由此可见,信源共有22=4种状态:种状态:E:e1=00,e
50、2=01,e3=10,e4=11状态之间有转移概率:状态之间有转移概率:p(e2/e1)=p(e3/e4)=0.2 p(e4/e2)=p(e1/e3)=p(e2/e3)=p(e3/e2)=0.5 p(e1/e1)=p(e4/e4)=0.8举例举例第62页,共88页,编辑于2022年,星期一其状态转移图如下。在状态转换图中,把信源的每其状态转移图如下。在状态转换图中,把信源的每一种状态用圆圈表示,用有向箭头表示信源发出某一种状态用圆圈表示,用有向箭头表示信源发出某一符号后由一种状态到另一状态的转移。一符号后由一种状态到另一状态的转移。01 100:0.51:0.20:0.2 000:0.8 11