《信息论的基本概念.ppt》由会员分享,可在线阅读,更多相关《信息论的基本概念.ppt(112页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、本章的主要问题本章的主要问题信息如何表示信息如何表示?如何度量如何度量?第二章:信息论的基本概念第二章:信息论的基本概念2.1 离散随机变量的熵离散随机变量的熵2.1.1 熵的引入熵的引入2.1.2 香农熵与热力学熵的关系香农熵与热力学熵的关系2.1.3 熵可以作为信息的度量熵可以作为信息的度量(熵的物理意义)(熵的物理意义)(熵的物理意义)(熵的物理意义)2.1.4 熵函数的性质熵函数的性质2.1.5 联合熵和条件熵联合熵和条件熵信息无处不在,但:信息无处不在,但:信息用什么表示信息用什么表示?如何表示如何表示?不确定性携载的信息不确定性携载的信息可用随机变量的不确定性或随机性作为信息的表示
2、可用随机变量的不确定性或随机性作为信息的表示“信息是事物运动状态或存在方信息是事物运动状态或存在方式的不确定性的描述式的不确定性的描述”香农香农问题问题1:信息是随机的信息是随机的2.1.1 熵的引入熵的引入-1 如何度量信息?如何计算消息的信息量?如何度量信息?如何计算消息的信息量?某些消息比另外一些消息传递了更多的信息。某些消息比另外一些消息传递了更多的信息。某些消息比另外一些消息传递了更多的信息。某些消息比另外一些消息传递了更多的信息。类似于火车运输货物多少用类似于火车运输货物多少用类似于火车运输货物多少用类似于火车运输货物多少用“货运量货运量货运量货运量”衡量衡量衡量衡量 消息信号传输
3、信息多少用消息信号传输信息多少用消息信号传输信息多少用消息信号传输信息多少用“信息量信息量信息量信息量”衡量衡量衡量衡量 概率论知识:概率论知识:概率论知识:概率论知识:事件出现的可能性愈小,概率愈小;事件出现的可能性愈小,概率愈小;事件出现的可能性愈小,概率愈小;事件出现的可能性愈小,概率愈小;该事件是否会出现的不确定性就愈大该事件是否会出现的不确定性就愈大该事件是否会出现的不确定性就愈大该事件是否会出现的不确定性就愈大事件出现的可能性愈大,概率愈大事件出现的可能性愈大,概率愈大事件出现的可能性愈大,概率愈大事件出现的可能性愈大,概率愈大 该事件是否会出现的不确定性就愈小该事件是否会出现的不
4、确定性就愈小该事件是否会出现的不确定性就愈小该事件是否会出现的不确定性就愈小 信息量与消息出现的概率有关。信息量与消息出现的概率有关。信息量与消息出现的概率有关。信息量与消息出现的概率有关。问题问题2:2.1.1 熵的引入熵的引入-2研究思路一:自信息概率空间的平均自信息熵自信息概率空间的平均自信息熵自信息概率空间的平均自信息熵自信息概率空间的平均自信息熵研究思路二:直接定义直接定义直接定义直接定义2.1.1 熵的引入熵的引入-3分析信息的特征,信息量(消息)关系式应反映如下规律:(1)信息量是概率的非负函数,即 I=fP(x)(2)P(x)越小,I越大;反之,I越小,且 P(x)1时,I0
5、P(x)0时,I(3)若干个互相独立事件构成的消息,所含信息量等于各独立事件信息量之和,也就是说,信息具有相加性,即 IP(x1)P(x2)=IP(x1)+IP(x2)+自信息:自信息:研究思路一研究思路一信息量的直观定义:信息量的直观定义:信息量的直观定义:信息量的直观定义:l l收到某消息获得的收到某消息获得的收到某消息获得的收到某消息获得的信息量信息量信息量信息量不确定性减少的量不确定性减少的量不确定性减少的量不确定性减少的量 (收到此消息收到此消息收到此消息收到此消息前前前前关于某事件发生的不确定性关于某事件发生的不确定性关于某事件发生的不确定性关于某事件发生的不确定性)(收到此消息收
6、到此消息收到此消息收到此消息后后后后关于某事件发生的不确定性关于某事件发生的不确定性关于某事件发生的不确定性关于某事件发生的不确定性)l l在无噪声时,通过信道的传输,可以完全不失真地收到所发的消息,在无噪声时,通过信道的传输,可以完全不失真地收到所发的消息,在无噪声时,通过信道的传输,可以完全不失真地收到所发的消息,在无噪声时,通过信道的传输,可以完全不失真地收到所发的消息,收到此消息后关于某事件发生的不确定性完全消除,此项为零。因收到此消息后关于某事件发生的不确定性完全消除,此项为零。因收到此消息后关于某事件发生的不确定性完全消除,此项为零。因收到此消息后关于某事件发生的不确定性完全消除,
7、此项为零。因此得此得此得此得 收到某消息获得的收到某消息获得的收到某消息获得的收到某消息获得的信息量信息量信息量信息量 收到此消息收到此消息收到此消息收到此消息前前前前关于某事件发生的不确定性关于某事件发生的不确定性关于某事件发生的不确定性关于某事件发生的不确定性 信源输出的此消息中所含有的信源输出的此消息中所含有的信源输出的此消息中所含有的信源输出的此消息中所含有的信息量信息量信息量信息量自信息:自信息:可以用可以用可以用可以用泛函分析泛函分析泛函分析泛函分析方法解得满足条件的函数形式为方法解得满足条件的函数形式为方法解得满足条件的函数形式为方法解得满足条件的函数形式为用概率测度定义信息量:
8、用概率测度定义信息量:设离散信源设离散信源设离散信源设离散信源X X,其概率空间为,其概率空间为,其概率空间为,其概率空间为如果知道事件如果知道事件如果知道事件如果知道事件x xi i已发生,则该事件所含有的已发生,则该事件所含有的已发生,则该事件所含有的已发生,则该事件所含有的自信息定义自信息定义自信息定义自信息定义为为为为自信息:自信息:自信息含义当事件当事件xi发生以前:发生以前:表示事件表示事件表示事件表示事件x xi i发生的不确定性发生的不确定性发生的不确定性发生的不确定性。当事件当事件xi发生以后:发生以后:表示事件表示事件表示事件表示事件x xi i所含有(或所提供)的信所含有
9、(或所提供)的信所含有(或所提供)的信所含有(或所提供)的信息量。息量。息量。息量。在无噪信道中,事件在无噪信道中,事件在无噪信道中,事件在无噪信道中,事件x xi i发生后,能正确无误地传输到发生后,能正确无误地传输到发生后,能正确无误地传输到发生后,能正确无误地传输到收信者,所以收信者,所以收信者,所以收信者,所以I I(x xi i)可代表接收到消息可代表接收到消息可代表接收到消息可代表接收到消息x xi i后所获得的信息量。后所获得的信息量。后所获得的信息量。后所获得的信息量。这是因为消除了这是因为消除了这是因为消除了这是因为消除了I I(x xi i)大小的不确定性,才获得这么大小的
10、信大小的不确定性,才获得这么大小的信大小的不确定性,才获得这么大小的信大小的不确定性,才获得这么大小的信息量。息量。息量。息量。自信息的测度单位及其换算关系l l如果取以如果取以如果取以如果取以2 2 2 2为底,则信息量单位称为为底,则信息量单位称为为底,则信息量单位称为为底,则信息量单位称为比特比特比特比特(binary unitbinary unit)l l如果取以如果取以如果取以如果取以e e为底,则信息量单位称为为底,则信息量单位称为为底,则信息量单位称为为底,则信息量单位称为奈特奈特奈特奈特(nature unitnature unit)l l如果取以如果取以如果取以如果取以101
11、01010为底,则信息量单位称为为底,则信息量单位称为为底,则信息量单位称为为底,则信息量单位称为哈特哈特哈特哈特(Hart unitHart unit)1 1 1 1奈特奈特奈特奈特1.441.441.441.44比特比特比特比特 1 1 1 1哈特哈特哈特哈特3.323.323.323.32比特比特比特比特一般都采用以一般都采用以“2”2”为底的对数,为了书写简洁,有时把底数为底的对数,为了书写简洁,有时把底数2 2略去不写。略去不写。信息论中“比特”与 计算机术语中“比特”区别l l如果如果如果如果p p(x xi i)=1/2=1/2,则,则,则,则I I(x xi i)=1=1比特。
12、所以比特。所以比特。所以比特。所以1 1比特信息量就是两个比特信息量就是两个比特信息量就是两个比特信息量就是两个互不相容的等可能事件之一发生时所提供的信息量。互不相容的等可能事件之一发生时所提供的信息量。互不相容的等可能事件之一发生时所提供的信息量。互不相容的等可能事件之一发生时所提供的信息量。l l信息论中信息论中信息论中信息论中“比特比特比特比特”是指抽象的信息量单位;是指抽象的信息量单位;是指抽象的信息量单位;是指抽象的信息量单位;l l计算机术语中计算机术语中计算机术语中计算机术语中“比特比特比特比特”是代表二元符号(数字);是代表二元符号(数字);是代表二元符号(数字);是代表二元符
13、号(数字);l l这两种定义之间的关系是:这两种定义之间的关系是:这两种定义之间的关系是:这两种定义之间的关系是:每个二元符号所能提供的每个二元符号所能提供的每个二元符号所能提供的每个二元符号所能提供的最大最大最大最大平均信息量平均信息量平均信息量平均信息量为为为为1 1比特。比特。比特。比特。信源熵平均信息量自信息是一个随机变量:自信息是一个随机变量:自信息是一个随机变量:自信息是一个随机变量:自信息是指某一信源发出某一消自信息是指某一信源发出某一消自信息是指某一信源发出某一消自信息是指某一信源发出某一消息所含有的信息量。所发出的消息不同,它们所含有的信息息所含有的信息量。所发出的消息不同,
14、它们所含有的信息息所含有的信息量。所发出的消息不同,它们所含有的信息息所含有的信息量。所发出的消息不同,它们所含有的信息量也就不同。量也就不同。量也就不同。量也就不同。平均信息量平均信息量平均信息量平均信息量信源熵:信源熵:信源熵:信源熵:自信息的数学期望。也称为信源的自信息的数学期望。也称为信源的自信息的数学期望。也称为信源的自信息的数学期望。也称为信源的信息熵信息熵信息熵信息熵/信源熵信源熵信源熵信源熵/香农熵香农熵香农熵香农熵/无条件熵无条件熵无条件熵无条件熵/熵函数熵函数熵函数熵函数/熵。熵。熵。熵。信息熵的单位:信息熵的单位:信息熵的单位:信息熵的单位:取决于对数选取的底。一般选用以
15、取决于对数选取的底。一般选用以取决于对数选取的底。一般选用以取决于对数选取的底。一般选用以2 2为底,为底,为底,为底,其单位为比特其单位为比特其单位为比特其单位为比特/符号。符号。符号。符号。信息熵的意义:信息熵的意义:信息熵的意义:信息熵的意义:信源的信息熵信源的信息熵信源的信息熵信源的信息熵HH是从是从是从是从整个整个整个整个信源的统计特性来信源的统计特性来信源的统计特性来信源的统计特性来考虑的。它是从考虑的。它是从考虑的。它是从考虑的。它是从平均平均平均平均意义上来表征信源的总体特性的。对于意义上来表征信源的总体特性的。对于意义上来表征信源的总体特性的。对于意义上来表征信源的总体特性的
16、。对于某特定的信源,其信息熵只有一个。不同的信源因统计特性某特定的信源,其信息熵只有一个。不同的信源因统计特性某特定的信源,其信息熵只有一个。不同的信源因统计特性某特定的信源,其信息熵只有一个。不同的信源因统计特性不同,其熵也不同。不同,其熵也不同。不同,其熵也不同。不同,其熵也不同。熵(熵(Entropy)的直接引入的直接引入 一个离散随机变量一个离散随机变量一个离散随机变量一个离散随机变量X X,以不同的取值概率有,以不同的取值概率有,以不同的取值概率有,以不同的取值概率有N N个可能取值个可能取值个可能取值个可能取值,XP(x)a1a2aNp1p2pN信息论关心信息论关心:X的的不确定性
17、不确定性不确定性大,获取的信息量多不确定性大,获取的信息量多研究思路二研究思路二熵的引入熵的引入不确定性分析:不确定性分析:随机变量随机变量X、Y、ZXP(X)a1 1 a2 2 0.01 0.99ZP(Z)a1 a2 a3 a4 a50.2 0.2 0.2 0.2 0.2YP(Y)a1 1 a2 2 0.5 0.5问题:问题:1、能否度量?、能否度量?小小大大2、如何度量?、如何度量?香农指出:香农指出:存在存在存在存在熵熵熵熵函数函数 满足满足满足满足先验条件先验条件1、连续性条件:、连续性条件:是是 的连续函数的连续函数2、等概时为单调增函数:、等概时为单调增函数:是是N的增函数的增函数
18、3、可加性条件:当随机变量的取值不是通过一次试验而是若干、可加性条件:当随机变量的取值不是通过一次试验而是若干次试验确定取值时,次试验确定取值时,X在各次试验中的不确定性可加。在各次试验中的不确定性可加。结论结论:唯一唯一的形式:C=常数0,即:可加性条件进一步说明:可加性条件进一步说明:当随机变量的取值不是通过一次试验而是若干次试验确定取值时,随机变量在各次试验中的不确定性可加,且其和始终与通过一次试验取得结果的不确定程度相同。熵的定义熵的定义X X为一随机变量为一随机变量样本空间样本空间X X x x1 1,x x2 2,.,.x xn n p pi i或或p p(x xi i)是输出为是
19、输出为x xi i的概率的概率定义定义定义定义为随机变量的为随机变量的熵函数熵函数熵函数熵函数含义:含义:(1)通过观测随机)通过观测随机 变量变量X所获得的所获得的 平均信息量平均信息量(2)对随机变量)对随机变量X的的 “不确定性不确定性”、“随机性随机性”的度量的度量熵的单位熵的单位 与前面介绍自信息的单位时相同,与前面介绍自信息的单位时相同,与前面介绍自信息的单位时相同,与前面介绍自信息的单位时相同,信息熵信息熵信息熵信息熵的单位也与公式中的单位也与公式中的单位也与公式中的单位也与公式中的对数取的对数取的对数取的对数取底底底底有关。有关。有关。有关。通信与信息中最常用的是以通信与信息中
20、最常用的是以通信与信息中最常用的是以通信与信息中最常用的是以2 2 2 2为底,这时单位为为底,这时单位为为底,这时单位为为底,这时单位为比特(比特(比特(比特(bitbitbitbit););););理论推导中用以理论推导中用以理论推导中用以理论推导中用以e e e e为底较方便,这时单位为为底较方便,这时单位为为底较方便,这时单位为为底较方便,这时单位为奈特奈特奈特奈特(NatNatNatNat););););工程上用以工程上用以工程上用以工程上用以10101010为底较方便,这时单位为为底较方便,这时单位为为底较方便,这时单位为为底较方便,这时单位为哈特利哈特利哈特利哈特利(Hartle
21、yHartleyHartleyHartley)。)。)。)。它们之间可以引用对数换底公式进行互换。比如:它们之间可以引用对数换底公式进行互换。比如:它们之间可以引用对数换底公式进行互换。比如:它们之间可以引用对数换底公式进行互换。比如:1 bit=0.693 Nat=0.301 Hartley1 bit=0.693 Nat=0.301 Hartley1 bit=0.693 Nat=0.301 Hartley1 bit=0.693 Nat=0.301 Hartley熵熵H(X)-通过观测随机变量通过观测随机变量通过观测随机变量通过观测随机变量X X所获得的所获得的所获得的所获得的平均平均平均平均
22、信息量信息量信息量信息量进一步理解:进一步理解:进一步理解:进一步理解:平均统计平均(平均统计平均(平均统计平均(平均统计平均(区别与算术平均区别与算术平均区别与算术平均区别与算术平均)单位抽象的信息单位,无量纲(单位抽象的信息单位,无量纲(单位抽象的信息单位,无量纲(单位抽象的信息单位,无量纲(量纲量纲量纲量纲 单位单位单位单位)比特不同于计算机中的比特不同于计算机中的比特不同于计算机中的比特不同于计算机中的“比特比特比特比特”计算机:代表一个二元数字计算机:代表一个二元数字计算机:代表一个二元数字计算机:代表一个二元数字(bibinary diginary digit t)信息:对数取信息
23、:对数取信息:对数取信息:对数取2 2为底时信息量的单位为底时信息量的单位为底时信息量的单位为底时信息量的单位 关系:每一个二元数字所能提供的最大平均信息量为关系:每一个二元数字所能提供的最大平均信息量为关系:每一个二元数字所能提供的最大平均信息量为关系:每一个二元数字所能提供的最大平均信息量为1 1比特比特比特比特认为:当认为:当认为:当认为:当x x0 0时时时时 xlog(1/x)=0 xlog(1/x)=0通信:信息速率通信:信息速率通信:信息速率通信:信息速率单位时间内信息的数量单位时间内信息的数量单位时间内信息的数量单位时间内信息的数量2.1.2 香农熵与热力学中热熵的关系香农熵与
24、热力学中热熵的关系熵熵这个名词是香农从物理学中的统计热力学借用过来的,这个名词是香农从物理学中的统计热力学借用过来的,这个名词是香农从物理学中的统计热力学借用过来的,这个名词是香农从物理学中的统计热力学借用过来的,在物理学中称它为在物理学中称它为在物理学中称它为在物理学中称它为热熵,热熵,热熵,热熵,是表示分子混乱程度的一个是表示分子混乱程度的一个是表示分子混乱程度的一个是表示分子混乱程度的一个物理量,这里,香农引用它来描述随机变量的平均不物理量,这里,香农引用它来描述随机变量的平均不物理量,这里,香农引用它来描述随机变量的平均不物理量,这里,香农引用它来描述随机变量的平均不确定性,含义是类似
25、的。但是在热力学中,任何孤立确定性,含义是类似的。但是在热力学中,任何孤立确定性,含义是类似的。但是在热力学中,任何孤立确定性,含义是类似的。但是在热力学中,任何孤立系统的演化,热熵只能增加不能减少;而在信息论中,系统的演化,热熵只能增加不能减少;而在信息论中,系统的演化,热熵只能增加不能减少;而在信息论中,系统的演化,热熵只能增加不能减少;而在信息论中,信息熵正相反,只会减少,不会增加。所以有人称信信息熵正相反,只会减少,不会增加。所以有人称信信息熵正相反,只会减少,不会增加。所以有人称信信息熵正相反,只会减少,不会增加。所以有人称信息熵为息熵为息熵为息熵为负热熵负热熵负热熵负热熵。二者还有
26、一个重大差别:热熵是有量纲的,而香农熵二者还有一个重大差别:热熵是有量纲的,而香农熵二者还有一个重大差别:热熵是有量纲的,而香农熵二者还有一个重大差别:热熵是有量纲的,而香农熵是无量纲的。是无量纲的。是无量纲的。是无量纲的。(不确定性)(不确定性)2.1.3 熵可以作为信息的量度熵可以作为信息的量度对于随机变量而言:对于随机变量而言:试验前试验前试验后试验后试验后试验后各取值的概率分布各取值的概率分布确切取值确切取值 (0)(不确定性)(不确定性)熵的差值熵的差值一定的确切性一定的确切性多次试验后多次试验后通过试验消除了不确定性获得了信息通过试验消除了不确定性获得了信息信息量获得的信息的数量信
27、息量获得的信息的数量例例2.1:2.1:试验前:试验前:试验后:试验后:XP(x)1234561/61/61/61/61/61/6H(x)=log6=2.58bits=1.79natsX1P(x1)123456010000H(x1)=0H(x)H(x1)=log6例例2.2:2.2:试验前:试验前:H(x)=log8=3(bit/符号)XP(x)123456781/81/81/81/81/81/81/81/812312345678第一次测量后:X1P(x1)123456781/41/41/41/40000H(x1)=log4=2(bit/符号)H(x)H(x1)=1获得获得1bit信息量信息量
28、H(x2)H(x3)=1获得获得1bit信息量信息量第二次测量后:X2P(x2)123456781/21/2000000H(x2)=log2=1(bit/符号)第三次测量后:X3P(x3)1234567810000000H(x3)=log1=0(bit/符号)H(x1)H(x2)=1获得获得1bit信息量信息量H(X)表示在获知哪个灯泡是坏的情况前,关于哪个灯泡已损坏的表示在获知哪个灯泡是坏的情况前,关于哪个灯泡已损坏的平均不确定性,即要确定哪个灯泡是坏的,至少需要获得平均不确定性,即要确定哪个灯泡是坏的,至少需要获得3个个bit的信息量,才能完全消除不确定性。的信息量,才能完全消除不确定性。
29、熵的物理含义熵的物理含义观察随机变量观察随机变量X、Y、ZXP(x)a1a20.010.99ZP(z)a1a2a3a4a50.20.20.20.20.2YP(y)a1a20.50.5=0.08(比特/符号)=1(比特/符号)H(Z)=5(-0.2log0.2)=2.32(比特/符号)熵的物理含义熵的物理含义熵是随机变量的熵是随机变量的熵是随机变量的熵是随机变量的随机性随机性随机性随机性的描述。的描述。的描述。的描述。变量变量变量变量Y Y、Z Z等概,随机性大,变量等概,随机性大,变量等概,随机性大,变量等概,随机性大,变量X X不等概,则随机性小不等概,则随机性小不等概,则随机性小不等概,则
30、随机性小 等概情况下,可取值越多,随机性越大等概情况下,可取值越多,随机性越大等概情况下,可取值越多,随机性越大等概情况下,可取值越多,随机性越大 H H()是描述随机变量所需的比特数()是描述随机变量所需的比特数()是描述随机变量所需的比特数()是描述随机变量所需的比特数熵是随机变量熵是随机变量熵是随机变量熵是随机变量平均平均平均平均不确定性不确定性不确定性不确定性的描述的描述的描述的描述 X X试验中发生试验中发生试验中发生试验中发生a a1 1,获得的获得的获得的获得的自信息自信息自信息自信息为为为为-log0.01=6.64(bit)-log0.01=6.64(bit)Y Y试验中发生
31、试验中发生试验中发生试验中发生a a1 1,获得的获得的获得的获得的自信息自信息自信息自信息为为为为-log0.5=2.32(bit)-log0.5=2.32(bit)H H()反映的是平均的不确定性()反映的是平均的不确定性()反映的是平均的不确定性()反映的是平均的不确定性例例例例2.3 2.3 设某班学生在一次考试中获优(设某班学生在一次考试中获优(设某班学生在一次考试中获优(设某班学生在一次考试中获优(A A)、良()、良()、良()、良(B B)、中)、中)、中)、中(C C)、及格()、及格()、及格()、及格(D D)和不及格()和不及格()和不及格()和不及格(E E)的人数相
32、等。当教师)的人数相等。当教师)的人数相等。当教师)的人数相等。当教师通知某甲:通知某甲:通知某甲:通知某甲:“你没有不及格你没有不及格你没有不及格你没有不及格”,甲获得了多少比特信息?,甲获得了多少比特信息?,甲获得了多少比特信息?,甲获得了多少比特信息?为确定自己的成绩,甲还需要多少信息?为确定自己的成绩,甲还需要多少信息?为确定自己的成绩,甲还需要多少信息?为确定自己的成绩,甲还需要多少信息?XP(x)ABCDE0.20.20.20.20.2XP(x)ABCDE0.250.250.250.250H(X)=5(-0.2log0.2)=2.32(比特)H(X)=4(-0.25log0.25)
33、=2(比特)甲获得的信息甲获得的信息=H(X)-H(X)=0.32(比特)(比特)还需要的信息还需要的信息2.32-0.32=2(比特)(比特)2.1.4 熵函数的性质熵函数的性质香农熵是概率矢量的非负的上凸函数香农熵是概率矢量的非负的上凸函数性质性质性质性质1 1:非负性:非负性:非负性:非负性性质性质性质性质2 2:上凸性:上凸性:上凸性:上凸性性质性质性质性质3 3:唯一性(连续性、可加性、等概单调增):唯一性(连续性、可加性、等概单调增):唯一性(连续性、可加性、等概单调增):唯一性(连续性、可加性、等概单调增)熵函数的性质非负性熵函数的性质非负性证明一:证明一:因为:因为:则:则:所
34、以:所以:熵函数的性质非负性熵函数的性质非负性证明二:证明二:有:有:或:所以:所以:熵函数的性质上凸性熵函数的性质上凸性凸性的概念凸性的概念:若对区域若对区域D中任意两点中任意两点 和和 ,均有:均有:则称:区域则称:区域D是凸域。是凸域。理解理解:若两点若两点 和和 在凸域在凸域D内,则内,则 和和 之间的线段也整个在区域之间的线段也整个在区域D内。内。在在a,b上定义的下凸函数上定义的下凸函数若在凸域内在在a,b上定义的上凸函数上定义的上凸函数若在凸域内Jenson不等式不等式这一结果被称为JensonJenson不等式。不等式。不等式。不等式。JensonJenson不等式可以根据凸函
35、数不等式可以根据凸函数不等式可以根据凸函数不等式可以根据凸函数和数学归纳法来证明和数学归纳法来证明和数学归纳法来证明和数学归纳法来证明熵函数的性质熵函数的性质上凸性上凸性 上凸性:上凸性:上凸性:上凸性:熵函数具有凸性,即熵函数具有凸性,即熵函数具有凸性,即熵函数具有凸性,即H H(P P)是)是)是)是P P的上凸函数。的上凸函数。的上凸函数。的上凸函数。证明证明证明证明:(:(:(:(1 1)证明概率矢量)证明概率矢量)证明概率矢量)证明概率矢量P=P=(p p1 1,p p2 2,p pN N)的集合组的集合组的集合组的集合组成的区域是一个凸域。成的区域是一个凸域。成的区域是一个凸域。成
36、的区域是一个凸域。(2 2)利用)利用)利用)利用作业作业熵函数的性质熵函数的性质定理定理2.1极值性极值性 对于离散随机变量,当其可能的取值等概分布对于离散随机变量,当其可能的取值等概分布时,其熵达到最大值。即:时,其熵达到最大值。即:其中:其中:N为为X可能取值得个数。可能取值得个数。例例2.4:二元熵函数是对:二元熵函数是对01分布的随机变量所求的熵:分布的随机变量所求的熵:XP(x)01p1-pH(X)=-plogp-(1-p)log(1-p)=H(p)有:而:可以证明,可以证明,p1/2时,时,H(p)取最大值,为取最大值,为log2=1。而而p=0或或1时,时,H(p)0,故二元熵
37、函数的曲线如图所示:,故二元熵函数的曲线如图所示:p1.01.00.50H(p)/bit二元熵函数曲线二元熵函数曲线等概时(等概时(p=0.5):随机变量具有最大的随机变量具有最大的不确定性不确定性,p=0,1时:时:随机变量的不确定性随机变量的不确定性消失消失。计算机术语计算机术语VS信息单位:信息单位:“比特比特”每一个二元数字所能提供的最大平均信息量为每一个二元数字所能提供的最大平均信息量为1比特比特 符号等概分布的二元数字序列中,每一个二元数字将平均提供符号等概分布的二元数字序列中,每一个二元数字将平均提供1比比特特的信息量的信息量;符号非等概分布时,每一个二元数字所提供的平均信息量;
38、符号非等概分布时,每一个二元数字所提供的平均信息量总是小于总是小于1比特比特例:例:2.52.5 P=0.5,0.25,0.25 P=0.5,0.25,0.25 Q=0.48,0.32,0.2 Q=0.48,0.32,0.2H(P)=H(Q)=1.5 bitsH(P)=H(Q)=1.5 bits不同的概率分布不同的概率分布不同的概率分布不同的概率分布熵熵可以相同可以相同可以相同可以相同For 3 symbols:For 3 symbols:H Hmaxmax(P(P)=log 3=1.585 bits)=log 3=1.585 bits 进进一步理解:一步理解:一步理解:一步理解:熵熵只与随机
39、只与随机只与随机只与随机变变量的量的量的量的总总体体体体结结构有关,它表征随机构有关,它表征随机构有关,它表征随机构有关,它表征随机变变量的量的量的量的总总体的平均体的平均体的平均体的平均不确定性。不确定性。不确定性。不确定性。局限性:局限性:局限性:局限性:不能描述不能描述不能描述不能描述时间时间本身的具体含本身的具体含本身的具体含本身的具体含义义和主和主和主和主观观价价价价值值 定理定理定理定理2.22.2 设离散随机变量的概密矩阵为设离散随机变量的概密矩阵为设离散随机变量的概密矩阵为设离散随机变量的概密矩阵为 函数函数函数函数 是随机变量不确定性的量度,若此函是随机变量不确定性的量度,若
40、此函是随机变量不确定性的量度,若此函是随机变量不确定性的量度,若此函数满足条件数满足条件数满足条件数满足条件 连续性连续性连续性连续性 等概时单调增函数性等概时单调增函数性等概时单调增函数性等概时单调增函数性 可加性可加性可加性可加性则此函数必为则此函数必为则此函数必为则此函数必为熵函数的性质唯一性熵函数的性质唯一性XP(x)a1a2aNp1p2pN证明:可参见朱雪龙证明:可参见朱雪龙应用信息论基础应用信息论基础P242.1.5 联合熵与条件熵条件熵联合熵与条件熵条件熵物理含义物理含义物理含义物理含义:已知一随机变量的情况下,对另一随机变量不确定性的已知一随机变量的情况下,对另一随机变量不确定
41、性的已知一随机变量的情况下,对另一随机变量不确定性的已知一随机变量的情况下,对另一随机变量不确定性的量度量度量度量度条件熵条件熵:理解:理解:观测观测Y以后,仍保留的关于以后,仍保留的关于X的不确定量。的不确定量。信道2.1.5 联合熵与条件熵联合熵联合熵与条件熵联合熵联合熵联合熵联合熵联合熵物理意义:物理意义:物理意义:物理意义:二元随机变量不确定性的量度二元随机变量不确定性的量度二元随机变量不确定性的量度二元随机变量不确定性的量度联合熵、条件熵的关系:联合熵、条件熵的关系:当X,Y相互独立时,有:于是有:理解理解:当随机变量相互独立时,其当随机变量相互独立时,其联合熵联合熵等于单个随机变量
42、的熵之和,等于单个随机变量的熵之和,而而条件熵条件熵等于无条件熵。等于无条件熵。联合熵、条件熵的关系:联合熵、条件熵的关系:一般情况下一般情况下理解:理解:表明一般情形下:条件熵总是小于无条件熵。表明一般情形下:条件熵总是小于无条件熵。注意:注意:这是平均意义上的这是平均意义上的“相对相对”熵:熵:设设p(x),q(x)p(x),q(x)是两个不同的是两个不同的离散概率分布函数,则:离散概率分布函数,则:为概率分布函数为概率分布函数p(x)p(x)关于关于q(x)q(x)的的“相对相对”熵。熵。作业:利用作业:利用作业:利用作业:利用JensonJenson不等式证明不等式证明不等式证明不等式
43、证明意义:如果意义:如果p(x)看作系统本身的概率分布看作系统本身的概率分布,q(x)看做看做人们对系统进行估计得到的经验概率分布,则相对人们对系统进行估计得到的经验概率分布,则相对熵反映了由于逼近误差引起的信息量的丢失。熵反映了由于逼近误差引起的信息量的丢失。2.2 离散随机离散随机变量的互信息量的互信息(Mutualinformation)互信息的定互信息的定义2.2.2 互信息函数的性互信息函数的性质2.2.3 熵 VS 互信息互信息 H(XY)=H(XY)=H(X)+H(Y|X)=H(Y)+H(X|Y)H(X)+H(Y|X)=H(Y)+H(X|Y)H(Y|X)H(Y|X)H(Y),if
44、 and only if X,Y H(Y),if and only if X,Y独立独立独立独立时时,等号成立,等号成立,等号成立,等号成立H(XY)H(XY)H(X)+H(Y)H(X)+H(Y),if and only if X,Yif and only if X,Y独立独立独立独立时时,等号成立,等号成立,等号成立,等号成立 H(X)H(X)与与与与 H(X|Y)H(X|Y)之之之之间间的的的的差差差差值值 H(H(X X)H(X|Y)H(X|Y)可以可以可以可以认为认为是是是是变变量量量量 Y Y 能能能能够够提供的关于提供的关于提供的关于提供的关于变变量量量量 X X的的的的平均平均平
45、均平均信息量信息量信息量信息量定定义为义为互信息互信息互信息互信息 即即即即 I(X;Y)=H(X)H(X|Y)I(X;Y)=H(X)H(X|Y)2.2.1 互信息的定互信息的定义-12.2.1 互信息的定互信息的定义-2I(X;Y)=I(Y;X)=I(X;Y)=I(Y;X)=H(Y)H(Y|X)=H(X)H(X|Y)H(Y)H(Y|X)=H(X)H(X|Y)H(X)+H(Y)=H(XY)+I(X;Y)H(X)+H(Y)=H(XY)+I(X;Y)I(X;Y)=H(X)+H(Y)H(XY)I(X;Y)=H(X)+H(Y)H(XY)图像配准2.2.1 互信息的定互信息的定义-3定义:离散随机变量定
46、义:离散随机变量X和和Y之间的互信息之间的互信息2.2.1 互信息的定互信息的定义-4 和和和和 是是是是随机变量随机变量随机变量随机变量X X和和和和Y Y之间相互提供的信息量之间相互提供的信息量之间相互提供的信息量之间相互提供的信息量 称为互信息是完全确切的称为互信息是完全确切的称为互信息是完全确切的称为互信息是完全确切的证明略。一般情况下:理解:理解:了解一事物总对另一事物的了解有所帮助了解一事物总对另一事物的了解有所帮助2.2.1 互信息的定互信息的定义-4当随机变量当随机变量X和和Y之间有确定的关系时之间有确定的关系时1、X可以唯一确定可以唯一确定Y,此时:此时:故:故:2、Y 可以
47、唯一确定可以唯一确定X,此时:此时:故:故:是对对X和和Y之间之间统计依存程度统计依存程度的信息量度的信息量度2.2.1 互信息的定义互信息的定义-5另一种定义:另一种定义:这里:这里:变换变换得到互信息的另一种表达式:得到互信息的另一种表达式:I(X;Y)是随机变量)是随机变量X的的概率矢量概率矢量p 和和条件概率矩阵条件概率矩阵Q的函数的函数问题引出:问题引出:在通信系统中,人们往往对接收到的数据进行信息处在通信系统中,人们往往对接收到的数据进行信息处理和分析,然而,很多处理模式因为缺少正确的抉择,理和分析,然而,很多处理模式因为缺少正确的抉择,而导致信息量的丢失或增加了对原始数据的干扰。
48、下而导致信息量的丢失或增加了对原始数据的干扰。下面我们从信息论的角度加以分析。面我们从信息论的角度加以分析。定义:定义:假设随机变量假设随机变量X,Y,Z的取值空间是由有限个离散点组成,的取值空间是由有限个离散点组成,定义两个随机变量定义两个随机变量X、Y与与Z的互信息为:的互信息为:链式法则与信息处理链式法则与信息处理即:即:引理:引理:链式法则与信息处理链式法则与信息处理请自己看证明同理可证:同理可证:链式法则与信息处理链式法则与信息处理讨论:讨论:上述不等式成立的条件为:对任意的当时,有:这表明:如果是一马尔科夫链,则等号成立。如果是一马尔科夫链;则也是一马尔科夫链。链式法则与信息处理链
49、式法则与信息处理链式法则与信息处理链式法则与信息处理设是一马尔科夫链;则定理:定理:证明:引理部分可得,因因是一马尔科夫链;又利用又利用是马尔科夫链;利用引理可得利用引理可得链式法则与信息处理链式法则与信息处理所以:上述定理表明:对一个信息处理系统,如果系统数据处理过程可用一马尔科夫链进行描述,那么每增加一次处理,系统信息量是递减的。从另一个角度讲,系统每增加一次处理,数据特征的不确定性是递减的,确定性是递增的。多个随机变量下的互信息多个随机变量下的互信息本部分内容学生自己推导,本部分内容学生自己推导,作业。作业。2.2.2 互信息函数的性质互信息函数的性质 互信息与互信息与互信息与互信息与p
50、 p(x x)的关系的关系的关系的关系性质性质性质性质1 1 :I(I(P P;QQ)是是是是P P(x x)的上凸函数的上凸函数的上凸函数的上凸函数.I(p;Q)pp信道理解:理解:可以看成信道输入的概率分布可以看成信道输入的概率分布2.2.2 互信息函数的性质互信息函数的性质 互信息与互信息与互信息与互信息与QQ矩阵的关系矩阵的关系矩阵的关系矩阵的关系 性质性质性质性质2 2 :I(p;Q)I(p;Q)是是是是QQ的下凹函数的下凹函数的下凹函数的下凹函数.理解:理解:Q 可以看成信道转移概率分布可以看成信道转移概率分布I(p;Q)QQ信道1信道2信道2.2.2 互信息函数的性质互信息函数的