《信息论与编码第四章.ppt》由会员分享,可在线阅读,更多相关《信息论与编码第四章.ppt(26页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 高传输率与抗干扰是一对矛盾,但可以从理论上证明,至少存在某种最佳的编码或信息处理方法,能解决这一矛盾。4.1 编码器变换(数学规则):将信源符号用由码元组成的序列(长度为li)来表示若通过一个二进制信道进行传输,为使信源适合信道的传输,将用0,1符号序列表示,码符号集为 ,序列与si的对应形式可有多种,得不同的码。第四章第四章 无失真信源编码无失真信源编码 码的基本分类:码的基本分类:固定长度码(等长码)变长码:各码字的码长不等 非奇异码:码中所有码字都不相同 奇异码:有同码 码的码的N N次扩展:次扩展:码2的二次扩展码为:同价码:每个码符号(元)所占的传输时间都相同4.2 等长码和等长信
2、源编码定理 实现无失真编码的条件:实现无失真编码的条件:1、信源符号与码字一一对应 2、任意一串有限长的码符号序列与信源s的符号序列也是一一对应,即N次扩展后仍满足一一对应关系。同时满足上述条件称为唯一可译码唯一可译码 有重码,非唯一可译码 等长非奇异码一定单义可译 等长编码条件等长编码条件:,满足此条件,才有可能无重码(非奇异);扩展后:平均每个信源符号所需要的码符号(元)个数 考虑到符号出现的概率以及符号之间的依赖性。再去除一些无效字符组合,扩展信源中的符号总数 所需编码的码字个数可大大下降。设离散无记忆信源:由切贝雪夫不等式:方差为定值 表明 依概率收敛于 上界 下界 我们可以只对集G中
3、MG个信源序列进行一一对应的等长编码,这就要求码字总数不小于MG就行,即 满足式的条件下,时,译码错误概率 但当 由MG的下界式可知,这种情况下选取的码字总数小于集G中可能有的信源序列数,将有相应码字对应的信源序列的概率和记作 ,它必然满足:造成有些序列没有码字对应,译码时必出错,其中正确的译码概率:等长信源编码定理等长信源编码定理 一个熵为H(S)的离散无记忆信源,若对信源长为N的符号序列进行等长编码,设码字是从r个字母的码符号集中选取 l 个字母组成,对于任意 ,只要满足 ,当 时,几乎可实现无失真编码,即译码错误概率能为任意小。反之,若 ,则不可能实现无失真编码,时,。可改写:只要码字载
4、荷的信息量大于信源序列携带的信息量,总可实现几乎无失真编码,而且传输效率接近于1 例:0 1 扩展N2 00 01 10 11 0.9 0.1 0.81 0.09 0.09 0.01如取00,01,10编码,概率和为:0.99扩展N3 000 001 010 100 101 110 111 0.729 0.081 0.081 0.081 0.009 0.009 0.001取两位0的编码,概率为0.972;取前7个编码,概率为:0.999扩展N4 0000 0001 0010 0011 0100 0101 0110 0111 0.6561 0.0729 0.0729 0.0081 0.0729
5、0.0081 0.0081 0.0009 1000 1001 1010 1011 1100 1101 1110 111110010.0729 0.0081 0.0081 0.0009 0.0081 0.0009 0.0009 0.00011002取3个0的编码(05个),概率为0.9477;1003取2个0的编码(11个),概率为0.9963;1004取1个0的编码(15个),概率为0.99994.3 变 长 码 变长码可以在N不很大时就可编出效率很高而且无失真的码;变长码也必须是唯一可译码才能实现无失真编码。例:码1 码2 设:是码C中的任一码字,而其它码字 都不是码字Wi的前缀,则此码为即
6、时码,亦称非延长码。即时码是唯一可译码的一类子码即时码是唯一可译码的一类子码。树图法构造即时码:根、枝、节点 码树图也可以用来译码单义(唯一)可译定理单义(唯一)可译定理:设信源符号集为:,码符号集为:,又设码字为 ,其分别对应的码长为;,则存在唯一可译码的充分必要条件是:码长 li,码符号集中符号个数r,信源符号个数q,称作kraft不等式。说明说明:唯一可译码一定满足不等式,反之,满足不等式的码不一定是唯一可译码。充分性证明:充分性证明:假定满足不等式的码长为 ,在q个码字中可能有长度相同的码字。设码长为1的有n1个,长度为2的有n2个,长度为j的有nj个,最大长度为l 的有nl个,此处n
7、为节点的阶数,(即n次扩展),此节点中的码字长度为ni;ni为长度为i的码字个数。有:一共q个码字,全为1时,满足不等式:考虑有码长相等的情况,合并同类项后得:两边同乘以 :移项后为:由于都为正整数,将左边去掉一项(等号去掉),有:同理得:由 与最大长度l 之间的关系,上述不等式系列给我们带来了结构上的构码条件。显然可证明:如满足kraft不等式,则一定能构成至少一种结构为 的即时码,如最长码数 取不等式中的等号,则为用尽即时码,如取不等号,则为非用尽的即时码,即时码是唯一可译码的一类子码,所以定理的充分性也就得到了证明。必要性证明:已知唯一可译码的码长为 ,设n是一个任意的正整数,考虑等式:
8、右边共有 项,代表了n个码字组成的码字序列的总数。每项均对应于n个码字组成的一个码字序列,如下图,图中1、2、n表明码字的序号,分别为对应的码长。令:j的值是个码字组成的码字序列的总长,也就是n个信源符号组成的序列所对应的码符号序列的总长度。因为讨论的是变长码,所以设 的取值范围为:则j的取值范围为式为各 项之和,都可取 而 又都可取值为 ,所以相同数值j的出现不止一次,也就是在 个码字序列中码符号总长相等的码字序列不止一个,令为 个,换句话说,就是把总长度为j的序列的数目记为 ,例如由唯一可译码 三个码字所组合成的长度 的序列共有7种:1 01 001,1 001 01,01 1 001,0
9、1 001 1,001 1 01,001 01 1,01 01 01a1 a2 a3,a1 a3 a2,a2 a1 a3,a2 a3 a1,a3 a1 a2,a3 a2 a1,a2 a2 a2 因此:式(19)可以合并:将 代入上式:对于所有正整数n,上式都要成立,当 时 所以必须有:证毕4.4 变长信源编码定理平均码长:平均码长:一个信源符号所需的平均码符号数为:可见:越短,越大,信息传输效率就越高,因此,我们总希望编出来的码平均码长 最短,可作为衡量唯一可译码的有效性高低的一个标准。定理定理4.34.3,若一个离散无记忆信源具有熵为 ,并有r个码符号的符号集,则总可找到一种无失真编码方法,
10、构成唯一可译码,使其平均码长满足:下界证明:由证明过程知,上述等式成立的充要条件是:可见,只有当选择每个码长:时,才能达到这个下界值,式中 必须为正整数,每个 必须呈现 的形式(是正整数)。上界证明:只需证明 在上界与下界中间可以找到一种唯一可译码就行。在如下区间取之整数 证毕 信源给定,H(S)确定,那么,该信源的唯一可译码的平均码长 的下界值也就随之确定,信源编码的有效性的限度也就确定了,在不改变编码的对象,即信源本身的统计特性的情况下,单靠改变编码方法来继续提高有效性是无潜力可挖了。定理定理4.44.4 离散无记忆信源S的N次扩展信源 ,熵为 ,并有码符号集 。对信源 进行编码,总可以找
11、到一种编码方法,构成唯一可译码,使信源中每个信源S中每隔信源符号所需的码字平均长度满足:或者 且 式中:令N1就是定理4.3 证明:证明:用SN替代定理4.3中的S,得:,其中 是以r进制为单位的扩展信源SN的熵。代入上式结论可推广到平稳遍历的有记忆信源(如马尔可夫信源)以上分析表明,要进一步提高编码的有效性,必须考虑到信源符号间的依赖性,以减少信源每发一个符号所携带的平均信息量,缩短平均码长的长度。考虑的依赖性越仔细,即记忆长度越长,平均码长就可能越短,编码就越有效。如前所述,我们还可以用扩展信源的手段,达到数据压缩的目的,扩展的程度越高,压缩的效果越好。但增加了编码的复杂性(代价)。变长无
12、失真信源编码定理(香农第一定理)也可这样来描述:设信源S的熵为H(S),无噪离散信道容量为C,于是,信源的输出可以进行这样的编码,使得在信道上传输的平均速率为每秒 个信源符号,其中 可以是任意小的正数,要使传输的平均速率大于 是不可能的。编码效率:码的剩余度:4.5 变长码的编码方法香农编码香农编码:,可使不超过上界,但不一定保证是紧效码 哈夫曼编码哈夫曼编码:1、将信源消息(符号)按概率大小顺序排队。2、从最小概率的两个消息开始编码,并给予一定的编码规则,如小概率的下支络编为1(或0),大概率的上支络编为0(或1),两相等,也按上、下支络给值。3、将已编码的两个消息对应概率合并,并重新按概率
13、大小排队,重复24、重复3,直至剩两个符号为止。5、编成的变长码按后出先编的方法,从树根沿编码路线逆行至对应的消息(从最后级向前返回),得出各信源符号所对应的码符号序列。Huffman码一定是紧效码 证明证明:由H氏编码方法最后一步得到的缩减信源Sa必定只有r个符号.这r个符号的概率和必为1,且这r个符号分别只授于一个码符号(1,2,3r),所以缩减信源Sa对应的单义可译码Ca的平均码长 一定等于1,平均码长等于1的单义可译码当然是最佳码。设某一缩减信源Sj,已找到一个最佳码Cj,其平均码长为 ,由编码方法,对于Sj中某一元素Sa(由前一个缩减信源中 概率最小的r个符号 合并而来的,且 ,对于
14、 信源的码 ,其平均码长为 。由于在 中除了 这r个符号相应的r个码字比缩减信源Sj中的符号Sa相应的码字多一个r进制码符号外,其余码字长度都是相同的。所以 满足以下关系:用反证法来证明:假设找到另一个码 的最佳码,即其平均码长 ,设 的码字为 ,各码字的长度分别为 ,再假设这些码字的排列次序是按照码字概率递减的次序,得 (可以通过改变码字的标号来达到这一要求)。而在这些码中 除了最后一个码符号不同外,其它码符号全部相同,也就是说有本层的码字长度相等 如我们在 中。,与上式相比由假设,应有:也就是说Cj不是最佳码,非最佳信符,这与假设矛盾.说明不存在 ,反过来说,霍夫曼码是最佳码,因为 至最前
15、一级都是最佳码,所以:H氏编码方法是最佳编码方法。对信源的N次扩展信源同样可以采取霍夫曼编码,因为霍夫曼码是最佳码,所以编码后单个信源符号所编得的平均码长随N的增加很快接近于极限值信源的熵。r r进制霍夫曼码:进制霍夫曼码:二进制H氏码常用于数字通信,计算机每次将两个最小概率的信源合并。如码符号集为个(进制),则每次为个符号合并成一个新的信源,为了充分利用短码,最后应该也必须将码符全用上,这样才能使平均码长最短,这就需要信源S的符号数q必须满足 ,表示缩减的次数,(r-1)为每次缩减所减少的信源个数,二进制时 ,为整数,上式有时与实际不吻合,不满足上述条件时,可以补充信源个数使其满足,但令其概率为0,当然,补充信源的个数应 。费诺(Fano)码:与Hoffman码稍有区别,不是最佳的编码方法,但有时也可得到紧效码的性能。将信源符号以概率递减的次序排列起来;将排列好的信源符号划分成两大组,使每组的概率和近于相同,并各赋予一个二进制码无“0”或“1”;再得各组分为2组,概率和相近,赋值,直至每小组只剩一个信符号为止。Fano码的编码方法实际上是构造码树的一种方法,所以是即时码,且考虑信源的统计特性,概率大的信源符号对应短码字,如全部分组都相等,则为紧效码,否则不是。