huffman编码的matlab实现(共4页).doc-淘文阁

资源描述

《huffman编码的matlab实现(共4页).doc》由会员分享，可在线阅读，更多相关《huffman编码的matlab实现(共4页).doc（4页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、精选优质文档-倾情为你奉上 Huffman编码的matlab实现一、信源编码介绍为了减少信源输出符号序列中的、提高符号的平均信息量，对所施行的变换。具体说，就是针对信源输出符号序列的统计特性来寻找某种方法，把信源输出符号序列变换为最短的码字序列，使后者的各码元所载荷的平均信息量最大，同时又能保证无失真地恢复原来的符号序列。既然信源编码的基本目的是提高码字序列中码元的平均信息量，那么，一切旨在减少剩余度而对信源输出符号序列所施行的变换或处理，都可以在这种意义下归入信源编码的，例如过滤、预测、域变换和数据压缩等。当然，这些都是广义的信源编码。一般来说，减少信源输出符号序列中的剩余度、提高符号平均

2、信息量的基本途径有两个：使序列中的各个符号尽可能地互相独立；使序列中各个符号的出现概率尽可能地相等。前者称为解除相关性，后者称为概率均匀化。信源编码的一般问题可以表述如下：信源编码若某信源的输出为长度等于M的符号序列集合式中符号A为信源符号表，它包含着K个不同的符号，A=k|k=1,K，这个信源至多可以输出KM个不同的符号序列。记U=KM。所谓对这个信源的输出信源编码进行编码，就是用一个新的符号表B的符号序列集合V来表示信源输出的符号序列集合U。若V的各个序列的长度等于 N，即式中新的符号表B共含L个符号，B=bl|l=1,L。它总共可以编出LN个不同的码字。类似地,记V=LN。为了使信源

3、的每个输出符号序列都能分配到一个独特的码字与之对应，至少应满足关系 V=LNU=KM或者 N/MlogK/logL下面的几个编码定理，提供了解决这个矛盾的方法。它们既能改善信息载荷效率，又能保证码字唯一可译。离散无记忆信源的定长编码定理对于任意给定的0，只要满足条件 N/M(H(U)+)/logL那么，当M足够大时，上述编码几乎没有失真;反之,若这个条件不满足，就不可能实现无失真的编码。式中H(U)是信源输出序列的符号熵。信源编码通常，信源的符号熵H(U)logK，因此，上述条件还可以表示为【H(U)+】/logLN/MlogK/logL特别，若有K=L,那么,只要H(U)logK,就可能有

4、NM，从而提高信息载荷的效率。由上面这个条件可以看出，H(U)离logK越远,通过编码所能获得的效率改善就越显著。实质上，定长编码方法提高信息载荷能力的关键是利用了，通过选择足够大的M，把本来各个符号概率不等因而H(U)logK的信源输出符号序列变换为概率均匀的典型序列，而码字的唯一可译性则由码字的定长性来解决。离散无记忆信源的变长编码变长编码是指V的各个码字的长度不相等。只要V中各个码字的长度 Ni(i=1，V)满足不等式这 V个码字就能唯一地正确划分和译码。离散无记忆信源的变长编码定理指出：若离散无记忆信源的输出符号序列为，式中 A=k|k=1,K,符号熵为H(U)，对U进行唯一可译的

5、变长编码，编码字母表B的符号数为L,即B=bl|l=1,L,那么必定存在一种编码方法，使编出的码字Vi=(vi1,viNi)，(i=1,V)，具有平均长度嚻： MH(U)/logL嚻MH(U)/logL+1若L=K，则当H(U)logK=logL时,必有嚻M；H(U)离logK越远，则嚻越小于M。具体实现唯一可译变长编码的方法很多，但比较经典的方法还是仙农编码法、编码法和霍夫曼编码法。其他方法都是这些经典方法的变形和发展。所有这些经典编码方法，都是通过以短码来表示常出现的符号这个原则来实现概率的均匀化，从而得到高的信息载荷效率；同时，通过遵守克拉夫特不等式关系来实现码字的唯一可译。以上几个编码

6、定理，在有记忆信源或连续信源的情形也有相应的类似结果。在实际工程应用中，往往并不追求无差错的信源编码和译码，而是事先规定一个译码差错率的容许值，只要实际的译码不超过这个容许值即认为满意（见信息率-失真理论和）。二、 Huffman编码霍夫曼编码方法的具体过程是：首先把信源的各个输出符号序列按概率递降的顺序排列起来，求其中概率最小的两个序列的概率之和，并把这个概率之和看作是一个符号序列的概率，再与其他序列依概率递降顺序排列（参与求概率之和的这两个序列不再出现在新的排列之中），然后，对参与概率求和的两个符号序列分别赋予0和1。继续这样的操作,直到剩下一个以1为概率的符号序列。最后，按照与编码过程相

7、反的顺序读出各个符号序列所对应的二进制数字组，就可分别得到各该符号序列的码字。三、 Huffman编码的Matlab源程序1、 Huffman源程序p=input(please input a number:) %提示输入界面n=length(p);for i=1:n if p(i)0 fprintf(n The sum of the probabilities in huffman can more than 1!n); p=input(please input a number:) %如果输入的概率数组总和大于1，则重新输入概率数组end q=p;a=zeros(n-1,n); %生成一个

8、n-1行n列的数组for i=1:n-1 q,l=sort(q) %对概率数组q进行从小至大的排序，并且用l数组返回一个数组，该数组表示概率数组q排序前的顺序编号 a(i,:)=l(1:n-i+1),zeros(1,i-1) %由数组l构建一个矩阵，该矩阵表明概率合并时的顺序，用于后面的编码 q=q(1)+q(2),q(3:n),1; %将排序后的概率数组q的前两项，即概率最小的两个数加和，得到新的一组概率序列end for i=1:n-1 c(i,1:n*n)=blanks(n*n); %生成一个n-1行n列，并且每个元素的的长度为n的空白数组，c矩阵用于进行huffman编码，并且在编码中

9、与a矩阵有一定的对应关系end c(n-1,n)=0; %由于a矩阵的第n-1行的前两个元素为进行huffman编码加和运算时所得的最c(n-1,2*n)=1; 后两个概率，因此其值为0或1，在编码时设第n-1行的第一个空白字符为0，第二个空白字符1。for i=2:n-1 c(n-i,1:n-1)=c(n-i+1,n*(find(a(n-i+1,:)=1)-(n-2):n*(find(a(n-i+1,:)=1) %矩阵c的第n-i的第一个元素的n-1的字符赋值为对应于a矩阵中第n-i+1行中值为1的位置在c矩阵中的编码值 c(n-i,n)=0 %根据之前的规则，在分支的第一个元素最后补0 c

10、(n-i,n+1:2*n-1)=c(n-i,1:n-1) %矩阵c的第n-i的第二个元素的n-1的字符与第n-i行的第一个元素的前n-1个符号相同，因为其根节点相同 c(n-i,2*n)=1 %根据之前的规则，在分支的第一个元素最后补1 for j=1:i-1 c(n-i,(j+1)*n+1:(j+2)*n)=c(n-i+1,n*(find(a(n-i+1,:)=j+1)-1)+1:n*find(a(n-i+1,:)=j+1) %矩阵c中第n-i行第j+1列的值等于对应于a矩阵中第n-i+1行中值为j+1的前面一个元素的位置在c矩阵中的编码值 end end %完成huffman码字的分配fo

11、r i=1:n h(i,1:n)=c(1,n*(find(a(1,:)=i)-1)+1:find(a(1,:)=i)*n) %用h表示最后的huffman编码，矩阵h的第i行的元素对应于矩阵c的第一行的第i个元素 ll(i)=length(find(abs(h(i,:)=32) %计算每一个huffman编码的长度end l=sum(p.*ll); %计算平均码长fprintf(n huffman code:n);hhh=sum(p.*(-log2(p); %计算信源熵 fprintf(n the huffman effciency:n); t=hh/l %计算编码效率2、程序运行结果四、结论Huffman编码的特殊之处在于，它是根据每一个源出现的估算概率而建立起来的，就是说出现概率高的字符使用较短的编码，反之出现概率低的则使用较长的编码，这便使编码之后的字符串的平均期望长度降低，从而达到数据的目的。专心-专注-专业

展开阅读全文