《基于回身隐藏的音频数字水印技术研究硕士学位论文(63页).doc》由会员分享,可在线阅读,更多相关《基于回身隐藏的音频数字水印技术研究硕士学位论文(63页).doc(62页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、-基于回身隐藏的音频数字水印技术研究硕士学位论文-第 55 页学科门类: 分类号: 单位代码: 密 级: 硕 士 学 位 论 文 论文题目:基于回身隐藏的音频数字水印技术的研究与实现 学生姓名学号指 导 教 师学 科 专 业研 究 方 向论文提交日期 张磊 Y080632 张玲华 信号与信息处理 语音处理与现代语音通信 南京邮电大学学位论文原创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材料。与我一同工作
2、的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。研究生签名:_ 日期:_南京邮电大学学位论文使用授权声明南京邮电大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其它复制手段保存论文。本文电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布(包括刊登)论文的全部或部分内容。论文的公布(包括刊登)授权南京邮电大学研究生部办理。研究生签名:_ 导师签名:_ 日期:_南 京 邮 电 大 学硕士学位论文摘要学科、专业: 信号与信息工程研 究 方 向:语音处理与现代语音通信作 者: 张磊
3、指 导 教 师: 张玲华题 目:基于回声隐藏方法的音频数字水印中新回声核的探索和研究英 文 题 目:Researches on new echo kernels of audio digital watermarking technology based on Echo Hiding主 题 词:Keywords:摘要音频数字水印技术是一种信息隐藏技术,它是一种在不对载体信号(图像、视频、音频等)产生过分影响的条件下将额外的信息嵌入到数字媒体中以实现版权保护、隐蔽通信等功能的技术。回声隐藏是基于音频的信息隐藏的一个重要分支。本文首先对音频数字水印技术的概念、基本架构、特性、分类、应用、评价标准以
4、及发展状况进行了归纳和总结。接着介绍了回声隐藏的概念、基本原理及特性,分析了回声隐藏的研究现状、发展趋势和将来的研究重点。在第四章中,本文在研究Kim提出的前后向回声核技术的基础上,结合双边时域扩展思想,提出了一种利用PN序列改进回声内核的回声隐藏算法。该算法有别于传统的时间域嵌入-倒谱域提取,水印的嵌入和提取均在时间域完成,能够在回声幅度很小的情况下保持高检测率;使用PN序列对回声内核的改进提高了水印的安全性和不可见性。在第五章中,针对原始音频对隐藏音频倒谱值的影响,本文研究了镜像核回声隐藏方法。通过对隐藏音频倒谱组成的理论推导可以看出,在镜像核回声隐藏方法中隐藏音频倒谱值受音频分段的前后两
5、部分倒谱成分影响,而在传统回声隐藏算法中隐藏音频倒谱值受原始音频主体直接影响。镜像核与传统的回声核隐藏算法相比,降低了对音频载体的要求,减小了各种恶性攻击对信息隐藏的影响;提高了隐藏信息的恢复率和算法的鲁棒性;在加噪、重采样、重量化、滤波、MP3有损压缩以及剪切等攻击方面具有更好的鲁棒性。最后,就全文的工作加以总结,讨论了在音频信息中进行信息隐藏的若干难题及对进一步研究的展望。关键词:音频数字水印技术;回声隐藏;PN序列;镜像核AbstractAudio digital watermarking technology is a kind of information hiding techno
6、logy, Information hiding is a technology which embeds the important data into the digital audio, picture or video to hide the existence for copyright identification or undercover communication. Echo hiding is an important branch of the information hiding based on audio signals.At first, this paper i
7、ntroduces the concept, the basic structure, characteristics, classification, application, evaluation criteria and the development status of digital audio watermarking technology. Then, the paper introduces the concept, principle and characteristic of echo hiding, and analyzes its current situation,
8、developmental trend and the key research points.In the fourth chapter, on the basis of Kims backward and forward kernels, this paper propose an echo hiding algorithm which improve the echo kernel by the PN sequence combining the Bilateral time-domain extension ideas. The algorithm is different from
9、the traditional time-domain embedding and the cepstral domain extraction, whose watermark embedding and extraction are completed both in the time domain. Besides, the algorithm can maintain a high detection rate in the case of very small echo amplitude and improve the watermark security and invisibi
10、lity.Usually, the original audio affect the value of cepstrum of the embedded audio to a certain extent, this paper study the mirrored kernel echo hiding method. The cepstrum value for determining the embedded datum is affected by the difference of the cepstrum components in the front and rear parts
11、 of a host audio segment in the proposed scheme whereas that value is directly affected by the cepstrum component from host audio signals in the conventional schemes. Comparing to the conventional method, the proposed method not only decrease the effect of the audio carrier, but also is more robust
12、to many attack operations, such as noise addition, re-sample, re-quantization, filter, MP3 encoding/decoding, pitch scaling and so on.Finally, this paper makes a summarization and points out some prospects of the next step of the research work.Key Words: Audio Digital Watermarking Technology; Echo H
13、iding; PN sequence; Mirror Kernel目录摘要IAbstractII目录III第一章 绪论11. 1选题的意义和研究背景11. 2音频数字水印技术概述21.2.1音频数字水印技术的概念21.2.2音频数字水印技术的评价标准61.2.3音频数字水印技术的发展状况81.3本论文的主要研究内容及章节安排9第二章 基础理论知识112.1 人耳的听觉特性112.1.1 临界频带112.1.2掩蔽效应112.2倒谱分析122.2.1倒谱的概念132.2.2倒谱自相关142.2.3 短时傅里叶变换15第三章 回声隐藏技术综述173.1回声隐藏的基本原理173.2回声隐藏的嵌入方法
14、概述193.3回声隐藏的提取算法概述223.4回声隐藏技术的研究方向233.5传统回声隐藏算法的实现233.5.1信息的嵌入243.5.2信息的提取243.5.3实验结果及分析243.6本章小结26第四章 基于前后向回声核的扩展内核回声隐藏算法274.1 Kim的前后向回声算法274.1.1理论分析274.1.2实验结果及分析284.2 PN序列的产生304.3基于PN序列改进的回声隐藏算法304.3.1算法的描述314.3.2算法的流程324.4实验结果及分析344.5本章小结39第五章 基于镜像核的新型回声隐藏算法395.1镜像核理论分析395.2功率倒谱检测法425.3实验结果及分析42
15、5.3.1信息容纳能力测试435.3.2鲁棒性测试435.4本章小结47第六章 结论与展望486.1工作总结486.2研究展望49致谢50参考文献51攻读硕士学位期间发表的论文55第一章 绪论1. 1选题的意义和研究背景因特网与多媒体技术迅猛发展和日益普及的进程在无形之中极具的缩短了人与人彼此间的距离,在信息化、数字化、网络化的今天,人们依靠网络和多媒体的信息互通与交流飞升到一个新的高度,以图像、音频、视频为主流的各种各样的多媒体作品通过网络的渠道发布出来,任何一个人,只要拥有一台可以接入网络的个人计算机,就可以和全世界的人们一起分享自己创作或转载的多媒体作品。相对传统的图书馆和博物馆的区域化
16、模式,今天的网络,给了人们更加方便、先进、和广阔的获取知识、文化交流的空间,在全世界的范围内,传统的工艺、美术以及传承和传播各个不同地域文化的作品,就可以通过数字化,多媒体化呈现在世界每个角落的计算机屏幕上。而相对于网络普及的优点,它的副作用也非常的显而易见:任何一个人,只要拥有一台可以接入网络的计算机,都可以非常方便的获得他人原创的网络多媒体作品,在未经原作者许可的情况下随意复制,删改,再发布,这给原创的数字化作品带来了侵害,也同时侵害了原作品作者的权益。所以,在因特网普及的今天,版权保护的工作已经不仅仅限于图书,音像作品,如何让网络环境下的多媒体数字作品的版权得到保护也应该得到应有的重视。
17、数字水印技术是一门新兴的多学科交叉的应用技术,它为最终解决数字产品版权保护问题提供了指引,并且在数字产品版权保护中发挥着越来越大的作用。目前,数字水印技术所涉及的领域很广泛,包括数字视频,音频,图像等多个方面。近年来,音频作品在互联网上如雨后春笋般涌现,给音频数字水印技术带来了广阔的应用前景。音频数字水印技术可以实现音频作品的版权保护和认证,对盗版的音频作品进行跟踪,还可以用于拷贝保护,在广播领域中,音频水印技术可以发挥更智能的作用,比如广播站或节目类型的标识、广告效果的统计分析、广播覆盖范围的分析研究等;而在国防和军事领域中可以用于隐蔽通信,以实现秘密信息的传递1,2。所以,对音频数字水印处
18、理算法的研究,不仅具有现实的学术意义,而且具有长远的经济效益和社会效益。1. 2音频数字水印技术概述1.2.1音频数字水印技术的基本概念音频数字水印技术是一种新兴的信息隐藏技术,它的基本思想是在不影响原始音频作品质量的前提下,利用一定的嵌入算法向其中嵌入用于版权保护或内容完整性检验的一些标志性信息,以达到保护产品的版权、证明产品的真实性、跟踪盗版行为或者提供产品的标识信息等目的。 一般来说,人们所能接受的数字音频产品必须是满足人们听觉要求的,所以在不破坏其使用价值和大部分听觉特性的前提条件下,嵌入数字水印而不被人耳察觉是有可行性的。因为任何数字信号都有其固定的误差,也就是所谓的噪声。音频数字水
19、印的嵌入可以看作是将水印信息作为附加噪声与原始音频信号融合的过程,只要附加的噪声强度能够远远小于人的感觉器官能察觉到的最小强度,水印信息就可以不被人耳感知。但由于人类听觉系统(Human Auditory System, HAS)感觉声音变化的灵敏度要高于人类视觉系统(Human Visual System, HVS)感觉图像变化的灵敏度,所以在音频信号中嵌入数字水印的难度相对较大。1、音频数字水印技术的框架典型的音频数字水印系统应涵盖水印的生成、嵌入和提取或检测三部分。(1)水印的生成水印的生成要建立在水印的唯一性,不可逆性等属性的基础上。一般由伪随机数字发生器来产生水印序列,而且还要利用密
20、钥进行加密。(2)水印的嵌入水印信息的嵌入是音频数字水印系统的核心部分,通常需要考虑水印的两个互相矛盾的要求,即透明性和鲁棒性,需要根据具体的实际应用在两者之间做出一个折衷的选择。在实现版权保护的水印系统中,具有优秀的鲁棒性是算法应该必须具备的。而在完整性验证等其他应用领域,对鲁棒性的要求则不是很高。音频数字水印嵌入模型如图1.1所示。图1. 1典型音频数字水印系统的嵌入模型(3)水印的提取或检测 如果嵌入的是有意义的水印信息(如图像等),就需要在隐秘音频信号中提取水印信息。如果嵌入的是1比特水印信息(如m序列等),则需要检测音频中是否含有水印信息。音频数字水印提取或检测模型如图1.2所示。图
21、1. 2音频数字水印系统的提取或检测模型2、对音频数字水印的要求理论上,一个成功的数字音频水印算法应该具备以下几方面的要求(1)鲁棒性鲁棒性亦称健壮性,是指含有水印信息的隐秘信号在经过各种信号处理操作之后,产生了一定失真情况下,仍能保持水印的完整和可检测性。鲁棒性包含两层含义:一是抗攻击性:数字水印应具有一定的安全性,能抵抗各种蓄意地攻击,典型的攻击有添加噪声,数据压缩,滤波,重采样,数模转化,统计攻击等。二是抗干扰性:数字音频水印应具有抵抗一般的数字信号处理的能力,并继续保持较好的可检测性和完整性。(2)听觉透明性透明性即不可感知性,要求嵌入的水印信息尽量和原始音频数据紧密融合在一起。嵌入水
22、印后,为使第三方不易察觉这种嵌入信息,需谨慎选择嵌入方法,使嵌入前后不产生听觉上可感知的变化,另外,嵌入的水印应较少或不会影响到音频产品的效果。(3)水印容量 即是保证听觉透明性和鲁棒性的前提下能够嵌入一段音频信号中的最大信息量,它对于信息隐藏范围的应用应该是最重要的指标之一。(4)安全性依赖因素 安全性表现为水印在抵抗恶意攻击方面的能力。音频数字水印系统的安全性与密码系统的安全性非常类似。水印嵌入的算法应该公开,安全性最好依赖于密钥而不是算法的秘密性,并且只有拥有密钥才能提取到正确的水印。(5)漏警概率-虚警概率 在音频水印技术的实际应用中,通常需要通过计算提取水印和原始水印的相关性来判断是
23、否存在水印。水印存在的情况下,却检测不到水印存在的概率称为漏警概率;反之,水印根本不存在,却检测到水印存在的概率称为虚警概率。(6)可靠性对于音频产品的合法所有者来说,可靠性是指水印信息应当易于从音频产品中提取或检测。在拷贝控制应用中,对可靠性要求很高。例如,一般要求DVD视频水印检测器应该在1012帧中有一次虚警,或在1000年连续操作中大约有1次虚警发生。(7)数据提取误码率数据提取误码率也是音频水印方案中的一个非常重要的技术指标。因为一方面有来自物理空间的干扰,另一方面信道中传输的信号会发生衰减或畸变,再加上人为的数据变换和攻击,都会使数据提取的误码率增加。(8)是否为盲水印是否需要原始
24、数据进行信息提取,原则上水印的检测不应该需要原始音频,即实现盲检测,因为寻找原始音频是非常困难的。(9)确定性又叫做无歧义性,很多文献将这一特性成为死锁(deadlock)。就是说水印在判定所有权的问题上能够作为唯一判定的证据。(10)通用性 好的数字水印算法应该有个很广的使用范围,兼容多种文件格式和多媒体文件,这在某种程度上使数字水印容易应用到更多的地方。在以上的十个特性中,最突出的问题是鲁棒性,透明性和水印容量三者之间的平衡关系,但这三者之间又是存在矛盾的,其中,透明性和鲁棒性是音频水印的最基本要求,这两个特性是一个矛盾的两个方面, 鲁棒性与嵌入的强度直接相关,即水印嵌入的强度越大,则鲁棒
25、性越好;但当嵌入的强度超过一定范围(HAS所限定的范围),又会影响到水印的透明性。因此,在研究水印嵌入算法的过程中,应该折衷考虑这两个矛盾因素。 3、音频数字水印技术的分类音频数字水印技术按照不同的标准可以分成很多种类别,分类的出发点不同导致类别的各不相同,它们之间既是相互联系的,又是相互区别的,具体地说,可进行如下所述的分类:(1)按照水印的特性划分可以分为脆弱水印和鲁棒水印 脆弱水印是指对常见的信号处理操作比较敏感的一类水印,只要嵌入水印的原始信号稍加处理或修改,其中的水印就会变化或消失。脆弱水印主要作用是产品的完整性保护,它随对象的修改而破坏,哪怕细小的改动也会影响到水印的检测效果和提取
26、正确率,从而通过提取水印的完整性来证实产品的完整性、真实性。鲁棒水印是一类抗攻击性能非常强的水印。鲁棒水印的应用极其广泛,主要应用于保护数字产品的所有权。(2)按照水印的透明度可以分为可见水印和不可见水印可见水印一般为较淡或半透明的不碍观看的图案,就像是人名币上的水印,也可以理解为一般意义上的图像融合。不可见水印的应用范围更加广泛,它隐藏在音频作品中,不被察觉,但当涉及到版权纠纷的情况出现时,版权所有者就可以提取作品中的水印来捍卫自己的合法权益。 (3)按照嵌入信息的容量可以分为1比特水印和多比特水印1比特水印是指只有“有水印”和“无水印”两种情况,而水印本身不带有任何信息,这种水印只含有1比
27、特信息。多比特水印是指嵌入的信息具有一定的含义。如版权信息、产品的标识码、发表时间、版权所有者姓名、地址、单位等等。相对于1比特水印来说,多比特水印通常更具有实际应用价值。(4)按照水印检测的方式可以分为盲水印和非盲水印。盲水印在提取数据时可以直接通过嵌入水印后的数据来提取水印信息。从应用角度来看,有着广泛的发展前途。如文献3中提出了一种基于量化数字音频信号频域参数的水印嵌入算法。非盲水印则是指在水印的检测过程中,需要未加水印的原始数据作为参考。对于这类算法可嵌入水印的位置选择范围较大,能充分地考虑到水印的鲁棒性和隐蔽性的要求。文献4中提出了一种基于子是子波还是小波波变换的水印处理方法,在数字
28、音频信号中嵌入了一个随机的序列,该方法在提取水印时,需要用到原始的数字音频信号。(5)按照水印嵌入的位置分为时域水印、变换域水印和压缩域水印时域水印的嵌入是通过修改原始音频数据的时域采样值强度实现的。时域的方法因为不需要对原始信号进行变换域计算,所以计算量较少。变换域的算法嵌入水印的过程即是将水印,常见的变换域算法有:离散小波变换(Discrete Wavelet Transform, DWT);离散傅立叶变换(Discrete Fourier Transform, DFT) 5;离散余弦变换(Discrete Cosine Transform, DCT) 6-8等。水印的分类方法有很多,它们
29、的区别是分析问题的角度不同,一种水印方案通常融合了多种方法。4、音频数字水印技术的应用目前数字水印的主要应用有七个领域;广播监控、认证或篡改检测、版权保护、交易跟踪拷贝控制、隐秘通信以及标注水印。(1)广播监控 水印技术可以进行对识别信息的编码,利用自身隐藏在数字作品之中的特点,可以再没有广播信号相关片段的情况下,通过在媒体中搜寻这个唯一的数字水印,这些媒体被播放的时间、次数等相关信息便可以确切知道。(2)认证或篡改检测 在实际应用中,必须要防止在一个已经被篡改的音频数据中再伪造用于认证的水印的情况,并且希望定位到篡改的位置,并且区分恶意篡改和对内容的正常操作(如中等强度的MP3压缩)。(3)
30、版权保护 版权保护是音频数字水印最主要的应用之一。即数字音频作品拥有者可用密钥产生水印,并将其嵌入原始音频作品,公开发布他的嵌入水印后的作品。如果发生版权纠纷,合法的版权拥有者就可以从作品中提取出水印,保护其权益。(4)交易跟踪交易跟踪是指可以利用水印来记录音频作品的某个拷贝的交易次数。(5)拷贝控制在因特网上,发布数字作品的作者大多是希望人们只参阅其发布的媒体数据,却不希望这些数据被拷贝。那么应对这种状况最好的办法就是将水印嵌入到媒体数据中。(6)隐秘通信水印技术用于通信中具有良好的隐藏性,因为它不仅隐藏了通信的内容,而且还将通信过程的存在性也一并隐藏,这一点在军事上有着非常重要的指导意义,
31、特别是在战争状态下,多一种通信方式可能就多一点获胜的把握。(7)标注水印即将作品的标题、注释等内容(例如作品的作者,说明,歌词、网站链接和订购信息等等)以水印形式嵌入到该作品中,这种方式不易丢失,安全可靠,而且不会增加额外的带宽1.2.2音频数字水印技术的评价标准表1.1 主观听觉测试区分度SDG音频数字水印技术的评价标准有多种,但总体来说可以分为主观和客观两种。 一是主观测试法。以人耳的主观感受为评价算法质量的标准,在音频水印技术中,嵌入水印后的音频产品与原始音频产品相比较,理论上在听觉上不会存在非常大的差别,也就是说嵌入水印后的音频产品的听觉质量不应该受水印的影响。最常见的主观测试法应该是
32、平均意见分法(Mean Opinion Score, MOS),该方法需要若干个测试者,根据他们对听过的音频信号质量的优劣进行评分,把这些测试者的平均分数作为对音频信号质量评价的结果。通用的标准大多是5分制,各个档次的评分标准如表1.1所示。表1-1 MOS主观标准此外,在ITU-R BS.1116中还定义了一个主观标准,即是主观听觉区分度(Subjective Difference Grade)见表(2-2)表1.2主观听觉测试区分度SDG 一般来说,主观判定的评价会受到测试者的知识、背景、测试环境等因素的影响和限制,所以评价结果的一致性较差,而且需要耗费相当的时间和人力,因为对于研究和开发
33、阶段来说,这个方法并不是很适用。 二是客观测试法。客观测试法在判定音频水印的质量方面占有十分重要的位置,因为客观测试法可以定量的评价音频数字水印的质量。一般来说,对不同嵌入算法的音频水印算法应根据算法适用程度高低采用不同的客观测试方法,常用的客观评价方法有:(1)信噪比(Signal-to-Noise Ratio, SNR) 应该将嵌入到原始音频信号中的水印信号看成相对于原始信号的噪声,从而通过计算信噪比来量化所嵌入的水印信号对原始音频信号的影响程度。假设宿主信号为,嵌入水印的音频信号为,则信噪比表示为: (1.1) 其中,n为音频信号的采样点数,L为音频信号的长度,且0nL,单位为dB。(2
34、)峰值信噪比(Peak Signal-to-Noise Ratio, PSNR) 峰值信噪比可以定量地评价嵌入水印后音频信号的不可感知性。峰值信噪比的计算公式为 (1.2)(3)归一化相关系数(Normalized Correlation Coefficient, NCC) 检验提取的水印信号与嵌入的水印信号之间的相似性,可通过计算它们的归一化相关系数来判定。假设与分别表示嵌入的水印信号和提取的水印信号,M,N分别为水印信号行数与列数,归一化相关系数的计算公式为 (1.3)(4)归一化汉明距离(Normalized Hamming Distance, NHD)在水印信号为二进制序列的情况下,可
35、以通过计算提取的水印信号与嵌入的水印信号之间的归一化汉明距离来检测其相似性。计算公式为 (1.4)其中,表示嵌入的水印信号,表示提取的水印信号,N表示水印信号的长度,“”表示异或操作。 (5)误码率(Bit Error Rate, BER)通过计算和对比提取的水印信号与嵌入的水印信号,可以检测出它们的误码率。其中,BER单位为百分比(%)。 (1.5)1.2.3音频数字水印技术的发展状况在数字水印算法的研究中,音频数字水印算法研究较晚。在时域内,文献9提出了直接在时域中修改采样信号的幅度,达到嵌入水印的目的。在文献10里,作者提出了回声编码的同态信号处理技术,把回声作为信号嵌入到宿主信号中。B
36、assia等人提出了通过改变音频信号采样数据最低有效位来嵌入水印11。Bender提出了回波数据隐藏的水印嵌入技术12,在时域内将水印的二进制数据置于十分接近音频信号数据(在lms内)的位置上。Kim提出了在数字音频信号中直接嵌入数字印章的方法,该方法在提取水印时不需要原始音频信号13。在频域内,Bender提出了基于相位编码的水印嵌入技术14。它通过轻微改变音频信号相位嵌入二进制水印。Bender还提出了基于频率跳变扩频和直接序列扩频的水印嵌入技术。 Boney等人提出了采用于人的听觉系统频率掩蔽特性相似的滤波器对伪随机序列滤波的方法产生水印,采取加权方式在数字音频信号中嵌入水印的算法15。
37、 Wu等人提出了基于数字音频信号内容分析的离散傅立叶变换域水印嵌入算法16。该算法能抵抗常见的各种攻击。 Xu等人提出了数字音频信号内容自适应的水印嵌入方法17,文中实现了嵌入水印的不可见性和稳健性的折衷。 Ruiz等人提出了基于变换-加密-编码(采用使信号通过全通滤波器的方法使信号加密)的数字音频信号的水印嵌入算法18。 Furon等人提出了数字音频信号的公钥水印处理技术19,该算法建立在一系列假设的基础上,但实际上音频信号不满足高斯概率密度函数特性以及嵌入过程中利用了听觉系统模型的因素给检测水印带来了困难。1.3本论文的主要研究内容及章节安排本文本本文?针对声音信号的特点,在充分理解音频数
38、字水印原理的基础上,展开对回声隐藏技术的研究。针对通常的隐藏信息是没有明显意义的伪随机序列或者是任意一段数据流这一问题,将有意义的二值图像数据嵌入到声音信号中,增强了隐藏信息的直观性,并且使用PN序列对回声内核的改进提高了水印的安全性和不可见性;仿真结果证明了该算法的透明性和鲁棒性。通过研究各种回声核算法,引入新型回声核镜像核。镜像核降低了对音频载体的要求,减小了各种恶性攻击对信息隐藏的影响;提高了隐藏信息的恢复率和算法的鲁棒性句号;本文各章节的安排如下:第1章对音频数字水印技术进行了概述。第2章介绍了回声隐藏技术的基础理论知识。首先,简要地介绍了声音特性与人耳的听觉特性;其次,阐述了倒谱分析
39、的有关概念;最后介绍了短时傅里叶变换在倒谱分析中的应用。 第3章阐述了回声隐藏技术的基本原理,综述了近年来回声隐藏技术的研究现状,并研究和实现了Bender提出的经典的回声隐藏算法。第4章分析了m序列的生成,针对Kim提出的前后向回声核,提出了一种利用PN序列改进回声内核的回声隐藏算法,详细介绍了隐藏信息的嵌入和提取过程,并对算法原始音频波形分析、鲁棒性测试及误码率分析,仿真实验结果表明了该算法的良好性能。第5章详细阐述了新型回声核镜像核的理论分析,通过仿真实验证明了镜像核算法可以降低对音频载体的要求,减小了各种恶性攻击对信息隐藏的影响;提高了隐藏信息的恢复率和算法的鲁棒性。第六章对全文进行了
40、总结,讨论了在音频信息中进行信息隐藏的若干难题及对进一步研究的展望。第二章 基础理论知识在本论文的研究中引入了基础技术概念,本章首先对这些技术的理论进行介绍,然后在具体的应用算法中说明这些技术是如何使用的。2.1 人耳的听觉特性 在音频文件中嵌入水印信号的各种方法一般都需要利用人类听觉系统(HAS)的某些特性,也就是听觉生理-心理特性(蓝皮书113参考文献1,2 )。通过对HAS的研究表明:人耳实际上相当于一个频率分析器,能分辨一定频带以内的声音,这个频带大约是20Hz20kHz的宽度。HAS可以模拟为一个拥有26个带通滤波器的系统。而HAS中的一个最重要的心理声学概念就是掩蔽效应(Maski
41、ng)。音频的掩蔽效应是指一个较弱的但可以听到的声音由于另外一个较强的声音的出现而变得无法听到的现象。(蓝皮113) 掩蔽音和被掩蔽音的时域和频域特性决定了掩蔽的效果,而掩蔽可分为时域和频域掩蔽。频域掩蔽是指发生频域的掩蔽现象。假如在一个一定的频率范围内,同时存在着两个音频信号,而这两个信号存在着一定得能量差,也就是一个能量强,一个能量弱,这时候,弱音不被人耳察觉,即被强音掩蔽掉了,则这种情况下,称较强的音为掩蔽音,而较弱的音为被掩蔽音。如果把一个纯音作为目标的话,假设它的声压级低于掩蔽阈值时(安静时的听阈值),则它是听不见的。由于存在一个较强的信号,听觉阈值不同于安静的阈值,在接近较强音的信
42、号频率的地方,听觉阈值被提高了,这个新的阈值被叫做掩蔽阈值,也就是说,当音频信号的声压级低于掩蔽阈值的时候,它被掩蔽。而掩蔽音的掩蔽阈值依赖于很多因素,包括声压级,频率,掩蔽和被掩蔽音的纯音或者噪音特性。用一个宽带的噪声掩蔽一个纯音相对于用一个纯音掩蔽一个宽带的早生来说要更容易。而且,信号频率越高就越容易被掩蔽,这就好像人们坐在火车里看到对面的火车,如果火车高速行驶,则人们不容易看清驶来火车的细节,但如果火车静止或者低速行驶时,则容易被看清楚。从纯音对纯音的掩蔽实验结果看,得出两点主要结论:1)对于中等强度的掩蔽来说,纯音最有效的掩蔽是在它的频率附近;2)低频的纯音可以有效掩蔽高频的纯音,相反
43、则作用很小。时域掩蔽包括前向掩蔽,同时掩蔽和后向掩蔽。前向掩蔽是指较强的掩蔽音之前出现较弱的被掩蔽音,则被掩蔽音无法听到;后向掩蔽是指较强的掩蔽音消失后较弱的被掩蔽音无法被听到,而同时掩蔽是在一定得时间内,一个声音对另一个声音互相发生掩蔽。通常来讲,前向掩蔽发生在掩蔽音出现之前的5ms20ms,而后向掩蔽发生在掩蔽音消失后的50ms200ms。如图2.1所示;图2.1 时域掩蔽人类听觉系统HAS中的另一个重要的心理声学概念则是人耳只对声音信号的相对相位敏感,而对绝对相位不敏感。同时,人耳对不同频段的声音的敏感度不同,一般人耳可以听见20Hz18000Hz的信号,但尤其对300Hz3400Hz范
44、围内的信号最为敏感,在这个频率范围内人耳可以听到幅度很低的信号。而在低频和高频区,能被人耳听到的掩蔽信号的幅度要高得多。就算是对同样声压级的声音信号来说,人耳所感觉到的音量的大小也是因频率的不同有所差异的。为了使嵌入到音频中的水印信号不影响原始音频的音质,嵌入水印时候在嵌入水印的时候,较精细的做法应该是在不同频段寻求听觉的掩蔽阈值,充分利用HAS的特性,尽可能在低于掩蔽阈值范围之内对原始信号进行修改。通常结合耳蜗基底膜对频谱的分析作用定义一系列频率来划分频段。将2015500Hz之间的频带分为24个频率群,将1550022000Hz定义为第25个频率群。又叫这些频率为临界频带(critical
45、 band),以Bark为单位(参考红书125,文献6)。Bark各个子带频率上限和中心频率见表2-1所示。计算每个Bark域子带的听觉掩蔽阈值,将这些掩蔽阈值用于水印的嵌入能够取得较好的不可感知性。通过人耳直接测量的方法确定临界频段必然存在误差,对Bark域的划分应至少以10Hz取整,在高频段应更高。划分时使Bark序号为3,9,18的临界频段的中心频率分别等于250Hz,1000Hz,4000Hz。为了方便计算,常用公式表示Bark序号z与频率f之间的关系,式2-1是Zwicker和Terhardt提出的公式,它给出了与表2-1非常相近的结果。(红皮书125参考7) (2-1)其中f为频率;对z取整数即是Bark各子带的编号。表2-1 临界频段(Bark)的划分Bark中心频率/Hz频率上限/Hz带宽 /HzBark中心频率 /Hz频率上限 /Hz带宽 /Hz 20 131850 2000 280 150 100 80 14 2150 2320 320 2 150 200 100 15