《多媒体应用技术基础优秀PPT.ppt》由会员分享,可在线阅读,更多相关《多媒体应用技术基础优秀PPT.ppt(35页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、多媒体应用技术基础第1页,本讲稿共35页2023/2/211辽宁石油化工大学计算机与通信工程学院 刘旸7.1概述第2页,本讲稿共35页2023/2/212辽宁石油化工大学计算机与通信工程学院 刘旸7.1.1 媒体n媒体是一种信息发布和表现的方法,如文本、图形、语音、音乐等。n媒体可分为感知媒体、表示媒体、表现媒体、存储媒体、传输媒体。n感知媒体指能直接作用于人的感官,使人直接产生感觉的媒体。在通过视觉来感知信息时,可视媒体是文本、图像和视频;在通过听觉来感知信息时,可听媒体有音乐、噪声和语音等;另外,触觉作为一种感知方式也慢慢引入到计算机系统中。n表示媒体是为加工、处理和传输感知媒体而人为研究
2、构造出来的一种蝶体,其目的是更有效地加工、处理、传输感知媒体。表示媒体包括各种编码方式,如文本编码、语音编码、图像编码等。n表现媒体指信息输入、输出的工具和设备。输出媒体的例子有纸、显示器和喇叭,而输入媒体的例子有键盘、鼠标、摄像机和麦克风等。n存储媒体是指能支持信息存储的数据载体,数据存储并不局限于计算机的部件,因此,纸也是一种存储媒体。存储媒体的例子还有:计算机的硬盘、软盘、USB盘和CD-ROM等。n传输媒体用于传输数据信息。目前主要使用网络来进行信息传输,网络介质有同轴电缆、光纤等,也可以用无线方式传输。第3页,本讲稿共35页2023/2/213辽宁石油化工大学计算机与通信工程学院 刘
3、旸7.1.2 多媒体与多媒体系统n从广义的角度来说,所谓多媒体就是多种媒体,任何支持一种以上媒体的系统都可以称为多媒体系统。n如果只考虑量的因素,一个系统只要同时处理了文本和图形,就可以将其看成多媒体系统。n如果从质的角度来判断一个系统是否是多媒体系统,就会更看重系统所支持的媒体类型而并非数量。第4页,本讲稿共35页2023/2/214辽宁石油化工大学计算机与通信工程学院 刘旸多媒体系统的最重要特征n1.媒体的组合性媒体的组合性n并不是任意的媒体组合都能满足术语“多媒体”的要求,所以“多种媒体”与“多媒体”含义并不相同。从严格意义上的多媒体系统必须对连续和离散两种媒体都进行了处理,所以从这个角
4、度上看有图像编辑功能的文本处理程序不应被看成多媒体应用。n2.媒体的独立性媒体的独立性n媒体的一个重要性质是它们之间的独立性。一般的应用也需要各种媒体具有一定的独立性,但多媒体系统需要的是多个层次上的独立性。一方面,计算机控制的视频记录仪存储的视频和音频信息是紧密耦合在共同的存储介质上的。但另一方面,又可能要将声音信号取出并与文本等其他媒体组合起来以满足一定的表示需要。n3.媒体的集成性媒体的集成性n计算机是进行媒体组合的理想工具。媒体组合系统必须具有媒体处理能力,但一个系统对不同媒体的简单的输入、输出(如摄像机)并不是真正的媒体集成,而真正的媒体集成是将独立的媒体数据集成起来完成一定的任务,
5、也就是说媒体之间必须建立一定的同步关系。n4.多媒体系统还必须具备通信能力多媒体系统还必须具备通信能力n因为目前大多数的计算机都是网络互联的,如果只从本地处理的角度看待多媒体系统将有很大的局限性。另一个原因是很多有趣的多媒体应用是专为分布式环境设计的,单个的计算机不足以产生、处理、表示和存储这些媒体信息。第5页,本讲稿共35页2023/2/215辽宁石油化工大学计算机与通信工程学院 刘旸多媒体的定义n用计算机对一些独立的信息进行一体化的制作、处理、表现、存储和通信,这些信息必须至少通过一种连续媒体和一种离散媒体进行编码。p这个定义非常严格,在很多情况下,使用广义的多媒体定义,即只要系统中同时处
6、理了多种媒体,就可以使用多媒体的提法。第6页,本讲稿共35页2023/2/216辽宁石油化工大学计算机与通信工程学院 刘旸7.1.3 多媒体个人计算机n一般而言,如果一台计算机具备了处理多媒体信息的硬件条件和适当的软件系统,那么,这台计算机就具备了多媒体功能。具有多媒体功能的计算机有大、中、小型计算机系统和微型计算机系统,其中使用最广泛的是微型计算机系统。n具有多媒体功能的微型计算机系统习惯上被人们称为“多媒体个人计算机(Multimedia Personal Computer,简称PC机)”。n在多媒体个人计算机出现之初,由许多计算机公司共同组建的“多媒体个人计算机工作组(Multimedi
7、a PC Workgroup,简称MPWG)”,曾经制定了多个标准,对个人计算机上的多媒体技术进行规范化的管理,这些标准包括MPC1,MPC2,MPC3。这些标准大大推动了多媒体个人计算机的发展。目前,多媒体计算机的配置已经远远高于MPC3标准,硬件的种类大大增加,软件的发展更为迅速,功能更为强大,多媒体功能已经成为个人计算机的基本功能,MPC标准已不再重要了。n多媒体个人计算机是具有多媒体处理功能的个人计算机,它包括硬件和软件两个方面。硬件方面从处理流程来看包括计算机主机、输人设备、存储设备和输出设备。第7页,本讲稿共35页2023/2/217辽宁石油化工大学计算机与通信工程学院 刘旸多媒体
8、的关键设备n音频设备 负责采集、加工、处理波表、乐器数字接口(Music Instrument Digital Interface,简称MIDI)等多种形式的音频素材。需要的硬件有录放音设备、MIDI合成器、高性能的声卡、音箱、话筒、耳机等。n图像设备 负责采集、加工、处理各种形式的图像素材。需要的硬件有扫描仪、数码相机、数字化仪、打印机。n视频设备 负责采集、编辑计算机动画、视频素材。需要的硬件设备有视频播放机、视频采集卡、视频编辑卡、动态压缩卡、数字录像机、数字摄像机、投影仪等。n存储部分 多媒体信息及其应用系统数据量很大,将它们长期保存在硬盘中是不现实的,而且多媒体软件的发行也需要一种高
9、容量、移动方便的存储介质,那就是光盘。读取光盘中的信息需要用光盘驱动器,在光盘上记录信息需要光盘刻录机。第8页,本讲稿共35页2023/2/218辽宁石油化工大学计算机与通信工程学院 刘旸多媒体计算机软件系统的分类和组成n多媒体计算机软件系统按功能主要分为系统软件和应用软件。系统软件包括多媒体操作系统、多媒体设备驱动程序、多媒体素材制作软件、多媒体编辑与创作工具等。而应用软件是指最终的多媒体应用,如多媒体课件、多媒体演示系统、多媒体模拟系统、多媒体导游系统等。n软件要运行于操作系统平台上,所以具有多媒体设备,信息和软件管理能力的操作系统是多媒体系统的核心。它能实现多媒体环境下的多任务调度,保证
10、音频、视频同步及信息处理的实时性,提供多媒体信息的各种基本操作和管理,具有对设备的相对独立性和可操作性。n设备驱动程序是操作系统与设备之间的接口,驱动程序告诉操作系统如何使用该设备,而其他软件和用户可以通过操作系统的统一界面和接口来方便地使用该设备,而用户并不需要知道该设备的操作规范。现在的操作系统内嵌了很多设备的驱动程序,基本可以做到即插即用。对有些新型号的设备,操作系统的即插即用功能可以发现该设备,但可能仍然需要用户安装驱动程序。n媒体制作平台和媒体制作工具软件支持开发人员创作、采集、制作媒体数据。按媒体类型来分,这一类软件可以进一步细分为音频编辑软件、图像处理和动画制作软件、视频处理软件
11、等。n多媒体编辑与创作系统提供多媒体应用系统编辑制作的环境。在多媒体应用系统中,多种媒体是有机集成在一起的。根据媒体集成的方式不同,有基于脚本语言的编辑系统,有基于图标导向的编辑系统,还有基于时间导向的编辑系统,也包括使用高级程序设计语言进行多媒体应用软件的开发。除了编辑功能外,创作软件还应该具有控制外设播放多媒体的功能。第9页,本讲稿共35页2023/2/219辽宁石油化工大学计算机与通信工程学院 刘旸7.2 多媒体技术基础第10页,本讲稿共35页2023/2/2110辽宁石油化工大学计算机与通信工程学院 刘旸7.2.1数据压缩技术n采用数字技术具有许多优越性,但也使多媒体信息的数据量大增。
12、n对模拟带宽为22kHz的高保真音频信号,采样频率为44.lkHz,每一个量化值用16比特表示,每秒的数据量为(44.116)=705.6kbn我国和欧洲的PAL(Phase Alternation by Line)制式规定,电视视频信号每秒25帧图像,亮度信号以13.5MHz的频率采样,两个色差信号分别以6.75 MHz的频率采样,如果每个采样点以8位来编码,则带宽需求为(13.5+6.75+6.75)8=216MB/s。n由此可见,信息时代带来了“信息爆炸”,所以对表示多媒体信息的数据进行压缩的技术,也就是数据压缩技术,成为了多媒体技术中的关键技术。n数据压缩的对象是数据。数据是信息的载体
13、,用来记录和传送信息。真正有用的不是数据本身,而是数据所携带的信息。第11页,本讲稿共35页2023/2/2111辽宁石油化工大学计算机与通信工程学院 刘旸1.信息和熵n信息论奠基人之一仙农应用概率来描述不确定性。事件出现的概率越小,不确定性越多,信息量就越大,反之越小。一个事件所携带的信息量I用它出现的概率p按如下关系来定义:(7 1)n如果将信息源中所有可能事件的信息量进行平均,即可得到信息源的“熵”。设信息源x的事件集xi(i=1,2,N),出现的概率为p(xi),则信息源x的熵为:(7 2)n在事件出现之前,熵表示信息源中事件出现的平均不确定性;在事件出现之后,熵代表接受事件所获得的平
14、均信息量。因此,熵是在平均意义上表征信息源总体特征的一个物理量。n从信息论的相关理论中可以知道:信息源中含有冗余度,这些冗余度既来自于信息源本身的相关性,又来自于信息源概率分布的不均匀性,只要找到去除相关性或改变概率分布不均匀性的手段和方法,也就找到了信息熵编码的方法。信息源所含有的平均信息量(熵)是进行无失真编码的理论极限,只要不低于此极限,就总能找到某种适宜的编码方法,去逼近信息熵,实现数据压缩。第12页,本讲稿共35页2023/2/2112辽宁石油化工大学计算机与通信工程学院 刘旸2.信息冗余n多媒体数据中大的数据量并不完全等于它们所携带的信息量。在信息论中,称为冗余。n冗余是指数据中存
15、在的多种性质的多余度。例如,180个汉字,每个汉字两个字节,其文本数据量为2880比特,如果阅读这些汉字需要一分钟时间,语音数据量将达到64kb/s60s=3840kb(通常语音的数据量是每秒64kb/s)n相对来说,传递同样的信息,语音数据存在着1300多倍文本数据的冗余。n减少数据冗余可以节省存储空间,有效利用网络带宽。第13页,本讲稿共35页2023/2/2113辽宁石油化工大学计算机与通信工程学院 刘旸数据冗余的主要类型(1)空间冗余空间冗余 在同一幅图像中,规则物体和规则背景表面的物理特性具有相关性,这些相关性在数字化图像中就表现为数据冗余。时间冗余时间冗余 时间冗余反政在视频图像序
16、列中,相临帧图像之间有较大的相关性。一帧图像中的某物体或场景可由其他帧图像中的物体和场景重构出来。信息熵冗余信息熵冗余 信息熵冗余是指数据所携带的信息量少于数据本身而反映出来的数据冗余。信息熵编码时,当分配给每个符号的比特数等于该符号的信息量时,才能使编码后的比特率等于其信息熵,即达到其压缩极限。而实际中很难准确获知每个符号的概率,所以编码的比特分配不能达到最佳,因此存在信息熵冗余。第14页,本讲稿共35页2023/2/2114辽宁石油化工大学计算机与通信工程学院 刘旸数据冗余的主要类型(2)视觉冗余视觉冗余 人类的视觉系统受生理特性的限制,对于图像的注意是非均匀的,人眼并不能察觉图像中的所有
17、变化。人类视觉的一般分辨能力为26灰度等级,而一般图像的量化采用的是28灰度等级,即存在视觉冗余。听觉冗余听觉冗余 人耳对不同频率声音的敏感性是不同的,不能察觉所有的频率变化,对某些频率也不是特别关注,因此存在听觉冗余。由于声音的掩蔽效应,被掩蔽信号实际上也是没有必要存储或传输的。所谓的声音掩蔽效应是有些低频的声音可能被高频的声音掩盖了,使人的听觉感觉不到它们存在。知识冗余知识冗余 数据的理解与先验知识有相当大的关系。例如,当接收到一个成语的前三个字“大惊小”时,立刻就会知道下一个字肯定是“怪”。这时最后一个字就不携带任何信息量了,这就是一种先验知识冗余。在图像和声音中都存在这种冗余。第15页
18、,本讲稿共35页2023/2/2115辽宁石油化工大学计算机与通信工程学院 刘旸3.压缩算法的分类n从压缩后信息量有无损失划分:n(1)可逆编码 可逆编码也叫无失真编码、冗余度编码、熵编码等。其原理是减少数据中的冗余度,而不损失任何信息。解压时可以完全恢复出原来的数据,也称无损压缩。典型的无损压缩有霍夫曼编码,算术编码和行程编码等。可逆编码由于不会导致失真,因此在多媒体技术中常用于文本、数据的压缩,它能保证完全地恢复原始数据。但这种方法的压缩效率较低,一般在2:15:l之间。n(2)不可逆编码 不可逆编码是有失真编码,信息论中叫熵压缩。由于压缩了熵,信息量会减少,原始信息将不能完全恢复,因此这
19、种压缩又称有损压缩。在语音和图像中 由于存在视觉冗余和听觉冗余,信息量的适当减少并不影响人们的听觉和视觉效果,所以经常采用这种方法。n根据压缩原理划分:n(1)预测编码 这是一种针对统计冗余性的压缩方法。对于语音可以通过预测,去除语音信号时间上的相关性。而对于图像,帧内预测去除了空间上的冗余,帧间预测则去除了时间上的冗余。n(2)变换编码 这也是针对统计冗余性进行压缩的编码方法。不同的是变换编码首先把要压缩的数据变换到某个变换域中,然后再进行编码。变换域中表现为能量集中在某些区域,就可以利用这一特点在不同区域内有效地分配量化比特数,或者去掉那些能量较小的区域从而达到数据压缩的目的。n(3)子带
20、编码 子带编码首先让原始数据分别通过若干个具有不同频带的滤波器,将信号分成多个子带信号输出,然后分别对各个滤波器的输出进行编码。当滤波器选取得适当时,它们的输出将具有备不相同的分布特性,对各频段进行不同的量化处理,可以有效地进行数据压缩。n(4)熵编码 根据信息熵的原理,用短码表示出现概率大的数据,用长码表示出现概率小的数据。这是一种无损数据压缩技术,在语音和图像编码中常常和其他有损压缩编码方法结合使用。第16页,本讲稿共35页2023/2/2116辽宁石油化工大学计算机与通信工程学院 刘旸7.2.2 光存储技术n目前,多媒体存储技术主要是指光存储技术。n光存储技术发展很快,特别是近十年来,近
21、代光学、微电子技术、光电子技术及材料科学的发展,为光学存储技术的成熟及工业化生产创造了条件。n光存储以其存储容量大、工作稳定、密度高、寿命长、介质可更换、便于携带、价格低廉等优点,成为多媒体系统普遍使用的设备。第17页,本讲稿共35页2023/2/2117辽宁石油化工大学计算机与通信工程学院 刘旸1.光学存储的基本原理n光存储系统由光盘驱动器和光盘片组成。n光盘驱动器产生一束激光照射到光盘上,反射光由一个光检波来接收,并且被解码成数据。n光盘上的介质有两种状态,分别产生不同的反射光,从而代表不同的数据。反射光的不同可以是光波的相位不同,也可以是光强的变化。例如,反射面上的洞使反射光发生衍射,光
22、强会变弱。反射区的高光强和洞区的低光强可被转化成不同的点信号以读取数据。n由于光盘驱动器使用一束激光进行数据的写入与读出,光盘可以达到很高的信息密度,而光盘的轨间距、凹坑的最小尺寸和其他一些参数取决于激光的光波长。较短的波长会产生更高的存储密度。第18页,本讲稿共35页2023/2/2118辽宁石油化工大学计算机与通信工程学院 刘旸2.光学存储的类型n(1)只读光盘n只读光盘(CD-ROM)是最常用的光盘,直径约12cm,容量约650MB。其工作特点是,采用激光调制方式记录信息,将信息以凹坑和凸区的形式记录在螺旋形光道上。光盘是由母盘压模制成的,一旦复制成形,永久不变,用户只能读出信息。n(2
23、)一次写多次读光盘n一次写多次读光盘(Write Once Read Many,简称WORM)使用户能够自己将数据、程序或节目记录到光盘上,其特点是只能写一次,但可多次读,信息一旦写入就不能再更改。nWORM光盘可用多种不同的方法实现。一种方法是采用有机染料作为记录层,该层被激光加热时会融化,并形成一个凹坑,未被加热的点仍然是平面,这就形成了代表0和1的两种状态。也可以使用一层薄的金属记录层,当该金属被写激光加热到一定温度时,其物理特性将由晶态(高反射性)转换到非晶态(低反射性),从而也在光盘轨道上产生了光反射系数高与低两种不同的状态。n(3)可重写光盘n在可擦写光盘系统中,用户自己可以进行数
24、据的写、读以及擦除后再次写入。有多种不同方式的可擦写光盘,包括磁光系统、相变系统和染料化合物系统等。其中相变技术使用最为广泛,目前已经应用在CD-RW,DVD-RW和DVD-RAM中。在使用相变技术的可擦写光盘中采用的是一种具有晶体/非晶体状态可逆转换特性的材料。从晶体(高反射)到非晶体(低反射)的变化一般用于记录数据,而逆变过程用于擦除记录信息。用激光加热记录层,使聚焦点的温度略高于它的熔点而冷却凝固时,记录层的状态就由晶体转换成非晶体。由于非晶体状态不稳定,材料易于反变,因此,当该点加热到稍低于熔点的温度再冷却时,就返回晶态,数据则被擦除。n现在120mm可擦写光盘可存储4.7GB,它的容
25、量还会增加10倍,数据读取速率可达10MB/s。使用更高的旋转速度和置于平行轨道的多光头,可使速度达到500MB/s甚至更高。n在光盘存储中,因为数据的读写是通过光来完成的,在介质和传感器之间没有物理接触,这使得介质和传感器(读出装置)有更长的寿命。另外,由于无需数据面与读出头之间的物理接触,数据可以置于保护层阿,减少表面污染的影响。第19页,本讲稿共35页2023/2/2119辽宁石油化工大学计算机与通信工程学院 刘旸7.2.3数字音频技术n声音是人们用来传递信息、交流感情最方便、最熟悉的方式之一。从本质上来说声音是一种机械振动波,当这种振动通过声音传送媒介(此如空气)传送到人的听觉器官后,
26、人就听到了声音。n声音信息的主要表现形式是语音和音乐。语音不仅是一种波形音,更重要的是它还包台有丰富的语言内涵,人类可以通过抽象思维,提取其特定成分,达到对其意义的理解,所以常把它作为一种人类特有的媒体。音乐与语音相比,其形式相对规范一些。它可以被理解为能用乐谱或数字语言等形式,进行规范表达的符号化了的声音。n声音是一种与时间相关的时基类媒体。测量和描述一个随时间连续变化的模拟音频信号的指标主要有振幅、周期(频率)和相位等物理量。从人耳的听觉特性来看,声音信号的基本特征主要表现在音强、音调和音色等几个方面,而正常人的听觉频率范围在2020000Hz之间。不同声源发出的声音都有一定的频率范围。不
27、同的使用条件和听音环境对重放声音信号的频率宽度要求也不一样,即声音的质量与其频率范围有密切关系。一般来说,对声音质量要求越高,其频带宽度要求也越大。n由于音频是一种连续变化的模拟信号,而计算机只能处理和记录二进制的数字信号,因此,音频信号必须数字化(即数字音频信号)后才能送到计算机进行编辑和存储。从信息处理的角度来看,数字音频信号的特点是携带的信息量大、实时性要求高,因此对其的压缩处理是多媒体技术中必不可少的部分。此外,数字音频信号的处理还包括对声音的编辑和加工,即剪辑、合成、静音、增加混响、调整频率等。第20页,本讲稿共35页2023/2/2120辽宁石油化工大学计算机与通信工程学院 刘旸1
28、.音频信号的数字化n音频信号的数字化过程就是将模拟音频信号转换为用数字表示的离散序列,即数字音频序列。在这个处理过程中涉及到对模拟信号的抽样、量化和编码。不同的抽样,量化和编码方式会形成不同形式的数字化音频信号。n(1)抽样 由奈奎斯特定律可知:为了从取样得到的离散序列中不失真地恢复出原始的信号,抽样频率至少要大于信号带宽的两倍。同时为了防止带宽很宽的噪声信号混入到取样后的离散序列中去,通常在对音频信号进行取样之前,要用一个低通滤波器对输入的音频信号进行限带处理,滤除带外的噪声。在电话通信系统中通常采用的抽样频率是8kHz,而在CD中取样频率通常为44.1 kHz或48kHz。n(2)量化 量
29、化过程将每个取样值在幅度上进行离散处理。它将所有取样值可能出现的范围划分为有限个区间,凡是落人某个量化区间内的取样值都赋予相同的值,即量化值,由于在量化过程中把略有不同的所有落人同一量化区间内的取样值都用同一个量化值来表示,这必然要引人失真即量化失真。n(3)编码 编码过程就是用二进制数来表示每个取样的量化值。如果在量化过程中采用的是均匀量化,在编码过程中又采用二进制数来表示,那么这种编码方法就被称为脉冲编码调制(Pulse Code Modulation,简称PCM)。经过编码的数字信号就是数字音频信号。在数字音频信号的处理中,由于PCM信号是一种未经过任何压缩或其他处理的数字音频信号,所以
30、常常将ECM信号作为一种参考信号,用于衡量其他处理(包括压缩编码)的性能。衡量PCM编码性能的主要指标是码速率和量化信噪比。第21页,本讲稿共35页2023/2/2121辽宁石油化工大学计算机与通信工程学院 刘旸2.电子合成音乐n数字音频实际上是一种数字式录音/重放的过程。在多媒体系统中,除了用数字音频的方式外,还可以用合成的方式产生音乐。音乐合成的方式根据一定的协议标准,使用音乐符号来记录和解释乐谱,并组合成相应的音乐符号,这就是MIDI(Music Instrument Digital Interface)。nMIDI不是把音乐的波形进行数字化采样、量化和编码,而是将数字式电子乐器的弹奏过
31、程以命令符号的形式记录下来,如按了哪一个键、力度多大、时间多长等。当需要播放这首乐曲时,根据记录的乐谱指令,通过音乐合成器生成音乐声波,经放大后由扬声器播出。MIDI并不产生和传送声音,而是传送产生声音的控制符号,比如音符的开始和结束时间、音量、制式、音调、乐器声音的改变时间、歌曲的起始点和结束点、音素等。nMIDI电子乐器通过MIDI接口与计算机相连。计算机可通过音序器软件来采集MIDI电子乐器发出的一系列指令。这一系列指令将记录到以“.MID”为扩展名的MIDI文件中。在计算机上音序器可对MIDI文件进行编辑和修改。最后,将MIDI指令送往音乐合成器,由合成器对MIDI指令符号进行解释并产
32、生波形,然后通过声音发生器送往扬声器播放出来。n播放乐曲时,根据记录的乐谱指令,通过音乐合成器生成音乐声波,经放大后由扬声器播出。MIDI并不产生和传送声音,而是传送产生声音的控制符号,比如音符的开始和结束时间、音量、制式、音调、乐器声音的改变时间、歌曲的起始点和结束点、音素等。第22页,本讲稿共35页2023/2/2122辽宁石油化工大学计算机与通信工程学院 刘旸MIDI音乐的产生过程第23页,本讲稿共35页2023/2/2123辽宁石油化工大学计算机与通信工程学院 刘旸3.数字音频的压缩n语音信号是一种常见并且应用范围非常广泛的一种音频信号,是人们在日常生活中进行交流的主要手段之一。语音信
33、号的带宽通常在3003400Hz之间,是目前常见的音频信号中频带最窄的一种。n语音的压缩编码方法主要有3类:第一类是基于语音波形预测的编码方法,比如A/u率压扩、差分脉冲编码调制(Differential Pulse Code Modulation,简称DPCM)、自适应差分脉冲编码调制(Adaptive Differential Pulse Code Modulation,简称ADPCM)等方法这类方法的特点是算法简单,易于实现,同时可以获得较高的语音质量,缺点是压缩的效率不太高。第二类方法是基于参数的编码方法,比如线性预测编码、共振峰编码等。这类方法的特点是压缩效率高,但声音质量比较低。第
34、三类方法是近年来常用的混合方法。这类方法将波形编码方法的高质量和参数编码的低速率结合在一起取得了较好的效果。其中效果较好的混合编码方法有:多脉冲线性预测编码(Multi-Pulse Linear Predictive Code,简称MPLPC)、码激励线性预测编码(Code Excited Linear Prediction Code,简称CELP)、规则脉冲激励长时预测编码(Regular Pulse Excitation-Long-Term Predictive,简称RPE-LTP)、低时延CELP(Low Delay-CELP,简称LD-CELP)编码等。n除了普通的语音信号外,还有一些
35、质量高,带宽更宽的音频信号,比如调幅、调频广播之类的音频信号,对这类宽带的音频信号显然需要用有别于普通语音处理的方法来进行处理以便能提供高质量的音频效果。目前的音频压缩编码大多为有损压缩,但都力求获得声音在主观感知上相同,即达到通常所说的透明的声音质量。当然在追求低码率的前提下,还需要兼顾考虑算法的复杂度和延迟。音频压缩的方法主要有两大类:变换编码和子带编码。第24页,本讲稿共35页2023/2/2124辽宁石油化工大学计算机与通信工程学院 刘旸7.2.4图形图像技术n图像可以表现一个物体、一个二维或三维场景等,它的内容可以是真实的也可以是虚构的。n人们可以将图像抽象地看作一个矩形区域上的函数
36、,例如,由光学传感器获得的图像就与传感器接收到的电磁波的辐射强度成正比,这样的图像叫强度图像;对于深度传感器来说,图像就是从传感器到三维物体的视线距离的函数,这样的图像叫深度图像;而对于触觉传感器,图像与物理表面引起的传感器形变成正比。n记录的图像可以是模拟的也可以是数字的。第25页,本讲稿共35页2023/2/2125辽宁石油化工大学计算机与通信工程学院 刘旸1.数字图像表示n可以把图像看作平面区域上各个点光强值的函数。为了能在计算机中用数字方式表示图像,要在离散的点上对这个函数进行采样,采样得到的光强值经过量化就形成了离散的亮度级。n一幅数字图像就是一个由量化后的光强值组成的矩阵。图像上的
37、采样点叫做图像元素,一般简称为像素,像素的光强值叫灰度级(对颜色进行了编码),像素的光强值用整数表示。如果光强值只有两个,比如黑和白,那么就可以用0和1表示,这种图像叫二值图像。如果每个像索的值用一个字节表示,灰度值级数就等于256级,每个像素可以是0255之间的一个值。彩色图像可以按照颜色的数目来划分,如256色表示该图像中的颜色数目可以达到256种。n通常使用纵向和横向都均匀分布的网格进行采样。很明显,网格之间的距离影响图像表示的精细程度,决定了可以表现的细节层次。但显示出来的分辨率也与成像系统有关。第26页,本讲稿共35页2023/2/2126辽宁石油化工大学计算机与通信工程学院 刘旸2
38、.图像格式n图像捕获格式主要有两个参数:空间分辨率和颜色编码方式。空间分辨率是指图像是由多少像素乘多少像素的,颜色编码方式是每个像素用多少比特来表示。这两个参数都与图像输入/输出的软硬件设备有关。n存储图像时都需要存储一些识别信息。因为如果只存储图像数据,程序则难以解读出正确的图像数据。识别信息通常包括文件识别信息(如图像文件的识别码和版本代号识别码,用于判断这个文件应为哪种文件格式)和图像识别信息(如图像的宽度和高度、颜色种类、调色板数据等)。n图像数据实际上存储的是一个二维数组,数组中的值就是图像中对应点的数据,对于二值图像,这个值只要一个二进制比特,对于彩色图像这个值可以有如下几种组合:
39、表示像素颜色中红、绿、蓝颜色分量的三个数值;表示在红、绿、蓝颜色表中索引值的三个数值;一个三元组颜色表的索引值;其他能表示颜色的数据结构的索引号。n图像数据通常过于庞大,若不经过压缩处理就直接存储,会占用很大的存储空间,所以图像存储时多半会运用某种压缩原理,减少存储图像所需的数据量,以达到节省存储空间的效果。目前图像存储之所以会有种种不同的格式,主要是在存储编码过程中,使用了不同的识别信息和压缩方法。n现在最常用的图像存储格式有BMP(BITMAP,位图格式)、GIF(Graphics Interchange Format,图形交换格式)、JPEG(Joint Photographic Exp
40、ert Group,联合图像专家组)、TIFF(Tagged Image File Format,标记图像格式)等。第27页,本讲稿共35页2023/2/2127辽宁石油化工大学计算机与通信工程学院 刘旸3.图形格式n图形格式是用图形元素及其属性来描述的。图形元素包括直线、矩形、圆、椭圆及用文本描述的二维或三维物体,如多边形等。n支持哪些图形元素取决于具体的图形软件包,而图形的外观还受到诸如线型、线宽及颜色这样的图形元素属性的影响。n图形元素及其属性表现的是图像的高层信息,因为图形不是用像素矩阵表示的。在图像处理的过程中有时需要将这种高层表现形式还原成低层表现形式即位图。n使用高层图形元素的好
41、处是图像的数据量大为减少,对图形的编辑修改也更为容易,缺点在于显示时有一个从图形元素到点阵的转换过程。第28页,本讲稿共35页2023/2/2128辽宁石油化工大学计算机与通信工程学院 刘旸4.计算机图像处理n(1)图像合成n图像合成是计算机用户界面的一个组成部分,在二维、三维及更高维物体的可视化中是必不可少的。在教育、科技、工程、医药、广告、娱乐等不同领域中都要使用图形和图像,n从摄影和电视的诞生到现在,交互式计算机图形已成为制作图片最重要的方法。使用计算机的好处是不仅可以得到反映真实世界的图片,而且可以表现抽象合成的物体,比如四维数学曲面等。n计算机图形并不仅限于表示静止的图片,图片可以动
42、态变化,例如,用户可以通过调整运动速度、显示的部分及显示的细节数量来控制图片的运动。许多交互式图形技术使用专门的软硬件支持用户对图形对象的运动进行控制。n(2)图像分析n图像分析就是从图像中抽取可用于高层场景分析的描述信息。就图像本身而言,知道一个点的位置和颜色对于形状、位置、方向、距离、是否损坏等识别应用几乎没什么帮助。因此图像分析必须包含亮度和颜色的计算、场景中三维数据的部分或全部恢复、不连续处的定位及图像中均匀区域的特征捕述。n图像分析在许多领域有重要的应用,如航拍照片分析、空间探测传回的慢速扫描电视图像分析、工业机器人的视觉传感器所获得的电视图像分析等。n图像处理的子领域包括图像增强、
43、模式检测与识别、计算机视觉。第29页,本讲稿共35页2023/2/2129辽宁石油化工大学计算机与通信工程学院 刘旸7.3多媒体技术应用n多媒体计算机是多媒体技术最直接、最简单的表现形式,因其本身具有存储、运算、处理和显示的能力,具有独立的功能,如动画显示、播放VCD节目等。因此,多媒体计算机一出现便立即在家庭教育和娱乐等方面得到了广泛的应用。n但是,多媒体技术真正的意义在于与网络的结合,在于通过网络(局域网和广域网)为用户以多媒体的方式提供信息服务。n多媒体技术的几种典型业务包括:多媒体信息检索与查询多媒体会议与协同工作视频点播和网络流媒体多媒体信件等 第30页,本讲稿共35页2023/2/
44、2130辽宁石油化工大学计算机与通信工程学院 刘旸7.3.1多媒体信息检索与查询n多媒体信息检索与查询(Multimedia Information Service,简称MIS)系统和业务,最典型的应用是在商品购物、娱乐和旅游等方面。n如果仅仅根据类别、书名、关键字等对文本资料进行查询还只是普通的计算机查询业务,不属于多媒体技术。n从技术发展上来看,逐步改造原来查询文本资料的系统,使之同时具有活动图像和声音的查询能力,是这类检索查询业务发展的必然趋势。nMIS所涉及的两个重要的技术问题是:如何向用户提供丰富的信息和如何让用户快速、有效地查询与浏览这些信息;如何合理、有效地组织存储多媒体数据。n
45、信息检索与查询业务的发展引发了网上交易的商机,网上交易的顺利完成需要电子商务技术的帮助。虽然电子商务所涉及的主要技术,如身份认证、安全保障、网上货币交易等,并不属于多媒体技术。但是电子商务的发展无疑是推动MIS系统和业务发展的强大动力。第31页,本讲稿共35页2023/2/2131辽宁石油化工大学计算机与通信工程学院 刘旸7.3.2多媒体会议与协同工作n多媒体会议n可视电话和会议电视是早在多媒体出现之前就已经存在的人与人之间进行通信的手段。计算机支持的协同工作(Computer Supported Co-operative Work,简称CSCW)也是早在20世纪80年代初在计算机领域内提出的
46、概念。它是指用于支持多个用户共同参与一项工作(如共同编辑文件、修改设计图等)的计算机系统及其相关的技术,但合作者之间不能见面与交谈。多媒体的出现为这两种交流形式提供了结合的基础,其结合的结晶就是多媒体会议电视系统。n如果说一个系统已经超出了会议电视的范围,那么就进入了多媒体会议(或者远程诊断、远程教育)系统的范畴。该系统应该在比较高的水平上具备下述功能:具有比较复杂的协同工作功能,使得身处异地的人们可以同时使用同一种软件工作;能够以交互的操作方式从对方或某一方调取文件、图像等资料;能自动地记录和存储会议或者讲课等有关内容,会后可以随时调取。n从原理上讲,多媒体会议电视、多媒体远程医疗诊断和多媒
47、体远程教育所使用的是同类系统,只不过由于业务性质的不同,3种系统在一些非主要的技术方面,如工作界面、图像清晰度的要求、数据库的设计等有所不同而已。因此,在这里把它们当作同一类系统介绍。判断这类系统水平高低的主要标志是其协同工作功能的复杂程度。这也是此类系统在未来发展中,吸引着人们对其进行研究的最主要方面。n多媒体协同工作n多媒体协同工作(Multimedia Collaboration,简称MMC)的最终目标是希望使身处异地的人们,能够像处在同一房间内一样进行而对面的交谈和协商工作。为了实现这一目标,要走的路途还相当遥远,下面从技术的角度阐述一下其中可能遇到的问题。n从通信的角度看,MMC系统
48、是对通信系统要求最高的应用,它要求一点对多点,或者多点对多点的实时的不间断的信息传输。在复杂的协同工作系统中,还要实现“开小会”、“说悄悄话”、“传条子”等,并且要能够随时建立、撤销某些私有信道。n显示器的屏幕是平面的,无论屏幕上显示的景象是多么有立体感,人们仍然是身处其外,而不是身处其中。如何将虚拟显示与协同工作结合起来,使人们在虚拟的三维环境之中协同工作是目前多媒体领域中正在研究的课题之一。n人们会面时的第一个动作往往是一边握手、一边说“你好”。如果MMC终端可以用语言(不是键盘)输入并配有机器手,就可能使你感受到远方合作者向你握手问好的真实感觉。除了听觉和视觉外,将其他的感觉,如触觉、嗅
49、觉等结合到协同工作环境;或者将多媒体协同工作与机器人技术结合起来,使合作者能够共同进行除了屏幕上的工作以外的事情,这些都是研究者正在探索的问题。另外,当涉及视、听之外的其他形式的传感器时,通信机制的复杂程度会更高。第32页,本讲稿共35页2023/2/2132辽宁石油化工大学计算机与通信工程学院 刘旸7.3.3视频点播和网络流媒体n多媒体计算机出现以后,由于它具有以交互操作的方式调取包括伴音在内的活动图像的功能,立即导致了这样的构想:在电视节目中心(例如电视台),将节目以压缩后的数据形式存入图像数据库;用户在家里可以按照菜单调取任何一套节目,或者一套节目中的任何一段并能实现录像机的功能,即快进
50、、快退、重放、慢动作以及播放静止画面等,这种系统与业务就是点播电视(Video On Demand,简称VOD)。nVOD是最容易为人们从概念上理解和愿意接受的多媒体通信系统,在有的书籍中也把点播电视称为交互电视以突出它的交互特征。n从技术原理和使用功能上来说,VOD与多媒体信息检索与查询系统类似,但二者的业务特点却有很大不同。在多媒体信息检索与查询系统中,信息主要是以文本或图片的形式表达的,数据量比较小,即便是需要显示一些图像片段,持续时间一般不长,而且图像的活动性也不强。但是在VOD系统中,由信息中心送出的是数据率很高的电视节目,其中具有录像质量的信号的数据率为1.5Mb/s,质量更高的则