《数字信号处理系统的实现下.ppt》由会员分享,可在线阅读,更多相关《数字信号处理系统的实现下.ppt(52页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、5.6 5.6 数字信号处理硬件数字信号处理硬件-数字信号处理器数字信号处理器一、数字信号处理器的发展概况一、数字信号处理器的发展概况1988年以来DSP的市场每年以40%的速度在增长,已超过了半导体的增长速度。预计到2007年DSP连同混合信号处理器件的市场将达到500亿美元。2003年DSP的市场为100多亿中国已占12%。1979年美国Intel公司发布的商用可编程器件2920是DSP芯片 1980 年,日本 NEC 公司推出的P D7720是第一个具有乘法器的商用 DSP 芯片。MOTOROLA的DSP56和DSP96系列,AD(模拟器件)公司的ADSP2100系列以及AT&T的DSP
2、16和DSP32系列。TI 公司在1982年成功推出其第一代 DSP 芯片 TMS32010及其系列产品之后相继推出了一系列DSP芯片。最早问世的最早问世的6种种DSP从运算速度来看,MAC(乘法/累加)时间已经从20世纪80年代初的400ns(如TMS32010)降低到10ns以下DSP芯片内部关键的乘法器部件从1980年的占模片区(die area)的40%左右下降到5%以下,先进的DSP芯片的片内已含有多个乘法器部件和算术逻辑单元,片内RAM的数量也增加了一个数量级以上。1980年采用4m NMOS工艺,而现在则普遍采用亚微米(Micron)CMOS工艺每隔每隔10年年DSP芯片的发展芯
3、片的发展年份19821992(97)2002工艺线宽(um)30.8(0.35)0.18MAC*(MIPS)540(100)2G时钟(MH)2080(200)500RAM(Words)1441K16KROM(Words)1.5K4K64K价格(美元)150151.5功耗(mv/MIPS)25012.50.1晶体管数50K5005M硅片尺寸3英寸6英寸(8英寸)12英寸*做一次乘法和累加计算的时间 二、二、DSP的特点的特点1)采用哈佛(Harvard)总线结构。与哈佛结构相关,DSP芯片广泛采用流水线操作以减少指令执行时间冯氏结构CLKOUT1执行译码取指NN1N2N1N1N2NN12)具有高
4、速阵列乘法器等专用硬件。精度至少为1616位定点,一些DSP的片内已含有4040位的浮点乘法器。3)具有高速的片内数据存储器和程序存储器。对于一些简单、单一的操作,例如卷积、相关等,可以在片内完成,避免与外部的低速存储器打交道。新近的DSP产品均为双端口片内RAM。l乘法/累加指令l位反转寻址模式l数据移动操作l饱和溢出处理l重复指令4)具有满足信号处理应用要求的一些特殊指令。l并行接口l串行接口lDMAl多处理器并行的链路接口l全局存储器的控制逻辑和接口5)具有高速的I/O接口。三、三、TMS320系列数字信号处理器系列数字信号处理器TI公司于1982年推出了其第一代DSP产品TMS3201
5、0,目前已发展到两大类9个分支系列产品,两大类为浮点和定点,9个分支系列分别满足不同的需要。C2000 DSPTI C28x DSP Core:The worlds first control optimized DSPsMotorMotorControl Control DSPDSPTI C55x DSP Core:The worlds lowest mW/MIPS DSPsC5000 DSPPersonal Personal DSPDSPC6000 DSPTI C64x DSP Core:The worlds highest performance DSPsBroadbandBroadba
6、ndInfrastructureInfrastructureDSPDSP三种主要三种主要 DSP芯芯片片TMS320C2000系列系列 l比8位或16位微控制器(MCU)速度更快、更灵活、功能更强的、面向控制的微处理器。l主要应用包括:电源功率控制、电机控制、制冷系统、可调激光器、不间断电源等。lC24X系列为16位定点DSP芯片。lC28X系列为TI近年新推出的32位定点DSP芯片。TMS320C2000系列系列 C24X系列。l指令周期大约在50-25ns之间。l在指令方面有许多特殊功能的指令,如寻址方面有位反转寻址用于支持基二FFT运算,以及支持LMS自适应滤波或浮点归一化等运算的指令。
7、lC24X有两套数据总线,即数据读总线和数据写总线,可以在一个机器周期内同时读写数据。lC24x系列的芯片具有事件管理器,以便支持马达控制。该事件管理器具有三个加/减定时器和九个比较器。TMS320C2000系列系列 C28X系列。lTI近年新推出的32位定点DSP芯片。l其乘法器可以执行3232位的乘法,得到64位的结果,参与乘法的两个乘数可以是带符号的数、不带符号的数或一个带符号的数而另一个为不带符号的数。lC28X支持32位单周期指令,其数据地址为32位,程序地址为22位,可以访问4G字(16位)的数据空间和4M字的程序空间。TMS320C5000系列系列目前,TMS320C5000主要
8、有两大系列即TMS320C54x和TMS320C55x,这是目前最先进的定点DSP芯片。Copyright 2003 Texas Instruments.All rights reserved.Copyright 2003 Texas Instruments.All rights reserved.应用范围:Internet Appliances Set-Top Boxes(STBs)Gaming Consoles Digital Cameras Digital Music Players Electronic Books(eBooks)Personal Digital Assistants(
9、PDAs)Home Networking,Etc.TMS320C54x xl指令速率30-500 MIPS,32位长操作数指令。l低功耗,供电电压最低的芯片仅为1V。l三组16位数据总线和一组程序总线。l40位ALU,40位定标移位器和两个独立的40位ACC。l1717位乘法器,连接一个 40位的专用加法器,非流水的单周期乘法/累加。l比较、选择和存储单元(CSSU),支持Viterbi算法。l单周期指令支持浮点数的归一化和指数编码。l新的单周期指令提高了信号处理的效率,例如,对称系数的线性相位FIR滤波。TMS320C55x在功耗方面它进一步降低,TMS320C54x 的功耗是0.32mW/
10、MIPS,而TMS320C55x 的功耗只有0.05mW/MIPS两个乘法/累加器MAC两个算术逻辑单元ALU四个40位的累加器8位至48位可变长度。其指令速率高达600 MIPSTMS320C6000系列系列 l定点芯片系列TMS320C62x、TMS320C64x和浮点芯片系列TMS320C67x。l“非常长指令字VLIW(Very-long instruction word)”的结构。l对于TMS320C62x其片内含有两个乘法器和6个算术逻辑单元,其CPU在一个时钟周期内可执行高达十条指令,因而其处理速率高达1200-2400MIPS,其片内含有1M位的RAM,程序RAM和数据RAM各
11、占512k位。TMS320C6000系列系列 lTMS320C64x 在TMS320C62x的基础上又有很大的改进,是第二代VLIW结构的DSP芯片,它的时钟速率高达1GHz,处理速率比TMS320C62x 提高了一倍以上,达3200-4800 MIPS。l由于在指令功能、并行度方面的改进其性能至少比TMS320C62x提高了十倍以上。l其应用面向第三代移动通信和图象处理,TMS320C64x 专门设计了为这些应用服务的特殊指令,而在功耗方面,它仅为第一代芯片的三分之一。TMS320C6000系列系列 TMS320C67xl两个浮点/定点乘法器、四个浮点/定点ALU、两个定点ALU。l浮点处理
12、速率高达600MFLOPS-1GFLOPS。lTMS320C67x的代码与引脚与TMS320C62x兼容TMS320C5000的结构原理的结构原理TMS320C5000主要有两大系列即TMS320C54x和TMS320C55x。C54x系列的DSP芯片内部CPU的结构上是完全相同的,只是在芯片的工作电压、片内存储器容量和外围接口电路上存在着差别。C55x是在C54x的基础上发展起来的,其指令完全与C54x兼容TMS320C54x的结构特点的结构特点TMS320C54x有一组程序总线和三组数据总线,两组数据总线(CB和DB)用于传送从数据存储器读出的操作数,一组数据总线(EB)用于传送写入到数据
13、存储器的数据,C54x可以在一个周期里完成两个读和一个写操作。20K字程序ROM4K字程序/数据RAM8K字程序/数据RAMIEEE1149.1标准扫描逻辑1717 MPY40位 加法器Round satuateMAC40位 ALUCMPS OperatorViterbi 加速器指数编码器ALU40位定标移位器(-16,31)移位器40位 ACC A40位ACC B累加器8 辅助寄存器2 寻址单元寻址单元标准串行口 0标准串行口1定时器软件可编程等待状态发生器PLL Clock GeneratorOpt X1,1.5,2,3Opt X1,4,4,5,58位并行主机接口A(15-0)D(15-0
14、)TMS320C542的结构框图总线1)中央处理单元40位算术逻辑单元(ALU)两个累加器,即ACC A 和ACC B定标移位器能将来自累加器或存储器的输入数据进行0到31位的左移和0到16位的右移。1717位的并行乘法器,连接一个40位的专用加法器比较、选择和存储单元(CSSU)指数编码器2)中央存储组织大部分C54系列芯片均含有片内ROM片内RAM包括片内双口RAM(DRAM),和片内单口RAM(SRAM)八个16位的辅助寄存器(AR0-AR7)能被中央算逻单元CALU访问,也能被辅助寄存器算术单元ARAU修改系统控制IEEE1149.1标准扫描逻辑电路用于仿真和测试,它提供对所连设备的边
15、界扫描。3)系统控制系统控制包括连接内部振荡器或外部时钟源的锁相环(PLL)发生器、支持8位或16位传送的全双工串口、时分多路(TMD)串口、缓冲串口(BSP)、8位并行主机接口、16位硬件定时器、软件可编程等待状态发生器和可编程的存储单元转换等。4)IEEE1149.1标准扫描逻辑IEEE1149.1标准扫描逻辑电路用于仿真和测试,它提供对所连设备的边界扫描。同时,它也能用来测试引脚到引脚的连续性,以及完成C54x外围器件的操作测试。IEEE1149.1标准扫描逻辑与访问片内所有资源的内部扫描逻辑电路相连。因而,C54x能使用IEEE1149.1标准串行扫描引脚和专用仿真引脚来完成在线仿真。
16、5)指令功能大大加强它提供了七种基本的数据寻址方式,与C25相比,增加了绝对地址寻址、累加器寻址、存储器映射寄存器寻址和堆栈寻址。特别是间接寻址,不仅可以在一个指令中完成一次读或写的操作(单操作寻址),也可以在一个指令中完成访问两个存储单元的操作(双操作寻址),甚至还可以进行取模运算完成循环寻址。C54x支持存储块移动更便于程序和数据的管理。C54x不仅能重复执行单条指令还具有重复执行一段包含若干条指令的程序块的能力。表5.3 TMS320C54X的间接寻址序号操作数句法功 能说 明0*ARx地址=ARxARx中的内容作为数据存储器的地址1*ARx-地址=ARxARx=ARx-1寻址结束后,A
17、Rx中的地址值减1注12*ARx+地址=ARXARx=ARx+1寻址结束后,ARx中的地址值增1注13*+ARxARx=ARx+1地址=ARx+1ARx中的地址值增1后再寻址注24*ARx-0B地址=ARxARx=B(ARx-AR0)寻址结束后,用反向传送借位的方法从ARx中减去AR0的值5*ARx-0地址=ARxARx=ARx-AR0寻址结束后,从ARx中减去AR0的值6*ARx+0地址=ARxARx=ARx+AR0寻址结束后,将AR0中的值加至ARx7*ARx+0B地址=ARxARx=B(ARx+AR0)寻址结束后,用反向传送进位的方法将AR0加至ARx8*ARx-%地址=ARxARX=C
18、irc(ARx-1)寻址结束后,ARx中的地址值按循环减的方法减1注1表5.3 TMS320C54X的间接寻址9*ARx-0%地址=ARxARx=Circ(ARx-AR0)寻址结束后,按循环减的方法从ARx中减去AR0中的值10*ARx+%地址=ARxARx=Circ(ARx+1)寻址结束后,ARx中的地址值按循环加的方法增1注111*ARx+0%地址=ARxARx=Circ(ARx+AR0)寻址结束后,按循环加的方法,将AR0中的值加至ARx12*ARx(lk)地址=ARx+lkARx=ARx以ARx与16位数之和作为数据存储器的地址,寻址结束后,ARx中的值不变13*+ARx(lk)地址=
19、ARx+lkARx=ARx+lk将一个16位带符号数加至ARx后进行寻址14*+ARx(lk)%地址=Circ(ARx+lk)ARx=Circ(ARx+lk)将一个16位带符号数按循环加的方法加至ARx,然后再寻址15*(lk)地址=lk利用16位无符号数作为地址寻址数据存储器(相当于绝对寻址方式)例例7 当前辅助寄存器AR1=0200H,以此做为输入数据的基地址,顺序读入八个数即N=8,但按位反转存放。按时间抽取的按时间抽取的8点点FFT解解 开始对AR0赋值为N/2=4,执行以下两条程序即可:RPT#7PORTR *AR1+0 B,PA0RPTC=7使得下一条指令重复执行八次;第二条为输入
20、语句,从PA0口输入八个数据,即x(0),x(1),x(7),按照指定的间接寻址方式存放。间接地址AR1的内容,分别为:AR1 AR1=0200H初始值AR1+AR0 AR1=0204H第1次变址AR1+AR0 AR1=0202H第2次变址AR1+AR0 AR1=0206H第3次变址AR1+AR0 AR1=0201H第4次变址AR1+AR0 AR1=0205H第5次变址AR1+AR0 AR1=0203H第6次变址AR1+AR0 AR1=0207H第7次变址浮点数的尾数进行归一化处理例例 EXPA;计算累加器A中的;归一化指数ST T,EXP;将T寄存器中的指数存;入名为EXP的单元NORMA;
21、对累加器A归一化处理TMS320C55x的结构特点:的结构特点:1)先进的电源管理系统 它监视着片内的外围设备、存储器阵列、各个CPU单元等部分,如果某一部分不在工作,便自动切断其电源。2)支持可变长度指令指令长度可以是8位、16位、24位、32位、40位或48位;指令读取由16位增至32位;片内指令缓存器自动分解指令,充分利用每一时钟周期。3)提高并行度 硬 件 上 采 用 双 1717位 乘 法/累 加 器(MAC),四个40位累加器(ACC),新增四个数据寄存器和一个16位算术逻辑单元(ALU);新增并行指令,包括用户可编程并行指令;新增总线和扩展寻址部件,从而保证硬件能充分发挥作用。这
22、些包括三组16位数据读总线,两组16位数据写总线,一组32位程序总线,六组24位地址总线。4)32位宽度的扩展存储器接口 可与外部的高速低成本存储器相连,包括同步的高速DRAM、SRAM以及异步的DRAM、SRAM、ROM和闪存。5)新型的评估硬件 C55x片内含有先进的评估硬件,提高了Debug的速度,简化了Debug的过程。OMAP 的硬件结构lDual MAC with Video HWAl24 KB icachel160 KB SRAM,32KB ROMlHardware accelerators for video algorithmsl24 KB cachelData and in
23、struction MMUsl32-bit and 16-bit instruction setsl192 KB shared SRAMlTwo 16-bit memory interfaces for SDRAM and FlashlNine-channel system DMA controllerlLCD controllerlUSB 1.1.host and clientlMMC/SD card interfacelEight serial ports plus three UARTslEight timerslReal-time clocklKeyboard interfacel18
24、 GPIO pinsTMS320C55xTM DSPARM925 MPUPeripherals and on-chip ResourcesFlash16OMAP5910/1510ARM SharedTraffic Ctrl75 MHzARM PrivatePackaging:12mm x 12mm 289-ball MicroStar BGA3232IMIF323232323216DSP SharedDSP PrivateSystem SharedEMIFFEMIFSSDRAM16SystemDMALCDCtrlSRAM1.5 MbTMS320C55xTM Core150 MHzDSPARMT
25、I-Enhanced ARM925 Core150 MHzARM(Advanced RISC Machines)ARM(Advanced RISC Machines)是微处理器行业的一家知名企业,设计了大量高性能、廉价、耗能低的RISC处理器、相关技术及软件。技术具有性能高、成本低和能耗省的特点。ARM将其技术授权给世界上许多著名的半导体、软件和OEM厂商,每个厂商得到的都是一套独一无二的ARM相关技术及服务。利用这种合伙关系,ARM很快成为许多全球性RISC标准的缔造者。ARM的主要特点面向低成本市场设计的第一款RISC微处理器。所有产品均采用一个通用的软件体系,所以相同的软件可在所有产品中运行(理论上如此)。小型、快速、低能耗、集成式RISC内核。ARM在手持设备市场占有90%以上的份额。