计算机体系结构浙江(1)教学内容.ppt

上传人:豆**** 文档编号:63551100 上传时间:2022-11-25 格式:PPT 页数:67 大小:1.81MB
返回 下载 相关 举报
计算机体系结构浙江(1)教学内容.ppt_第1页
第1页 / 共67页
计算机体系结构浙江(1)教学内容.ppt_第2页
第2页 / 共67页
点击查看更多>>
资源描述

《计算机体系结构浙江(1)教学内容.ppt》由会员分享,可在线阅读,更多相关《计算机体系结构浙江(1)教学内容.ppt(67页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、计算机体系结构浙江(1)四、四、Cache技术技术1为什么要引入Cache2为什么引入Cache能提高计算机性能?3Cache技术的发展五、多处理器技术五、多处理器技术1并行计算机体系结构分类2集中共享存储器型多处理计算机3分布式存储器型多处理器计算机4并行处理的难点六、我国计算机体系结构研究进展六、我国计算机体系结构研究进展 一、一、计算机体系结构学科发展回顾计算机体系结构学科发展回顾ComputerArchitecture定义应用机器语言的程序员为了能正确编写时序无关的程序所必须了解的计算机的结构。简单讲:计算机体系结构是一门设计计算机的学科,包括计算机的指令系统设计,结构设计,实现技术,

2、以及与系统软件操作系统和编译器相关的技术。1、计算机性能高速发展及其原因1946年第一台通用电子计算机ENIAS诞生至今仅56年每秒5000次运算加法计算机技术以惊人速度发展,并将继续高速发展1980年百万美元机器的性能比不上今年1CPI的作用:CPI数越小,CPU速度越快CPI数越大,CPU速度越慢CPU性能公式CPUtime=IC CPI CCCPUtime执行一段代码所需的中央处理器(CPU)时间IC代码的指令条数(InstructionCount),与指令集设计编译器的优化有关CPI平均执行每条指令的时钟周期数,与指令集设计、体系结构等技术有关CC时钟周期(ClockCycle)与计算

3、机组成,IC工艺等技术有关缩短CPI成为缩短CPUtime的主要技术途径RISC体系结构追求精减的指令集数据类型、寻址方式精减,指令长度统一,格式统一,提高流水线的效率,实现了每一时钟周期能执行一条指令(CPI=1)RISC体系结构进一步提出指令多发射技术即每一时钟周期可发射多条指令,执行多条指令,进一步实现CPI1CISC计算机速度提高较慢的原因传统CISC体系结构计算机的CPI5-8原因:以DEC公司的VAX机器为例,指令系统复杂,指令集有304条指令,指令长度:1Byte64Byte,操作数可达:0-6个,数据类型达十几种,寻址方式达几十种;采用微程序控制。导致流水线结构复杂,效率低下,

4、速度提高有困难目前几乎所有微处理器,包括传统著名的CISC微处理器,如Intel系列和Motorola系列微处理器都采用RISC体系结构2流水线技术这是理想流水线的性能:达到每一个时钟周期可以完成一条指令与指令串行执行相比较,速度提高5倍简介:流水线是一种多条指令重叠执行的实现技术流水线的竞争实际流水线不可能像上述理想流水线那样完美存在三种流水线竞争结构竞争:由硬件资源不足造成流水线停顿数据竞争:由前后指令之间存在数据相关性造成流水线停顿控制竞争:由转移指令造成流水线停顿 实际流水线的性能实际流水线的CPI=理想流水线的CPI+结构竞争造成的停顿周期+数据竞争造成的停顿周期+控制竞争造成的停顿

5、周期要提高CPU的性能就是要消除或减少三种竞争造成的停顿周期流水线竞争的解决结构竞争可以通过增加硬件资源来解决数据竞争和控制竞争只有通过挖掘代码指令之间的平行性,即通过开发和发现指令之间存在的可并行(重叠)执行的可能性,然后对指令执行顺序进行调度,即用不相关的指令来填补本来应该停顿周期的方法,达到消除或减少停顿周期,提高指令执行速度3指令级并行性(ILP)开发技术ILP开发技术分两大类:基于硬件的ILP开发技术,又称动态开发ILP技术基于软件的ILP开发技术,又称静态开发ILP技术用于解决数据竞争的ILP开发技术静态调度技术动态调度技术采用改名技术的动态调度技术编译分析数据相关性软件流水线路经

6、调度用于解决控制相关性的ILP开发技术静态转移预测技术动态转移预测技术静态投机技术动态投机技术循环体展开技术延时转移技术三、指令多发射技术三、指令多发射技术1指令多发射技术概述从CPUtime=ICCPICC公式出发,进一步提高CPU性能的途径是令CPI1要达到CPI1的目的,必须做到每个时钟周期发射多条指令,有多个处理部件和足够的硬件资源来并行处理多条指令,达到平均每条指令的处理时间小于1个时钟周期指令多发射处理器有两类:超标量处理器(Superscalarprocessors)超 长 指 令 字 处 理 器(VLIWvery longinstructionword)根据指令发射机制,即调度

7、、组织可同时发射指令的机制,也可分为两类:动态多发射机制,即由硬件在程序执行过程中调度静态多发射机制,即由编译器在程序编译过程中调度2超标量处理器超标量处理器流水线操作超标量处理器的特点在一个周期里能发射可变数量的指令,通常为18条指令/周期同时发射的指令按规定搭配,不能自由搭配,即有限制:如同时发射的指令必须是独立的,即无数据竞争,以及满足访存次数规定等等。采用静态调度(compiler完成)和/或动态调度(硬件完成)方法确定可同时发射的指令3超长指令字处理器(VLIW)VLIW处理器特点一次发射一条超长指令,其中包含7个操作,而不像超标量处理器那样一次发射多条指令在超长指令当中多个操作按规

8、定搭配顺序排列,即指令类型不能任意搭配,操作顺序不能任意颠倒VLIW究竟有多长?以一个拥有多个功能单元的VLIW处理器为例:设7个功能单元可支持:2个整数操作、2个FP操作、2个存储器访问操作和1个转移操作,这样这条含7个操作的VLIW的功能相当于7条指令,为支持每一功能单元正常工作,应分配每一功能单元相应的数据域;一般每个数据域为1624位这一VLIW长度为:16bits7=112 bits 或为:24bits7=168 bits比较:一个拥有7个功能单元的超标量处理器,一次发射7条指令,总长度为32 bits7=224 bits超长指令字的组装由编译器完成,即由编译器作静态调度,选择无相关

9、性指令按搭配顺序填入超长指令字为充分发挥VLIW处理器功能单元的作用,必须要有足够多的可并行执行指令提供给VLIW,编译器必须采用功能更强的全局调度技术4多发射处理器的技术难点程序固有指令级并行性有限是多发射处理器的本质困难,需要的可并行执行的指令数大致等于功能单元数乘以流水线级数。多发射处理器硬件数量多、速度快,且复杂性高,从而成本高。超标量处理器的特殊困难发射逻辑复杂且高速动态调度硬件极其复杂超长指令字处理器的特殊困难对编译器的要求高VLIW系列机二进制代码兼容困难四、四、CacheCache技术技术Cache一种小容量的高速缓冲存储器Cache在计算机中的位置1、为什么要引入Cache?

10、首先看一下CPU芯片速度与内存储器DRAM芯片速度的差别有多大CPU与DRAM速度差意味着什么?说明单纯地改善CPU的设计,一味追求提高CPU的速度,并不能提高计算机整机的性能,因为高速CPU的性能被低速的存储器访问所抵销。为了提高计算机整机性能,必须消除两者性能差,或者仅可能缩小两者性能差。解决办法在高速CPU与低速Memory之间引入一个小容量的高速缓冲存储器(Cache),Cache速度与CPU速度之差(不足1个数量级)远远小于CPU与DRAM速度差(3个数量级4个数量级),通过将存储器分级的方法来缓解这一巨大的速度差,提高计算机的性能。2、为什么引入Cache能提高计算机性能?问:既然

11、用作Cache的SRAM芯片的速度远远高于用作主存储器的DRAM芯片,那么为什么主存储器不用SRAM芯片来实现?答案:SRAM的价格远高于DRAM,而且主存储器的容量大,采用高速SRAM使成本急剧上升,因此从性能/价格综合考虑只能采用小容量的Cache。问:小容量的Cache能否满足程序存取指令和数据的需求?答案:计算机设计定量原理中有一条局部性原理告诉我们:程程序序总总是是倾倾向向于于重重用用那那些些刚刚刚刚用用过过的的数数据据和和指指令令,这是计算机程序非常重要的性质。局部性原理的另一种表述:程序90%的执行时间是花在10%的代码上。局部性原理告诉我们:可以根据程序最近访问的数据和指令来预

12、测程序将要调用的数据和指令,且这一预测正确度是比较高的。所以小容量的Cache能满足程序存取数据和指令的需求3.Cache技术的发展采用多级采用多级Cache1980年代的微处理器大多没有片上Cache,只有片外Cache2001年的微处理器大多都有2级片上Cache,再加上一级片外Cache增加增加Cache容量容量1980年代的片外Cache通常只有几十KB2001年的微处理器三级Cache的容量可达16MB采用各种优化技术采用各种优化技术来提高Cache性能,包括减少失配造成的代价减少失配率减少命中时间五、多处理器技术五、多处理器技术单处理器计算机性能是否已接近其极限?然而从1985起到

13、2000,这一段正是单处理器计算机性能突飞猛进的时代单处理器计算机至少在未来5年仍将以目前速度发展多处理器计算机将越来越重要的理由微处理器已主宰单处理器计算机技术,因此为了提高单处理器计算机性能而将多个微处理器连接起来就成为很自然的选择现在还不清楚使计算机体系结构不断创新的指令级并行技术能否继续无限地发展下去曾经是并行机发展障碍的软件有了新的发展和进展,主要是在服务器和嵌入式系统方面为多处理器计算机发展带来曙光1.并行计算机体系结构分类Flynn在1966年提出的计算机分类方法,即按指令流和数据流进行计算机分类的方法仍适用至今单指令流,单数据流(SISD)单处理器计算机单指令流,多数据流(SI

14、MD)矢量计算机多指令流,单数据流(MISD)市场上无此类计算机多指令流,多数据流(MIMD)通用多处理器并行计算机,是广泛应用的多处理器并行计算机体系结构MIMD多处理器计算机分类可按处理器数目,存储器组织以及互连网络的策略来分类按存储器组织进行分类的两种多处理器计算机:集中共享存储器体系结构分布式存储器体系结构2.集中共享存储器型多处理器计算机基本结构此类计算机适用于处理器数目相对较少的场合,对于只有几个、十几个处理器,有可能共享一个主存储器,以及采用总线实现处理器和主存的互连对于含有二、三十个处理器的机器需用多总线,甚至用交换器才能满足存储器带宽的要求 集中共享存储器型多处理器计算机只有

15、一个主存储器,对所有处理器都是对称的,访问存储器的时间都是均等的,所以这种体系结构又称为对称(共享存储器)处理器(SMP)集中共享存储器型多处理器是目前最成功的多处理器计算机 3.分布式存储器型多处理器计算机基本结构此类计算机适用于处理器相对较多的场合,可以是上百个、上千个、甚至数千个之多。此类计算机要求互连网络的带宽较高,通常采用交换机或多维网格实现处理器之间的直接互连。分布式存储器型体系结构的最大缺点是处理器之间的数据通信变得非常复杂(一致性问题),并且延时较长。4.并行处理的难点程序固有并行性不足,导致并行计算机很难达到理想的加速比处理器之间通信代价高(即延时长),同样将导致加速比下降六、我国计算机体系结构研究进展六、我国计算机体系结构研究进展过去重视多处理器并行计算机,即高性能计算机的研制,如银河系列超级计算机,以及不对外公布的军用超级计算机,曙光服务器运行速度已达万亿次/秒前不久对外宣布的“龙芯”研制成功的消息表明我国有能力研制高性能微处理器。龙芯相当于Intel1997推出的Pentium谢 谢此课件下载可自行编辑修改,仅供参考!此课件下载可自行编辑修改,仅供参考!感谢您的支持,我们努力做得更好!谢谢感谢您的支持,我们努力做得更好!谢谢

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁