第4章 指令级并行计算机组成与结构.PPT

上传人:奉*** 文档编号:96597289 上传时间:2024-01-17 格式:PPT 页数:135 大小:1.77MB
返回 下载 相关 举报
第4章 指令级并行计算机组成与结构.PPT_第1页
第1页 / 共135页
第4章 指令级并行计算机组成与结构.PPT_第2页
第2页 / 共135页
点击查看更多>>
资源描述

《第4章 指令级并行计算机组成与结构.PPT》由会员分享,可在线阅读,更多相关《第4章 指令级并行计算机组成与结构.PPT(135页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、1 1*/13*/13第4章 指令级并行2 2*/13*/134.1指令级并行的概念4.2指令的动态调度4.3动态分支预测技术4.4多指令流出技术4.5循环展开和指令调度3 3*/13*/13几乎所有的处理机都利用流水线来使指令重叠并行执行,以达到提高性能的目的。这种指令之间存在的潜在并行性称为指令级并行。(ILPILP:Instruction-Level ParallelismInstruction-Level Parallelism)本章研究:如何通过各种可能的技术,获得更多的指令级并行性。硬件软件技术硬件软件技术 必须要硬件技术和软件技术互相配合,才能够最大必须要硬件技术和软件技术互相配

2、合,才能够最大限度地挖掘出程序中存在的指令级并行。限度地挖掘出程序中存在的指令级并行。4.1 指令级并行4.1.1 指令级并行的概念4 4*/13*/134.1 指令级并行1.流水线处理机的实际CPI理想流水线的CPI加上各类停顿的时钟周期数:CPICPI流水线流水线 =CPI=CPI理想理想 +停顿停顿结构冲突结构冲突 +停顿停顿数据冲突数据冲突 +停顿停顿控制冲突控制冲突理想CPI是衡量流水线最高性能的一个指标。IPC:Instructions Per Cycle (每个时钟周期完成的指令条数)(每个时钟周期完成的指令条数)2.基本程序块基本程序块:一段除了入口和出口以外不包含其他分支的线

3、性代码段。程序平均每57条指令就会有一个分支。5 5*/13*/134.1 指令级并行3.循环级并行:使一个循环中的不同循环体并行执行。开发循环体中存在的并行性q最常见、最基本最常见、最基本指令级并行研究的重点之一 例如,考虑下述语句:for for(i=1i=1;i=500i2n2)分支预测的性能差不多。)分支预测的性能差不多。两位分支预测的状态转换如下所示:5858*/13*/134.3 动态分支预测技术两位分支预测中的操作有两个步骤:q分支预测。分支预测。n当分支指令到达译码段当分支指令到达译码段(IDID)时,根据从时,根据从BHTBHT读出读出的信息进行分支预测的信息进行分支预测 。

4、n若预测正确,就继续处理后续的指令,流水线没有若预测正确,就继续处理后续的指令,流水线没有断流。否则,就要作废已经预取和分析的指令,恢断流。否则,就要作废已经预取和分析的指令,恢复现场,并从另一条分支路径重新取指令。复现场,并从另一条分支路径重新取指令。q状态修改。状态修改。4.BHT方法只在以下情况下才有用:判定分支是否成功所需的时间大于确定分支目标地址所需的时间。5959*/13*/134.3 动态分支预测技术前述前述5 5段经典流水线段经典流水线:由于判定分支是否成功和计算:由于判定分支是否成功和计算分支目标地址都是在分支目标地址都是在IDID段完成,所以段完成,所以BHTBHT方法不会

5、给方法不会给该流水线带来好处。该流水线带来好处。5.研究结果表明:对于SPEC89测试程序来说,具有大小为4K的BHT的预测准确率为82%99%。一般来说,采用一般来说,采用4K4K的的BHTBHT就可以了。就可以了。6.BHT可以跟分支指令一起存放在指令Cache中,也可以用一个专门的硬件来实现。6060*/13*/134.3 动态分支预测技术目标:将分支的开销降为 0方法:分支目标缓冲将分支成功的分支指令的地址和它的分支目标地址都放到一个缓冲区中保存起来,缓冲区以分支指令的地址作为标识。这个缓冲区就是分支目标缓冲器(Branch-Target Buffer,简记为BTB,或者Branch-

6、Target Cache)。4.3.2 采用分支目标缓冲器BTB6161*/13*/134.3 动态分支预测技术1.BTB的结构 6262*/13*/134.3 动态分支预测技术看成是用专门的硬件实现的一张表格。表格中的每一项至少有两个字段:q执行过的成功分支指令的地址;执行过的成功分支指令的地址;(作为该表的匹配标识(作为该表的匹配标识)q预测的分支目标地址。预测的分支目标地址。2.采用BTB后,在流水线各个阶段所进行的相关操作:6464*/13*/134.3 动态分支预测技术3.采用BTB后,各种可能情况下的延迟:指令在指令在BTBBTB中?中?预测预测 实际情况实际情况 延迟周期延迟周期

7、 是是 成功成功 成功成功 0 0 是是 成功成功 不成功不成功 2 2 不是不是 成功成功 2 2 不是不是 不成功不成功 0 0 6565*/13*/134.3 动态分支预测技术4.BTB的另一种形式 在分支目标缓冲器中存放一条或者多条分支目标处的指令。有三个潜在的好处:q更快地获得分支目标处的指令;更快地获得分支目标处的指令;q可以一次提供分支目标处的多条指令,这对于多流出可以一次提供分支目标处的多条指令,这对于多流出处理器是很有必要的;处理器是很有必要的;q使我们可以进行称为使我们可以进行称为分支折叠分支折叠(branch foldingbranch folding)的的优化。优化。实

8、现零延迟无条件分支,甚至有时还可以做到实现零延迟无条件分支,甚至有时还可以做到零延迟条件分支。零延迟条件分支。6666*/13*/136767*/13*/134.3 动态分支预测技术前瞻执行(speculation)的基本思想:对分支指令的结果进行猜测,并假设这个猜测总是对的,然后按这个猜测结果继续取、流出和执行后续的指令。只是执行指令的结果不是写回到寄存器或存储器,而是放到一个称为ROB(ReOrder Buffer)的缓冲器中。等到相应的指令得到“确认”(commit)(即确实是应该执行的)之后,才将结果写入寄存器或存储器。4.3.3 基于硬件的前瞻执行6868*/13*/134.3 动态

9、分支预测技术1.基于硬件的前瞻执行结合了三种思想:动态分支预测。用来选择后续执行的指令。在控制相关的结果尚未出来之前,前瞻地执行后续指令。用动态调度对基本块的各种组合进行跨基本块的调度。2.对Tomasulo算法加以扩充,就可以支持前瞻执行。把Tomasulo算法的写结果和指令完成加以区分,分成两个不同的段:写结果写结果,指令确认指令确认 6969*/13*/134.3 动态分支预测技术写结果段q把前瞻执行的结果写到把前瞻执行的结果写到ROBROB中;中;q通过通过CDBCDB在指令之间传送结果,供需要用到这些结果在指令之间传送结果,供需要用到这些结果的指令使用。的指令使用。指令确认段 在分支

10、指令的结果出来后,对相应指令的前瞻执行在分支指令的结果出来后,对相应指令的前瞻执行给予确认。给予确认。q如果前面所做的猜测是对的,把在如果前面所做的猜测是对的,把在ROBROB中的结果写到中的结果写到寄存器或存储器。寄存器或存储器。q如果发现前面对分支结果的猜测是错误的,那就不予如果发现前面对分支结果的猜测是错误的,那就不予以确认,并从那条分支指令的另一条路径开始重新执以确认,并从那条分支指令的另一条路径开始重新执行。行。7070*/13*/134.3 动态分支预测技术3.实现前瞻的关键思想:允许指令乱序执行,但必须顺序确认。4.支持前瞻执行的浮点部件的结构 7272*/13*/134.3 动

11、态分支预测技术ROB中的每一项由以下4个字段组成:q指令类型指令类型 指出该指令是分支指令、指出该指令是分支指令、storestore指令或寄存器操作指令。指令或寄存器操作指令。q目标地址目标地址 给出指令执行结果应写入的目标寄存器号(如果是给出指令执行结果应写入的目标寄存器号(如果是 loadload和和ALUALU指令)或存储器单元的地址(如果是指令)或存储器单元的地址(如果是storestore指指 令)。令)。q数据值字段数据值字段 用来保存指令前瞻执行的结果,直到指令得到确认。用来保存指令前瞻执行的结果,直到指令得到确认。q就绪字段就绪字段 指出指令是否已经完成执行并且数据已就绪。指

12、出指令是否已经完成执行并且数据已就绪。7373*/13*/134.3 动态分支预测技术Tomasulo算法中保留站的换名功能是由ROB来完成的。5.采用前瞻执行机制后,指令的执行步骤:(在(在TomasuloTomasulo算法的基础上改造的算法的基础上改造的)流出 q从浮点指令队列的头部取一条指令。从浮点指令队列的头部取一条指令。q如果有空闲的保留站(设为如果有空闲的保留站(设为r r)且有空闲的)且有空闲的ROBROB项(设项(设为为b b),就流出该指令,并把相应的信息放入保留站),就流出该指令,并把相应的信息放入保留站r r和和ROBROB项项b b。q如果保留站或如果保留站或ROBR

13、OB全满,便停止流出指令,直到它们全满,便停止流出指令,直到它们都有空闲的项。都有空闲的项。7474*/13*/134.3 动态分支预测技术执行 q如果有操作数尚未就绪,就等待,并不断地监测如果有操作数尚未就绪,就等待,并不断地监测CDBCDB。(检测检测RAWRAW冲突冲突)q当两个操作数都已在保留站中就绪后,就可以执行该指当两个操作数都已在保留站中就绪后,就可以执行该指令的操作。令的操作。写结果 q当结果产生后,将该结果连同本指令在流出段所分配到当结果产生后,将该结果连同本指令在流出段所分配到的的ROBROB项的编号放到项的编号放到CDBCDB上,经上,经CDBCDB写到写到ROBROB以

14、及所有等待以及所有等待该结果的保留站。该结果的保留站。q释放产生该结果的保留站。释放产生该结果的保留站。q storestore指令指令在本阶段完成,其操作为在本阶段完成,其操作为:7575*/13*/134.3 动态分支预测技术n如果要写入存储器的数据已经就绪,就把该数如果要写入存储器的数据已经就绪,就把该数据写入分配给该据写入分配给该storestore指令的指令的ROBROB项。项。n否则,就监测否则,就监测CDBCDB,直到那个数据在,直到那个数据在CDBCDB上播送上播送出来,这时才将之写入分配给该出来,这时才将之写入分配给该storestore指令的指令的ROBROB项项。确认 对

15、分支指令、storestore指令以及其他指令的处理不同:q其他指令其他指令(除分支指令和除分支指令和storestore指令)指令)当该指令到达当该指令到达ROBROB队列的头部而且其结果已经队列的头部而且其结果已经就绪时,就把该结果写入该指令的目标寄存器,并从就绪时,就把该结果写入该指令的目标寄存器,并从ROBROB中删除该指令。中删除该指令。7676*/13*/134.3 动态分支预测技术qstorestore指令指令 处理与上面类似,只是它把结果写入存储器。处理与上面类似,只是它把结果写入存储器。q分支指令分支指令 n当预测错误的分支指令到达当预测错误的分支指令到达ROBROB队列的头

16、部时,队列的头部时,清空清空ROBROB,并从分支指令的另一个分支重新开始,并从分支指令的另一个分支重新开始执行。执行。(错误的前瞻执行)(错误的前瞻执行)n当预测正确的分支指令到达当预测正确的分支指令到达ROBROB队列的头部时,队列的头部时,该指令执行完毕。该指令执行完毕。7777*/13*/134.3 动态分支预测技术 例例4.34.3 假设浮点功能部件的延迟时间为:加法假设浮点功能部件的延迟时间为:加法2 2个时钟周期,个时钟周期,乘法乘法1010个时钟周期,除法个时钟周期,除法4040个时钟周期。对于下面的代码段,给个时钟周期。对于下面的代码段,给出当指令出当指令MUL.DMUL.D

17、即将确认时的状态表内容。即将确认时的状态表内容。L.D L.DF6,34F6,34(R2R2)L.D L.DF2,45F2,45(R3R3)MUL.D F0,F2,F4 MUL.D F0,F2,F4 SUB.D F8,F6,F2 SUB.D F8,F6,F2 DIV.D F10,F0,F6 DIV.D F10,F0,F6 ADD.D F6,F8,F2 ADD.D F6,F8,F27878*/13*/134.3 动态分支预测技术名称名称 保留站保留站 Busy Op Vj Vk Qj Qk Dest A Add1 no Add2 no Add3 no Mult1 no MUL Mem45+Reg

18、sR2 RegsF4#3 Mult2 yes DIV Mem34+RegsR2#3#5 前瞻执行中MUL.D确认前,保留站和ROB的状态 项号项号 ROB Busy 指令指令 状态状态 目的目的 Value 1 no L.D F6,34(R2)确认确认 F6 Mem34+RegsR2 2no L.D F2,45(R3)确认确认 F2 Mem45+RegsR3 3yes MUL.D F0,F2,F4 写结果写结果 F0#2RegsF4 4yes SUB.D F8,F6,F2 写结果写结果 F8#1#2 5yes DIV.D F10,F0,F6 执行执行 F10 6yes ADD.D F6,F8,

19、F2 写结果写结果 F6#4#2 字段字段 浮点寄存器状态浮点寄存器状态 F0 F2 F4 F6 F8 F10 F30 ROB项编号 3645Busy yes no no yes yes yes no8080*/13*/134.3 动态分支预测技术6.前瞻执行通过ROB实现了指令的顺序完成。能够实现精确异常。很容易地推广到整数寄存器和整数功能单元上。主要缺点:所需的硬件太复杂。8181*/13*/13一个时钟周期内流出多条指令,CPI1。单流出和多流出处理机执行指令的时空图对比 4.4 多指令流出技术8282*/13*/13单流出和多流出处理机执行指令的时空图单流出和多流出处理机执行指令的时空

20、图 4.4 多指令流出技术8383*/13*/134.4 多指令流出技术1.多流出处理机有两种基本风格超标量(Superscalar)q在每个时钟周期流出的指令条数在每个时钟周期流出的指令条数不固定不固定,依代码的具,依代码的具体情况而定。(有上限)体情况而定。(有上限)q设这个上限为设这个上限为n n,就称该处理机为,就称该处理机为n n流出。流出。q可以通过编译器进行静态调度,也可以基于可以通过编译器进行静态调度,也可以基于TomasuloTomasulo算法进行动态调度。算法进行动态调度。超长指令字VLIW(Very Long Instruction Word)q在每个时钟周期流出的指令

21、条数是在每个时钟周期流出的指令条数是固定的固定的,这些指令,这些指令构成一条长指令或者一个指令包。构成一条长指令或者一个指令包。q指令包中,指令之间的并行性是通过指令显式地表示指令包中,指令之间的并行性是通过指令显式地表示出来的。出来的。q指令调度是由编译器静态完成的。指令调度是由编译器静态完成的。8484*/13*/134.4 多指令流出技术2.超标量处理机与VLIW处理机相比有两个优点:超标量结构对程序员是透明的,因为处理机能自己检测下一条指令能否流出,从而不需要重新排列指令来满足指令的流出。即使是没有经过编译器针对超标量结构进行调度优化的代码或是旧的编译器生成的代码也可以运行,当然运行的

22、效果不会很好。q要想达到很好的效果,方法之一:要想达到很好的效果,方法之一:使用动态超标量调度技术。使用动态超标量调度技术。3.下表列出了一些基本的多流出技术、这些技术的特点以及采用这些技术的处理机例子。技技 术术 流出流出结构结构 冲突冲突检测检测 调调 度度 主要特点主要特点 处理机实例处理机实例 超标量超标量(静态)(静态)动态动态 硬件硬件 静态静态顺序执行顺序执行 Sun UltraSPARC/超标量超标量(动态)(动态)动态动态 硬件硬件 动态动态部分乱序执行部分乱序执行 IBM Power2 超标量超标量(猜测)(猜测)动态动态 硬件硬件 带有猜带有猜测的动测的动态执行态执行 带

23、有猜测的带有猜测的乱序执行乱序执行 Pentium/4,MIPS R10K,Alpha 21264,HP PA 8500,IBM RS64 VLIW/LIW 静态静态 软件软件 静态静态流出包之间流出包之间没有冲突没有冲突 Trimedia,i860 EPIC 主要是主要是静态静态 主要是主要是软件软件 主要是主要是静态静态相关性被编译相关性被编译器显式地标记器显式地标记出来出来 Itanium 8686*/13*/134.4 多指令流出技术在典型的超标量处理器中,每个时钟周期可流出1到8条指令。指令按序流出,在流出时进行冲突检测。在当前流出的指令序列中,不存在数据冲突或者相在当前流出的指令序

24、列中,不存在数据冲突或者相关冲突。关冲突。举例:一个4流出的静态调度超标量处理机 在取指令阶段,流水线将从取指令部件收到14条指令(称为流出包)。q在一个时钟周期内,这些指令有可能是全部都能流出,在一个时钟周期内,这些指令有可能是全部都能流出,也可能是只有一部分能流出。也可能是只有一部分能流出。4.4.1 基于静态调度的多流出技术8787*/13*/134.4 多指令流出技术流出部件检测结构冲突或者数据冲突。一般分两阶段实现:一般分两阶段实现:q第一阶段:第一阶段:进行流出包内的冲突检测,选出初步判定进行流出包内的冲突检测,选出初步判定可以流出的指令。可以流出的指令。q第二阶段:第二阶段:检测

25、所选出的指令与正在执行的指令是否检测所选出的指令与正在执行的指令是否有冲突。有冲突。MIPS处理机是怎样实现超标量的呢?假设:每个时钟周期流出两条指令:1 1条整数型指令条整数型指令1 1条浮点操作指令条浮点操作指令q其中,把其中,把loadload指令、指令、storestore指令、分支指令归类为整指令、分支指令归类为整数型指令。数型指令。8888*/13*/134.4 多指令流出技术1.要求:同时取两条指令(64位),译码两条指令(64位)。2.对指令的处理包括以下步骤:从Cache中取两条指令。确定哪几条指令可以流出(02条指令)。把它们发送到相应的功能部件。3.双流出超标量流水线中指

26、令的执行过程 假设:所有的浮点指令都是加法指令,其执行时间为两个时钟周期。为简单起见,下图中总是把整数指令放在浮点指令的前面。8989*/13*/134.4 多指令流出技术指令类型指令类型 流水线工作情况流水线工作情况 整数指令整数指令 IF ID EX MEM WB 浮点指令浮点指令 IF ID EX EXMEMWB 整数指令整数指令 IF ID EX MEM WB 浮点指令浮点指令 IF ID EX EXMEMWB 整数指令整数指令 IF ID EX MEM WB 浮点指令浮点指令 IF ID EX EXMEMWB 整数指令整数指令 IF ID EX MEM WB 浮点指令浮点指令 IF

27、ID EX EXMEM9090*/13*/134.4 多指令流出技术4.采用“1条整数型指令1条浮点指令”并行流出的方式,需要增加的硬件很少。5.浮点load或浮点store指令将使用整数部件,会增加对浮点寄存器的访问冲突。增设一个浮点寄存器的读/写端口。6.由于流水线中的指令多了一倍,定向路径也要增加。9191*/13*/134.4 多指令流出技术7.限制超标量流水线的性能发挥的障碍。load指令 qloadload后续后续3 3条条指令都不能使用其结果,否则就会引起停顿。指令都不能使用其结果,否则就会引起停顿。分支延迟 q如果分支指令是流出包中的第一条指令,则其延迟是如果分支指令是流出包中

28、的第一条指令,则其延迟是3 3条条指令指令;q否则就是流出包中的第二条指令,其延迟就是否则就是流出包中的第二条指令,其延迟就是两条指令。两条指令。9292*/13*/134.4 多指令流出技术扩展Tomasulo算法:支持两路超标量q每个时钟周期流出两条指令;每个时钟周期流出两条指令;q一条是整数指令,另一条是浮点指令。一条是整数指令,另一条是浮点指令。1.采用一种比较简单的方法指令按顺序流向保留站,否则会破坏程序语义。将整数所用的表结构与浮点用的表结构分离开,分别进行处理,这样就可以同时地流出一条浮点指令和一条整数指令到各自的保留站。4.4.2 基于动态调度的多流出技术9393*/13*/1

29、34.4 多指令流出技术2.有两种不同的方法可以实现多流出。关键在于:关键在于:对保留站的分配和对流水线控制表格的修改。对保留站的分配和对流水线控制表格的修改。在半个时钟周期里完成流出步骤,这样一个时钟周期就能处理两条指令。设置一次能同时处理两条指令的逻辑电路。现代的流出现代的流出4 4条或条或4 4条以上指令的超标量处理机条以上指令的超标量处理机经常是两种方法都采用。经常是两种方法都采用。9494*/13*/134.4 多指令流出技术 例例4.44.4 对于采用了对于采用了TomasuloTomasulo算法和多流出技术的算法和多流出技术的MIPSMIPS流水线,流水线,考虑以下简单循环的执

30、行。该程序把考虑以下简单循环的执行。该程序把F2F2中的标量加到一个向量的中的标量加到一个向量的每个元素上。每个元素上。Loop:L.D Loop:L.D F0,0F0,0(R1R1)/取一个数组元素放入取一个数组元素放入F0F0 ADD.D ADD.D F4,F0,F2 F4,F0,F2 /加上在加上在F2F2中的标量中的标量 S.D S.D F4,0F4,0(R1R1)/存结果存结果 DADDIU R1,R1DADDIU R1,R1,#-8#-8 /将指针减少将指针减少8 8(每个数据占(每个数据占8 8个字节)个字节)BNE R1,R2,LoopBNE R1,R2,Loop /若若R1R

31、1不等于不等于R2R2,表示尚未结束,转移到,表示尚未结束,转移到LoopLoop继续继续 9595*/13*/134.4 多指令流出技术现做以下假设:q每个时钟周期能流出一条整数指令和一条浮点指令,每个时钟周期能流出一条整数指令和一条浮点指令,即使它们相关也是如此。即使它们相关也是如此。q有一个整数部件,用于整数有一个整数部件,用于整数ALUALU运算和地址计算;并运算和地址计算;并且对于每一种浮点操作类型都有一个独立的流水化了且对于每一种浮点操作类型都有一个独立的流水化了的浮点功能部件。的浮点功能部件。q指令流出和写结果各占用一个时钟周期。指令流出和写结果各占用一个时钟周期。q具有动态分支

32、预测部件和一个独立的计算分支条件的具有动态分支预测部件和一个独立的计算分支条件的功能部件。功能部件。q分支指令单独流出,没有采用延迟分支,但分支预测分支指令单独流出,没有采用延迟分支,但分支预测是完美的。分支指令完成前,其后续指令只能被取出是完美的。分支指令完成前,其后续指令只能被取出和流出,但不能执行。和流出,但不能执行。9696*/13*/134.4 多指令流出技术q因为写结果占用一个时钟周期,所以产生结果的延迟因为写结果占用一个时钟周期,所以产生结果的延迟为:整数运算一个周期,为:整数运算一个周期,loadload两个周期,浮点加法运两个周期,浮点加法运算算3 3个周期。个周期。列出该程

33、序前面列出该程序前面3 3遍循环中各条指令的流出、开始执行和将结果遍循环中各条指令的流出、开始执行和将结果写到写到CDBCDB上的时间。上的时间。解解 执行时,该循环将动态展开,并且只要可能就流出两条指令。执行时,该循环将动态展开,并且只要可能就流出两条指令。为了便于分析,表中列出了访存发生的时刻。运行结果如下图为了便于分析,表中列出了访存发生的时刻。运行结果如下图所示。所示。遍数遍数 指指 令令 流出流出 执行执行 访存访存 写写CDB CDB 说明说明 1 1L.D F0,0L.D F0,0(R1R1)1 12 23 34 4流出第一条指令流出第一条指令 1 1ADD.D F4,F0,F2

34、 ADD.D F4,F0,F2 1 15 58 8等待等待L.DL.D的结果的结果 1 1S.D F4,0S.D F4,0(R1R1)2 23 39 9等待等待ADD.DADD.D的结果的结果 1 1DADDIU R1,R1,#-8 DADDIU R1,R1,#-8 2 24 45 5等待等待ALUALU1 1BNE R1,R2,Loop BNE R1,R2,Loop 3 36 6等待等待DADDIUDADDIU的结果的结果 2 2L.D F0,0L.D F0,0(R1R1)4 47 78 89 9等待等待BNEBNE完成完成 2 2ADD.D F4,F0,F2 ADD.D F4,F0,F2

35、4 410101313等待等待L.DL.D的结果的结果 2 2S.D F4,0S.D F4,0(R1R1)5 58 81414等待等待ADD.DADD.D的结果的结果 2 2DADDIU R1,R1,#-8 DADDIU R1,R1,#-8 5 59 91010等待等待ALU ALU 2 2BNE R1,R2,LoopBNE R1,R2,Loop6 61111等待等待DADDIUDADDIU的结果的结果 3 3L.D F0,0L.D F0,0(R1R1)7 7121213131414等待等待BNEBNE完成完成 3 3ADD.D F4,F0,F2 ADD.D F4,F0,F2 7 715151

36、818等待等待L.DL.D的结果的结果 3 3S.D F4,0S.D F4,0(R1R1)8 813131919等待等待ADD.DADD.D的结果的结果 3 3DADDIU R1,R1,#-8 DADDIU R1,R1,#-8 8 814141515等待等待ALU ALU 3 3BNE R1,R2,LoopBNE R1,R2,Loop9 91616等待等待DADDIUDADDIU的结果的结果 9898*/13*/134.4 多指令流出技术从图中可以看出:程序基本可以达到3拍流出5条指令 IPCIPC5/35/31.67 1.67 条条/拍拍虽然指令的流出率比较高,但是执行效率并不是很高。q16

37、16拍共执行拍共执行1515条指令,条指令,q平均指令执行速度为平均指令执行速度为15/1615/160.94 0.94 条条/拍。拍。原因是浮点运算少,ALU部件成了瓶颈。解决方法:增加一个加法器,把ALU功能和地址运算功能分开。9999*/13*/134.4 多指令流出技术3.上述双流出动态调度流水线的性能受限于以下3个因素:整数部件和浮点部件的工作负载不平衡,没有充分发挥出浮点部件的作用。应该设法减少循环中整数型指令的数量。应该设法减少循环中整数型指令的数量。每个循环迭代中的控制开销太大。q5 5条指令中有两条指令是辅助指令。条指令中有两条指令是辅助指令。q应该设法减少或消除这些指令。应

38、该设法减少或消除这些指令。控制相关使得处理机必须等到分支指令的结果出来后才能开始下一条L.D指令的执行。100100*/13*/134.4 多指令流出技术1.把能并行执行的多条指令组装成一条很长的指令。(100100多位到几百位)多位到几百位)2.设置多个功能部件。3.指令字被分割成一些字段,每个字段称为一个操作槽,直接独立地控制一个功能部件。4.在VLIW处理机中,所有的处理和指令安排都是由编译器完成的。4.4.3 超长指令字技术(VLIW)101101*/13*/13 例例4.54.5 假设假设VLIWVLIW处理机每个时钟周期可同时流出处理机每个时钟周期可同时流出5 5条条指令:指令:两

39、两条条访存指令、访存指令、两条两条浮点操作指令和浮点操作指令和一条一条整数指令或分支指令。对于整数指令或分支指令。对于例例4.44.4中的循环展开后的代码,给出它在该中的循环展开后的代码,给出它在该VLIWVLIW中的代码序列。不考中的代码序列。不考虑分支指令的延迟槽。虑分支指令的延迟槽。解解 代码序列如下图所示。代码序列如下图所示。运行时间为运行时间为8 8个个时钟周期。时钟周期。每遍循环平均每遍循环平均1.61.6个个时钟周期。时钟周期。8 8个个时钟周期内流出了时钟周期内流出了1717条指令,每个时钟周期条指令,每个时钟周期2.12.1条。条。8 8个个时钟周期共有操作槽时钟周期共有操作

40、槽8 8 5=405=40个,有效槽的比例为个,有效槽的比例为42.5%42.5%。4.4 多指令流出技术102102*/13*/134.4 多指令流出技术访存指令访存指令1 1 访存指令访存指令2 2 浮点指令浮点指令1 1 浮点指令浮点指令2 2 整数整数/转移指令转移指令 L.D F0,0(R1)L.D F0,0(R1)L.D F6,-8(R1)L.D F6,-8(R1)L.D F10,-16(R1)L.D F10,-16(R1)L.D F14,-24(R1)L.D F14,-24(R1)L.D F18,-32(R1)L.D F18,-32(R1)ADD.D F4,F0,F2ADD.D

41、F4,F0,F2ADD.DF8,F6,F2ADD.DF8,F6,F2ADD.DF12,F10,F2ADD.DF12,F10,F2ADD.DF16,F14,F2ADD.DF16,F14,F2ADD.DF20,F18,F2ADD.DF20,F18,F2S.D F4,0(R1)S.D F4,0(R1)S.D F8,-8(R1)S.D F8,-8(R1)S.D F12,-16(R1)S.D F12,-16(R1)S.D F16,S.D F16,24(R1)24(R1)DADDIUR1,R1,#-40DADDIUR1,R1,#-40S.D F20,8(R1)S.D F20,8(R1)BNE R1,R2,

42、LoopBNE R1,R2,Loop103103*/13*/134.4 多指令流出技术5.VLIW存在的一些问题 程序代码长度增加了q提高并行性而进行的大量的循环展开。提高并行性而进行的大量的循环展开。q指令字中的操作槽并非总能填满。指令字中的操作槽并非总能填满。解决:解决:采用指令共享立即数字段的方法,或者采用指采用指令共享立即数字段的方法,或者采用指 令压缩存储、调入令压缩存储、调入CacheCache或译码时展开的方法。或译码时展开的方法。采用了锁步机制 任何一个操作部件出现停顿时,整个处理机都要停顿。任何一个操作部件出现停顿时,整个处理机都要停顿。机器代码的不兼容性104104*/13

43、*/134.4 多指令流出技术指令多流出处理器受哪些因素的限制呢?主要受以下三个方面的影响:q程序所固有的指令级并行性。程序所固有的指令级并行性。q硬件实现上的困难。硬件实现上的困难。q超标量和超长指令字处理器固有的技术限制。超标量和超长指令字处理器固有的技术限制。4.4.4 多流出处理器受到的限制105105*/13*/134.4 多指令流出技术1.将每个流水段进一步细分,这样在一个时钟周期内能够分时流出多条指令。这种处理机称为超流水线处理机。2.对于一台每个时钟周期能流出n条指令的超流水线计算机来说,这n条指令不是同时流出的,而是每隔1/n个时钟周期流出一条指令。实际上该超流水线计算机的流

44、水线周期为1/n个时钟周期。3.一台每个时钟周期分时流出两条指令的超流水线计算机的时空图。4.4.5 超流水线处理机106106*/13*/134.4 多指令流出技术107107*/13*/134.4 多指令流出技术4.在有的资料上,把指令流水线级数为8或8以上的流水线处理机称为超流水线处理机。5.典型的超流水线处理器:SGI公司的MIPS系列R4000R4000微处理器芯片内有2个Cache:q指令指令CacheCache和数据和数据CacheCacheq容量都是容量都是8 KB8 KBq每个每个CacheCache的数据宽度为的数据宽度为64 64 b b R4000的核心处理部件:整数部

45、件 q一个一个32323232位的通用寄存器组位的通用寄存器组q一个算术逻辑部件一个算术逻辑部件(ALUALU)q一个专用的乘法一个专用的乘法/除法部件除法部件 108108*/13*/134.4 多指令流出技术浮点部件q一个执行部件一个执行部件n浮点乘法部件浮点乘法部件n浮点除法部件浮点除法部件n浮点加法浮点加法/转换转换/求平方根部件求平方根部件 (它们可以并行工作)(它们可以并行工作)q一个一个16166464位的浮点通用寄存器组。浮点通用寄存器位的浮点通用寄存器组。浮点通用寄存器组也可以设置成组也可以设置成3232个个3232位的浮点寄存器。位的浮点寄存器。R4000的指令流水线有8级

46、109109*/13*/134.4 多指令流出技术110110*/13*/134.4 多指令流出技术各级的功能qIFIF:取指令的前半步,根据取指令的前半步,根据PCPC值去启动对指令值去启动对指令CacheCache的访问。的访问。qISIS:取指令的后半步,在这一级完成对指令取指令的后半步,在这一级完成对指令CacheCache的访问。的访问。qRFRF:指令译码,访问寄存器组读取操作数,冲突检测,并判指令译码,访问寄存器组读取操作数,冲突检测,并判断指令断指令CacheCache是否命中。是否命中。qEXEX:指令执行。包括有效地址计算,:指令执行。包括有效地址计算,ALUALU操作,分

47、支目标地址操作,分支目标地址计算,条件码测试。计算,条件码测试。qDFDF:取数据的前半步,启动对数据取数据的前半步,启动对数据CacheCache的访问。的访问。qDSDS:取数据的后半步,在这一级完成对数据取数据的后半步,在这一级完成对数据CacheCache的访问。的访问。qTCTC:标识比较,判断对数据标识比较,判断对数据CacheCache的访问是否命中。的访问是否命中。qWBWB:loadload指令或运算型指令把结果写回寄存器组。指令或运算型指令把结果写回寄存器组。111111*/13*/134.4 多指令流出技术MIPS R4000指令流水线时空图 载入延迟为两个时钟周期113

48、113*/13*/131.充分开发指令之间存在的并行性,找出不相关的指令序列,让它们在流水线上重叠并行执行。2.增加指令间并行性最简单和最常用的方法开发循环级并行性循环的不同迭代之间存在的并行性。在把循环展开后,通过重命名和指令调度来开发更多的并行性。4.5 循环展开和指令调度4.5.1 循环展开和指令调度的基本方法114114*/13*/134.5 循环展开和指令调度3.编译器完成这种指令调度的能力受限于两个特性:程序固有的指令级并行性;流水线功能部件的执行延迟。4.本节中,我们使用的浮点流水线延迟为:产生结果的指令 使用结果的指令 延迟(时钟周期数)浮点计算 另一个浮点计算 3 浮点计算

49、浮点store(S.D)2 浮点load(L.D)浮点计算 1 浮点load(L.D)浮点store(S.D)0 115115*/13*/134.5 循环展开和指令调度假设采用第3章的5段整数流水线:分支的延迟:1个时钟周期。整数load指令的延迟:1个时钟周期。整数运算部件是全流水或者重复设置了足够的份数。116116*/13*/134.5 循环展开和指令调度 例例4.64.6 对于下面的源代码,转换成对于下面的源代码,转换成MIPSMIPS汇编语言,汇编语言,在在不进行指令调度不进行指令调度和和进行指令调度进行指令调度两种情况下,分析其两种情况下,分析其代码一次循环所需的执行时间。代码一次

50、循环所需的执行时间。for(i=1for(i=1;i=1000i=1000;i+)i+)xi=xi+s xi=xi+s;解解 把该程序翻译成把该程序翻译成MIPSMIPS汇编语言代码:汇编语言代码:假设假设R1R1的初值是指向第一个元素,的初值是指向第一个元素,8 8(R2R2)指向最后一个元素。指向最后一个元素。117117*/13*/134.5 循环展开和指令调度LoopLoop:L.DL.D F0F0,0,0(R1R1)ADD.DADD.D F4F4,F0F0,F2,F2 S.D S.D F4F4,0,0(R1R1)DADDIU DADDIU R1R1,R1,R1,#-8#-8 BNE

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁