《主存的主要性能指标延迟和带宽.ppt》由会员分享,可在线阅读,更多相关《主存的主要性能指标延迟和带宽.ppt(18页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 张晨曦 刘依 1181.主存的主要性能指标:延迟和带宽2.以往:Cache主要关心延迟,I/O主要关心带宽3.现在:Cache关心两者4.下面讨论几种能提高主存性能的存储器组织技术5.在下面的讨论中,我们以处理Cache失效为例来说明各种存储器组织结构的好处。5.6 主 存第五章 存储层次 张晨曦 刘依 218 增加Cache块大小能利用主存带宽增加所带 来的好处 在以下的讨论中,我们假设基本存储 器结构的性能为:5.6 主 存l 送地址需4个时钟周期l 每个字的访问时间为24个时钟周期l 传送一个字的数据需4个时钟周期 为了减少失效开销TM,应该:l 减少主存延迟l 提高主存带宽 张晨曦
2、刘依 318 如果Cache大小为4个字,则:失效开销4(4244)432128(时钟周期)带宽16/1280.0125(字节/时钟周期)1.增加存储器的宽度 性能举例(参照前面的假设)当宽度为4个字时:失效开销132(周期)带宽0.5(字节/周期)5.6 主 存 张晨曦 刘依 518 缺点:5.6 主 存l 增加CPU和存储器之间的连接通路的宽度l CUP和Cache之间有一个多路选择器l 扩充主存的最小增量增加了相应的倍数l 写入有可能变得复杂 举例:DEC的Alpha Axp21064:256位宽2.采用简单的多体交叉存储器 在存储系统中采用多个DRAM,并利用它们 潜在的并行性。张晨曦
3、 刘依 718 存储器的各个体一般是按字交叉的 交叉存储器(interleaved memory)通常是指存储器的各个体是按字交叉的。字交叉存储器非常适合于处理:Cache读失效,写回法Cache中的写回 性能举例:(参照前面的假设)失效开销4244444(周期)带宽0.4(字节/周期)5.6 主 存 张晨曦 刘依 818 假设四个存储体的地址是在字一级交叉的,即存储体0中每个字的地址对4取模都是0,体1中每个字的地址对4取模都是1,依此类推。0 4 812地址 体0 1 5 913地址 体1 2 61014地址 体2 3 71115地址 体3 张晨曦 刘依 918 假设某台机器的特性及其Ca
4、che的性能为:块大小为1个字 存储器总线宽度为1个字 Cache失效率为3%平均每条指令访存1.2次 Cache失效开销为32个时钟周期(和上面相同)平均CPI(忽略Cache失效)为2 试问多体交叉和增加存储器宽度对提高性能各 有何作用?如果当把Cache块大小变为2个字时,失效率例 5.145.6 主 存 张晨曦 刘依 1018 降为2%;块大小变为4个字时,失效率降为1%。根据5.6.2小节中给出的访问时间,求在采用 2路、4路多体交叉存取以及将存储器和总线宽 度增加一倍时,性能分别提高多少?解:在改变前的机器中,Cache块大小为一个字,其CPI为 2(1.23%32)3.15 当将
5、块大小增加为2个字时,在下面三种情况下的CPI分别为:5.6 主 存 张晨曦 刘依 111832位总线和存储器,不采用多体交叉:2(1.22%232)3.5432位总线和存储器,采用多体交叉:2(1.22%(4248)2.86 性能提高了10%64位总线和存储器,不采用多体交叉:2(1.22%132)2.77 性能提高了14%如果将块大小增加到4个字节,则:32位总线和存储器,不采用多体交叉:2(1.21%432)3.545.6 主 存 张晨曦 刘依 1218 存储体的数目 体的数目访问体中一个字所需的时钟周期32位总线和存储器,采用多体交叉:2(1.21%(42416)2.53 性能提高了2
6、5%64位总线和存储器,不采用多体交叉:2(1.21%232)2.77 性能提高了14%3.独立存储体 设置多个存储控制器,使多个体能独立操 作,以便能同时进行多个独立的访存。5.6 主 存 张晨曦 刘依 1318 每个体有独立的地址线(动画演示)非阻塞Cache与多体结构 体和超体 将存储器分为若干个独立的存储体,而每个独 立存储体内又划分为若干个按字交叉方式工作的体。5.6 主 存 张晨曦 刘依 14184.避免存储体冲突 体冲突:两个请求要访问同一个体 减少冲突:采用许多体 例如:NEC SX/3最多128个体 这种方法存在问题。5.6 主 存 张晨曦 刘依 1518 假如我们有128个
7、存储体,按字交叉方式工作,并执行以下程序:int x 256 512;for(j=0;j 512;j=j+1)for(i=0;i 256;i=i+1)x i j=2*x i j;因为512是128的整数倍,同一列中的所有元素都在同一个体内,无论CPU或存储系统多么高级,该程序都会在数据Cache失效时暂停。5.6 主 存 张晨曦 刘依 1618 解决体冲突的方法 举例(表 5-10)l 软件方法(编译器)循环交换优化 扩展数组的大小,使之不是2的幂。l 硬件方法 使体数为素数。当存储体数为素数,且为2的幂减1时,体内地址地址 mod(存储体中的字数)可以直接载取。5.6 主 存体 内 地 址存储体顺序交叉 取模交叉012345表 5-10 顺序交叉和取模交叉的地址映象举例670 1 2 0 1 20 1 2 0 16 83 4 56 7 89 10 1112 13 1421 22 2315 16 1718 19 209 1 1718 10 23 19 1112 4 2021 13 56 22 1415 7 23 张晨曦 刘依 18185.DRAM专用交叉结构 介绍几种利用DRAM特性的技术 对DRAM的访问分为行访问和列访问 三种优化方式 l Nibble方式l Page方式l Static column方式5.6 主 存