《第三章 计算机系统的可靠性.ppt》由会员分享,可在线阅读,更多相关《第三章 计算机系统的可靠性.ppt(22页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第三章计算机系统的可靠性计算机系统的可靠性 n可用性是指系统在规定条件下,完成规定的功能的能力n系统的可用性用可用度来度量n系统在t时刻处于正确状态的概率称为可用度,用A(t)来表示n计算方法:A平均无故障时间MTBF/(平均无故障时间MTBF平均修复时间MTRF)n平均无故障时间指两次故障时间能正常的平均值,故障可以是元器件故障,软件故障,也可能是人为攻击造成的n平均修复时间指从故障发生到系统恢复平均所需要的时间可用性的定量n1可靠性:在一定条件下,在指定的时期内系统无故障的执行指令任务的可能性可靠度:在t0时刻系统正常的条件下,在给定的时间间隔内,系统仍然能正确执行其功能的概率可靠性的测度
2、:抗毁性、生存性和有效性可靠性的表现:硬件可靠性、软件可靠性、人员可靠性、环境可靠性可用性的定量n可维修性:指系统发生故障时容易进行修复,以及平时易于维护的程度可维修性定量:平均修复时间MTRF、在指定时间内恢复服务的可能性维修保障 n避错:通过提高软硬件的质量来提高系统的可靠性n容错:在计算机内部出现故障的情况下,计算机仍能正确的运行程序并给出正确结果的设计容错系统的概念 n容错是用冗余的资料使计算机具有容忍故障的能力,即在产生故障的情况下,仍有能力将指定的算法继续完成n容错的思想来自于硬件容错n容错技术是指在一定程度上容忍故障的技术,也称故障掩饰技术容错系统n容错主要靠冗余设计来实现,通过
3、增加资源的办法换取可靠性,冗余技术分为硬件冗余、时间冗余、信息冗余n硬件冗余通过硬件的重复使用来完成容错能力n软件冗余的基本思想是用多个不同软件执行同一功能n信息冗余利用在数据中外加的一部分信息位来检测或纠正信息在运算或传输中的错误而达到容错n时间冗余是通过消耗时间资源来实现容错,通过重复运算来检测故障。按照重复运算是在指令级还是程序级分为指令复执和程序复算n冗余设计可以是元器件的冗余设计,部件级、分系统级的,或系统级的冗余设计容错系统工作过程 1自动侦听:通过专用的冗余侦听系统各冗余单元是否存在故障,发现可能的错误和故障,进行判断与分析,确认主机出错后,启动后备系统侦听检查部件:主机硬件、主
4、机网络、操作系统、数据库、重要应用程序、外部存储子系统2自动切换数据可信是切换的基础当确认某一主机出错时,正常主机除了保证自身原来的任务继续运行外,将根据各种不同的容错后备模式,接管预先设定的后备作业程序程序,进行后续程序及服务3自动恢复故障主机被替换后,进行故障隔离,修复完成后联机,将原来的工作程序和磁盘上的数据自动切换回修复完成的主机上 硬件冗余 n增加线路、设备、部件、形成备份方法之一硬件堆积冗余方法之二待命储备冗余方法之三混合冗余系统数据备份 n问题:备份的措施不足备份解职的物理保护不够n数据备份的重要性:减少不必要的信息占用磁盘空间n防止由于各种原因造成的数据丢失n能够恢复的备份才是
5、备份n为了保证单点的数据安全性,RAID技术、镜像技术甚至双机备份无法替代数据备份n系统防护技术:防病毒、防黑客入侵技术n系统保护技术:数据备份,快速恢复、异地存放、远程控制、灾难备援n按备份的策略可分为完全备份、差分备份、增量备份、按需备份n完全备份:对包括系统应用程序和数据库等一个备份周期内的数据完全备份n差分备份:只备份上次完全备份以后有变化的数据n增量备份:只备份上次备份以后有变化的数据n按需备份:根据临时需要有选择的进行数据备份n备份的数据量:完全备份差分备份增量备份备份介质 n异地备份的备份信息至少不能存放在同一建筑物n业务数据由于系统或人为误操作造成损坏或丢失后,利用本地备份信息
6、实现数据恢复;n当发生地域性灾难时,使用异地备份实现数据及整个系统的灾难恢复n常规数据备份一般要求一份数据至少应有两个拷贝,一份放在生产中心以保证数据的正常恢复和数据查询恢复,另一份则要移到异地保存。备份后的数据是否可更改 n活备份是指备份到可擦写存储介质n死备份是指备份到不可擦写存储介质n双机容错系统 一个CPU板出现故障,CPU保持继续运行n双机热备份 当CPU出现故障时由闲置状态的备份系统接替,但正在处理的交易可能会丢失,从而导致数据的不一致 “心跳线”出现问题,系统很难自动判断,资源浪费n三机表决系统 三台主机同时运行,由表决器根据三台机器的运行结果进行表决,有两台以上机器运行的结果相
7、同,则认为该结果为正确。当三机种的一台机器损坏后,当双机备份系统n集群系统n均衡负载的双机或多机系统就是集群系统软件冗余 n主要目的是提供足够的冗余信息和算法程序,使系统运行时能够及时发现程序设计错误,采取补救措施,提高可靠性,保证系统正常运行n主要技术:恢复块方法和N-版本程序设计、防卫式程序设计恢复块方法n恢复策略:前向恢复和后向恢复n前向恢复指是当前的计算继续下去,把系统恢复到连贯的正确状态,弥补当前状态不连贯情况n后向恢复指系统恢复到前一个正确状态继续执行n动态屏蔽技术-恢复块方法,采用的是后向恢复策略N-版本程序设计 n采用的是前向恢复策略,设计思想:用N个具有相同功能的程序同时执行
8、一项计算,记过通过多数表决来选择。防卫式程序设计 n基本思想:通过在程序中包含错误检查代码和错误户代码,使得错误一旦发生,程序能撤销错误状态,恢复到一个已知的正确状态中去,实现策略包括错误监测、破坏估计和错误恢复三个方面,软件容错已成为容错领域重要分支之一磁盘阵列存储器的编码容错方案n廉价冗余磁盘阵列RAID简称磁盘阵列n是一种使用磁盘驱动器的方法,将一组磁盘驱动器通过某种逻辑方式联系起来,作为逻辑上的一个磁盘驱动器来使用RAID优点 n成本低、功耗小、传输速率高n可以提供容错功能n在同样的容量下,RAID比传统的大直径磁盘驱动器来,价格要低许多种类n冗余无校验的磁盘阵列(RAID0)n镜像磁盘阵列(RAID1)n并行海明纠错阵列(RAID2)n奇偶校验并行位交错阵列(RAID3)n奇偶校验扇区交错阵列(RAID4)n循环奇偶校验阵列(RAID5)n二维奇偶校验阵列(RAID6)