《诊断与容错技术1.ppt》由会员分享,可在线阅读,更多相关《诊断与容错技术1.ppt(59页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、课程性质:计算机专业选修课课程性质:计算机专业选修课前修课程:组成原理、操作系统前修课程:组成原理、操作系统南京航空航天大学信息学院南京航空航天大学信息学院钱忠民钱忠民qzm_第一章第一章容错系统概述容错系统概述第二章第二章可靠性的基本知识可靠性的基本知识第三章第三章可靠性的分析方法可靠性的分析方法第四章第四章冗余技术冗余技术第五章第五章马尔可夫模型分析法马尔可夫模型分析法第六章第六章软件容错技术软件容错技术第七章第七章容错系统设计和典型的容错系统介绍容错系统设计和典型的容错系统介绍第八章第八章故障诊断技术故障诊断技术2023/1/212第一章第一章容错系统概述容错系统概述第一节第一节可靠性是
2、计算机系统的重要性能可靠性是计算机系统的重要性能指标指标一般讲到计算机性能指标时往往只考虑:一般讲到计算机性能指标时往往只考虑:CPU功能:功能:速度(如:主频)速度(如:主频)指令系统(包括指令系统(包括CPU寄存器)寄存器)寻址能力(寻址空间)寻址能力(寻址空间)存储系统:存储系统:Cache、主存容量、组织方法、管理机构主存容量、组织方法、管理机构外设配置和采用的总线等外设配置和采用的总线等2023/1/213但但是是,随随着着计计算算机机应应用用领领域域扩扩大大出出现现了了许许多多对对可可靠靠性性有有特特殊殊要要求求的的应应用用领领域域,对对这这些些系系统统来来说说,可可靠靠性性是是极
3、极其其重重要要的的性性能能指指标标。例如:例如:1 1:工业、交通、:工业、交通、航空航空:飞飞行行控控制制计计算算机机,一一旦旦故故障障,有有可可能能造造成成机机毁毁人人亡亡的的严严重后果重后果要求在要求在10-20小时飞行任务期间内失效的可能性低于小时飞行任务期间内失效的可能性低于10-9工业控制:工业控制:如:核电站、化工厂的过程控制。如:核电站、化工厂的过程控制。如控制失灵会造成重大事故。如控制失灵会造成重大事故。2023/1/214交通:交通:如:铁路运输中的信号系统如:铁路运输中的信号系统通讯:通讯:如程控交换机等如程控交换机等2。商业、金融。商业、金融对信息的安全可靠有极高要求对
4、信息的安全可靠有极高要求3。长寿命、高可靠。长寿命、高可靠应用应用航天:人造卫星的通讯控航天:人造卫星的通讯控制如:美国的制如:美国的STAR系统(系统(SelfTestandRepair)保证在十年中可靠运行的时间保证在十年中可靠运行的时间95%,只允许短暂,只允许短暂的停顿(比如几分钟)的停顿(比如几分钟)2023/1/215这些领域对计算机的可靠性提出在正常条这些领域对计算机的可靠性提出在正常条件下难以达到的要求。件下难以达到的要求。比如,市售的成品计算机的可靠性指标:比如,市售的成品计算机的可靠性指标:MTBF(平均故障间隔时间)为平均故障间隔时间)为300-10000小时。在小时。在
5、10小时内可靠度仅小时内可靠度仅0.997-0.999(故障可能为故障可能为310-3110-3)。在运行在运行10000小时时候,可靠运行的概率仅小时时候,可靠运行的概率仅0.368左右左右2023/1/216第二节第二节容错技术与非容错技术容错技术与非容错技术提高可靠性的方法有两种:提高可靠性的方法有两种:1 1。非容错方法(避错技术)。非容错方法(避错技术)避错方法是保证可靠性的主要和基本的方避错方法是保证可靠性的主要和基本的方法。它采用预防为主的手段。法。它采用预防为主的手段。2023/1/217硬件措施硬件措施:严格地进行元件筛选、老化处理严格地进行元件筛选、老化处理采用成熟技术,防
6、止设计错误采用成熟技术,防止设计错误严格遵守加工工艺如:制板、装配、调试严格遵守加工工艺如:制板、装配、调试在在保保证证功功能能、性性能能要要求求前前提提下下采采用用最最简简单单的的设计方案设计方案降降负负荷荷运运行行。比比如如:降降低低主主频频、降降低低通通讯讯线线的数据传输率的数据传输率改善运行环境:空调、防震、防尘、防潮改善运行环境:空调、防震、防尘、防潮2023/1/218软件措施:软件措施:模块化、结构化程序设计模块化、结构化程序设计完善的、规范的文档资料完善的、规范的文档资料严格的调试严格的调试2023/1/219避错方法是保证系统可靠性的基础,也是必避错方法是保证系统可靠性的基础
7、,也是必不可少的手段。但是单靠避错方法不能达到不可少的手段。但是单靠避错方法不能达到上述高可靠性指标,这是因为:上述高可靠性指标,这是因为:1)元件质量受当时工艺水平限制,元件质量受当时工艺水平限制,在一个在一个时期只能达到一定水平。时期只能达到一定水平。比如比如50年代计算机采用电子管为主要元件,年代计算机采用电子管为主要元件,其平均寿命为其平均寿命为800小时。采用特殊工艺可达小时。采用特殊工艺可达1500-2000小时,此时价格已高出常规价格小时,此时价格已高出常规价格几十倍。几十倍。当时计算机采用当时计算机采用18000只电子管,平均每小时只电子管,平均每小时有有9-12个管子损坏。个
8、管子损坏。2023/1/21102)设备的可靠性随复杂性增加而降低。设备的可靠性随复杂性增加而降低。复杂的设备使用的器件种类和数量都多,不复杂的设备使用的器件种类和数量都多,不可避免有较高的故障率。而随着计算机应用可避免有较高的故障率。而随着计算机应用范围的不断扩大,系统复杂性日益增加。可范围的不断扩大,系统复杂性日益增加。可靠性问题也日趋严重。靠性问题也日趋严重。要获得高可靠的系统,还必须在系统结构上要获得高可靠的系统,还必须在系统结构上想办法,使系统具有抵抗故障的能力,因而想办法,使系统具有抵抗故障的能力,因而产生了容错设计的方法产生了容错设计的方法2023/1/21112.容错方法容错方
9、法:正如采用预防为主的方针后仍需要医院一样,象计算机系统这样复杂的系统不可避免有故障发生。对有高可靠性要求的应用系统来说,必须有在故障发生时仍保证系统正常工作的手段,这就是容错的手段容错的手段。2023/1/2112容错能达到常规方法所不能达到的高可靠性容错能达到常规方法所不能达到的高可靠性例如:美国例如:美国70年代研制的年代研制的FTMP系统和系统和SIFT系统系统能保证在能保证在10小时飞行任务期间,可靠度高于小时飞行任务期间,可靠度高于0。99999999,即,即108架次飞行(每次架次飞行(每次10小时)飞行小时)飞行计算机失效的可能不到计算机失效的可能不到1次次采用容错技术,并不否
10、定避错技术。采用容错技术,并不否定避错技术。相反,容错技术必须和避错技术相结合,才能相反,容错技术必须和避错技术相结合,才能使系统达到理想的可靠性。使系统达到理想的可靠性。2023/1/2113容错计算机系统容错计算机系统:在发生故障或存在软件:在发生故障或存在软件错误的情况下仍能继续正确完成指定任务错误的情况下仍能继续正确完成指定任务的计算机系统。的计算机系统。设计与分析容错计算机系统的各种技术称设计与分析容错计算机系统的各种技术称为容错技术为容错技术容错技术从系统结构出发来提高系统的可容错技术从系统结构出发来提高系统的可靠性,与排错技术相互补充,构成高可信靠性,与排错技术相互补充,构成高可
11、信度的系统度的系统2023/1/2114实现容错计算的四个方面(1)不不希希望望事事件件的的检检测测。不不希希望望事事件件是是指指失失效效、故故障障、差差错错等等等等。为为容容忍忍系系统统中中的的不不希希望望事事件件,应应首首先对其进行检测。先对其进行检测。(2)损损坏坏估估价价。由由于于一一个个故故障障的的出出现现和和它它的的失失效效结结果果之之间间可可能能存存在在延延迟迟,故故障障可可能能已已经经传传播播到到该该系系统统的的其其他他地地方方,导导致致故故障障的的扩扩大大。因因此此,在在作作出出一一个个被被检检测测的的故故障障有有关关的的决决定定之之前前,有有必必要要判判定定系系统统已已被被
12、破破坏坏的的程程度度,这这依依赖赖于于系系统统设设计计者者的的策策略略和和已已有有的探测技术。的探测技术。2023/1/2115(3)不希望事件的恢复。在不希望事件检)不希望事件的恢复。在不希望事件检测和损坏估价之后,应采用不希望事件测和损坏估价之后,应采用不希望事件恢复技术,把目前的错误系统状态转换恢复技术,把目前的错误系统状态转换成一个正确的系统状态。成一个正确的系统状态。(4)不希望事件处理和继续服务。确保已)不希望事件处理和继续服务。确保已被恢复的不希望事件效应不会立即再现,被恢复的不希望事件效应不会立即再现,以使系统继续提供规定的服务。以使系统继续提供规定的服务。2023/1/211
13、6容错系统的一般阶段故障限制:故障限制:当故障出现时,希望限制其影响范围。故障限制是把当故障出现时,希望限制其影响范围。故障限制是把故障效应的传播限制到一个区域内,从而防止污染其他区域。故障效应的传播限制到一个区域内,从而防止污染其他区域。故障检测:故障检测:大多数失效最终导致产生逻辑故障。有许多方法可用大多数失效最终导致产生逻辑故障。有许多方法可用来检测逻辑故障,如奇偶校验、一致性校验都可用来检测故障。来检测逻辑故障,如奇偶校验、一致性校验都可用来检测故障。故障检测技术有两个主要的类别,即脱机检测和联机检测,在脱故障检测技术有两个主要的类别,即脱机检测和联机检测,在脱机检测情况下,进行测试时
14、设备不能进行有用的工作机检测情况下,进行测试时设备不能进行有用的工作;联机检测联机检测提供了实时检测能力,因为联机检测与有用的工作同时执行。联提供了实时检测能力,因为联机检测与有用的工作同时执行。联机检测技术包括奇偶校验和二模冗余校验。机检测技术包括奇偶校验和二模冗余校验。故障屏蔽:故障屏蔽:故障屏蔽技术把失效效应掩盖了起来,从某种意义上故障屏蔽技术把失效效应掩盖了起来,从某种意义上说,是冗余信息战胜了错误信息,多数表决冗余设计就是故障屏说,是冗余信息战胜了错误信息,多数表决冗余设计就是故障屏蔽的一个例子。蔽的一个例子。重试:重试:在许多场合,对一个操作的第二次试验可能是成功的,对在许多场合,
15、对一个操作的第二次试验可能是成功的,对不引起物理破坏的瞬间故障尤其是这样。不引起物理破坏的瞬间故障尤其是这样。诊断诊断:如果故障检测技术没有提供有关故障位置和如果故障检测技术没有提供有关故障位置和/或性质的信息,或性质的信息,那么就需要一个诊断。那么就需要一个诊断。2023/1/2117重组:重组:当检测出一个故障并判明是一个永久性故障时,这时重当检测出一个故障并判明是一个永久性故障时,这时重组系统的器件以便替代失效的器件或把失效的器件与系统的其组系统的器件以便替代失效的器件或把失效的器件与系统的其他部分隔离开来,也可使用冗余系统,系统能力不降低。他部分隔离开来,也可使用冗余系统,系统能力不降
16、低。恢复:恢复:检测和重组(若必要的话)之后,必须消除错误效应。检测和重组(若必要的话)之后,必须消除错误效应。通常,系统会回到故障检测前处理过程的某一点,并从这一点通常,系统会回到故障检测前处理过程的某一点,并从这一点重新开始操作。这种恢复形式(一般叫卷回)通常需要后备文重新开始操作。这种恢复形式(一般叫卷回)通常需要后备文件、校验点和应用记录方法。件、校验点和应用记录方法。重启动:重启动:如果一个错误破坏的信息太多,或者系统没有设计恢如果一个错误破坏的信息太多,或者系统没有设计恢复功能,那么恢复功能也许就不可能。仅当系统未受任何破坏复功能,那么恢复功能也许就不可能。仅当系统未受任何破坏时,
17、才能进行时,才能进行“热热”重启(从故障检测点恢复所有操作的)。重启(从故障检测点恢复所有操作的)。“温温”重启指仅有某些过程可以毫无损失的重新启动,重启指仅有某些过程可以毫无损失的重新启动,“冷冷”重启相当于系统需要完全重新加载。重启相当于系统需要完全重新加载。修复:修复:把诊断为故障的器件换下来,与故障检测一样,修复也把诊断为故障的器件换下来,与故障检测一样,修复也可以是联机进行的或者脱机进行的。可以是联机进行的或者脱机进行的。重构:重构:对元件进行物理替换之后,把修复的模块重新加入到该对元件进行物理替换之后,把修复的模块重新加入到该系统中去。对联机修复来说,实现重构不中断系统的工作。系统
18、中去。对联机修复来说,实现重构不中断系统的工作。2023/1/2118二、容错技术的发展概况第一代计算机(第一代计算机(1946-1957)第二代计算机(第二代计算机(1957-1964)第三代计算机(第三代计算机(1964-1970)第四代计算机(第四代计算机(1970-)现在现在2023/1/2119第一代计算机(1946-1957)元件:电子管、继电器及延迟线存储器元件:电子管、继电器及延迟线存储器问题:元件的失效率相当高,并易受瞬问题:元件的失效率相当高,并易受瞬时故障的影响时故障的影响措施:特别设置的硬件故障检测和人工措施:特别设置的硬件故障检测和人工恢复恢复2023/1/21201
19、956,SAPO,捷克,三个,捷克,三个CPU同时工作,同时工作,对运算结果进行表决,存储器采用奇偶校对运算结果进行表决,存储器采用奇偶校验,具有单条指令重复执行的功能验,具有单条指令重复执行的功能SAGE,美国,用于防空系统,采用双机比,美国,用于防空系统,采用双机比较以检测故障,并配合以恢复技术较以检测故障,并配合以恢复技术2023/1/2121第二代计算机(1957-1964)元件:晶体管及磁芯存储器元件:晶体管及磁芯存储器问题:失效率比第一代计算机元件大为降低问题:失效率比第一代计算机元件大为降低措施:避错技术占统治地位,对故障一般采措施:避错技术占统治地位,对故障一般采用诊断程序进行
20、脱机检测用诊断程序进行脱机检测2023/1/2122第三代计算机(1964-1970)元件:集成电路元件:集成电路问题:元件的失效率继续降低,但计算问题:元件的失效率继续降低,但计算机应用范围扩大,对计算机系统的可信机应用范围扩大,对计算机系统的可信性要求更高性要求更高措施:容错技术重新提出,并得到了较措施:容错技术重新提出,并得到了较快的发展,并出现了许多快的发展,并出现了许多容错计算机容错计算机2023/1/2123实例1964美国土星美国土星V号运载火箭导航计算机研制成功,号运载火箭导航计算机研制成功,该机采用三模冗余及奇偶校验来实现容错该机采用三模冗余及奇偶校验来实现容错1969,美国
21、喷射推进实验室的,美国喷射推进实验室的STAR计算机,其处计算机,其处理机采用三重表决加备份的混合冗余方式,并用理机采用三重表决加备份的混合冗余方式,并用算术检错码及双机比较检测故障。算术检错码及双机比较检测故障。1965,贝尔实验室研制成功,贝尔实验室研制成功1号号ESS处理机,是用处理机,是用于电话交换的计算机系统,采用了双机比较技术,于电话交换的计算机系统,采用了双机比较技术,是专用的硬件及软件进行故障的检测、定位及识是专用的硬件及软件进行故障的检测、定位及识别。别。2023/1/2124第四代计算机(1970-)元件:大规模和超大规模集成电路元件:大规模和超大规模集成电路问题:硬件可靠
22、性大大提高而价格却大问题:硬件可靠性大大提高而价格却大幅度降低,使采用各种容错技术在经济幅度降低,使采用各种容错技术在经济上更易接受。上更易接受。需求:容错技术应用范围扩展于银行事需求:容错技术应用范围扩展于银行事务处理及各种实时控制系统,甚至许多务处理及各种实时控制系统,甚至许多通用计算机系统也采用了容错技术通用计算机系统也采用了容错技术2023/1/2125实例1975,美国贝尔实现室的,美国贝尔实现室的3A号号ESS处理处理1975,美国,美国TANDEM16容错事务处理系统容错事务处理系统1976,美国,美国AMDAHL470V/6容错通用计算机容错通用计算机1978,容错空间计算机,
23、容错空间计算机FTSC1979,IBM推出容错的推出容错的4300通用计算机系列通用计算机系列1980,容错多处理机,容错多处理机FTMP及软件实现的容错及软件实现的容错计算机计算机SIFT研制成功研制成功2023/1/212680年代以来出现了商用容错计算机市场出现了商用容错计算机市场分布式容错计算机系统的出现分布式容错计算机系统的出现容错容错的的VLSI技术技术人工智能在容错技术上的应用人工智能在容错技术上的应用计算机计算机故障诊断专家系统故障诊断专家系统2023/1/2127错误的根源2023/1/2128第二章第二章可靠性的基本知识可靠性的基本知识第一节第一节可靠性的定义和特性可靠性的
24、定义和特性1 1。广义的定义:。广义的定义:系统(或设备、元件)在规定的条件和规系统(或设备、元件)在规定的条件和规定的时间内完成预定功能的能力定的时间内完成预定功能的能力2023/1/2129规定的条件:规定的条件:运运行行条条件件:工工作作负负荷荷、环环境境(温温度度、湿度、振动、灰尘)湿度、振动、灰尘)维护手段:维护手段:现场维护、脱机维护等现场维护、脱机维护等运行时间:运行时间:短时间运行短时间运行(几秒、几分钟)(几秒、几分钟)中等时间运行中等时间运行(几小时,几天)(几小时,几天)长时间(长时间(连续运行数月、数年)连续运行数月、数年)2023/1/21302 2。严格的定义:。严
25、格的定义:必须量化必须量化 将上面定义中将上面定义中能力能力改成概率改成概率必须明确必须明确 将将可靠性可靠性改为改为可靠度函数可靠度函数2023/1/21311 1。可靠度函数和失效分布函数可靠度函数和失效分布函数可靠度函数:可靠度函数:产产品品在在时时刻刻t t能能完完成成规规定定功功能能的的概概率率称称可靠度函数,用可靠度函数,用R(t)R(t)表示表示不可靠度函数:不可靠度函数:产品在时刻产品在时刻t t不能完成规定功能的概率不能完成规定功能的概率称不可靠度函数,用称不可靠度函数,用F(t)F(t)表示表示 根据定义有:F(t)=1-R(t)二、可靠性的基本函数二、可靠性的基本函数20
26、23/1/2132设设T T为产品在规定条件下的寿命为产品在规定条件下的寿命则:则:R(t)=P(Tt)R(t)=P(Tt)F(t)=P(Tt)F(t)=P(Tt)工程计算:工程计算:以频率代概率,在以频率代概率,在t=0t=0时刻有时刻有N N件产品,件产品,在在t t时刻有时刻有NtNt件继续工作件继续工作则则R(t)NtR(t)Nt/N/N F(t)(N-Nt)/NF(t)(N-Nt)/N2023/1/21333 3。失效率函数失效率函数(t)(t)在在titi时时刻刻正正常常工工作作的的产产品品,在在titi后后单单位位时时间间失失效效的的概率概率(t)(t)与与f(t)f(t)的区别
27、:的区别:(t)(t)表示表示titi时刻正常工作条件下失效的时刻正常工作条件下失效的条件概率条件概率 失效率的单位:失效率的单位:Fit(Fit(菲特菲特)10)10-9-9 (t(t)=-)=-R(t)/R(tR(t)/R(t)2 2。失效密度函数。失效密度函数f(t)f(t)。产品在单位时间内失效的概率产品在单位时间内失效的概率f(t)=f(t)=dF(t)/dtdF(t)/dt2023/1/2134产品的失效规律:浴盆曲线产品的失效规律:浴盆曲线电子产品的失效率一般下图所示电子产品的失效率一般下图所示:早早期期失失效效区区正常工作区正常工作区(偶然失效)(偶然失效)耗耗损损区区t1t2
28、2023/1/21351 1。早期失效段。早期失效段对应对应t t较小的时间段(较小的时间段(t tt1)t1),产品刚刚产品刚刚装配完毕,由于可能有不合格的元件、装装配完毕,由于可能有不合格的元件、装配缺陷(如虚焊)所以失效率较高,有的配缺陷(如虚焊)所以失效率较高,有的文献上称这段为文献上称这段为新生儿失效段新生儿失效段2023/1/21362 2。偶然失效段(正常使用段)。偶然失效段(正常使用段)经过严格经过严格测试筛选后出厂的产品偶然才会测试筛选后出厂的产品偶然才会失效,反映为这一段曲线呈现在较低的值失效,反映为这一段曲线呈现在较低的值上平稳延伸的形态。上平稳延伸的形态。这这一一段段曲
29、曲线线对对应应的的时时间间段段为为寿寿命命期期,实实际际应应用用时时,应应该该保保证证计计算算机机系系统统工工作作在在这这个个时时间段。间段。2023/1/21373 3。耗损失效段耗损失效段过了寿命期,曲线开始急剧上升因为元件过了寿命期,曲线开始急剧上升因为元件开始到达使用受命,相继失效,好象人到开始到达使用受命,相继失效,好象人到老年,各种疾病都来了一样。老年,各种疾病都来了一样。高可靠高可靠计算机系统应该避免工作在这个时计算机系统应该避免工作在这个时间段间段2023/1/2138上面讲到:上面讲到:产品必须工作在产品必须工作在偶然失效段偶然失效段在这一段在这一段(t)(t)可看成为常数可
30、看成为常数由由R(t)/R(t)=-R(t)/R(t)=-解得:解得:R(t)=eR(t)=e-t-t该公式在可靠性分析中十分重要,是计算该公式在可靠性分析中十分重要,是计算系统可靠性的基础系统可靠性的基础2023/1/2139当当tt很小时很小时e e-t-t1-t1-t故此时故此时R(t)1-tR(t)1-t用此式计算往往很简便用此式计算往往很简便例:某产品的失效率例:某产品的失效率=10=10-5-5/小时,小时,求求该该产品投入运行后产品投入运行后100100小时、小时、10001000小时、小时、1000010000小时、小时、100000100000小时的可靠度。小时的可靠度。20
31、23/1/2140解:解:R(100)=eR(100)=e-t-t=e=e-0.001-0.001=0.9990005=0.9990005用近似公式算:用近似公式算:R(100)1-t=1-0.001=0.999R(100)1-t=1-0.001=0.999相对误差相对误差0.00005%0.00005%完全可以忽略完全可以忽略R(1000)=eR(1000)=e-0.01-0.01=0.9900498=0.9900498用近似公式算:用近似公式算:R(1000)1-t=1-0.01=0.99R(1000)1-t=1-0.01=0.99相对误差相对误差0.005%0.005%也完全可以忽略也完
32、全可以忽略2023/1/2141R(10000)=eR(10000)=e-0.1-0.1=0.90483=0.90483用近似公式算:用近似公式算:R(10000)1-t=1-0.1=0.9R(10000)1-t=1-0.1=0.9相对误差相对误差5.37%5.37%勉强可用勉强可用R(100000)=eR(100000)=e-1-1=0.3679=0.3679用近似公式算:用近似公式算:R(100000)1-t=1-1=0R(100000)1-t=1-1=0结果完全不可用结果完全不可用2023/1/21421。平均寿命平均寿命平均无故障时间平均无故障时间MTTFMTTF(Mean Time
33、to FailureMean Time to Failure)含义:寿命的平均值,指产品从开始投含义:寿命的平均值,指产品从开始投入使用到(首次)失效的平均时间。入使用到(首次)失效的平均时间。该指标适用于该指标适用于不可维修产品不可维修产品三、三、产品的寿命指标产品的寿命指标2023/1/2143平均故障间隔时间平均故障间隔时间MTBFMTBF(Mean Time Between FailureMean Time Between Failure)含义:可维修产品两次维修之间隔时含义:可维修产品两次维修之间隔时间的平均值。间的平均值。该指标适用于该指标适用于可维修产品可维修产品2023/1/2
34、144MTTFMTTF和和MTBFMTBF两者定义不同,但计算方法两者定义不同,但计算方法一样,都是发生故障时间的平均值,在一样,都是发生故障时间的平均值,在应用中往往不加区别应用中往往不加区别具体计算公式:(推导略)具体计算公式:(推导略)MTTF=MTTF=0 0R(t)dtR(t)dt无论无论R(t)R(t)表达式如何,此式均可用表达式如何,此式均可用但是,一般情况下,有但是,一般情况下,有R(t)=eR(t)=e-t-t代入:代入:MTTF=MTTF=0 0e e-t-tdt=1/dt=1/这个结果在分析中也是极常用的这个结果在分析中也是极常用的2023/1/2145例例:某某计计算算
35、机机出出厂厂时时给给出出的的寿寿命命指指标标为:为:MTBF=10000MTBF=10000(小时)小时)求:求:1 1)该产品的失效率)该产品的失效率 2 2)该产品在投入运行该产品在投入运行100100小时、小时、10001000小时、小时、1000010000小时后的可靠度小时后的可靠度2023/1/2146解:解:1)1)=1/MTBF=10=1/MTBF=10-4-42):2):R(100)1-t=1-10 R(100)1-t=1-10-4-4100=0.99100=0.99 R(1000)0.9 R(1000)0.9 R(10000)=e R(10000)=e-t-t=e=e-1-
36、10.36790.3679实际上,大多数系统不可能工作到实际上,大多数系统不可能工作到MTBFMTBF这这个时间个时间,只有只有37%37%不到的系统在此时还能可不到的系统在此时还能可靠工作靠工作2023/1/21472。可靠寿命可靠寿命可靠度等于给定值可靠度等于给定值r r的时刻称可靠寿命,的时刻称可靠寿命,用用t tr r表示表示例例:某某计计算算机机出出厂厂时时给给出出的的寿寿命命指指标标为为:MTBF=10000MTBF=10000(小时)小时)求该产品可靠度为求该产品可靠度为0.9990.999的可靠寿命的可靠寿命t t0.9990.999解:解:1-1-tt0.9990.999=0
37、.999=0.999t t0.9990.999=0.001/=10(=0.001/=10(小时小时)2023/1/2148可见:可见:尽尽管管厂厂家家给给出出的的寿寿命命指指标标为为1000010000小小时时,但但是是运运行行1010小小时时后后可可靠靠度度就就只只有有0.9990.999了了,所所以以一一般般厂家是无法满足高可靠要求的厂家是无法满足高可靠要求的3 3。中位寿命。中位寿命可靠度等于可靠度等于0.50.5的时刻称中位寿命的时刻称中位寿命4 4。使用寿命。使用寿命在在规规定定的的使使用用条条件件下下,具具有有可可接接受受的的失失效效率率的的时间段时间段2023/1/2149若选用
38、的产品失效率高于给定值,显然是若选用的产品失效率高于给定值,显然是不行的。不行的。选选用用的的产产品品失失效效率率等等于于或或略略低低于于给给定定值值是是合合理理的的,此时此时使用寿命为浴盆曲线的平底部分。使用寿命为浴盆曲线的平底部分。选选用用的的产产品品失失效效率率低低于于给给定定值值很很多多是是不不必必要要的的,会使成本大大增加。会使成本大大增加。2023/1/21501。可维修度可维修度(MaintainabilityMaintainability)M M(t t)=P(t)=P(t):修复的时间修复的时间t t:规定的修复时间规定的修复时间四、可维修性2023/1/2151显然:显然:
39、M M值与规定的修复时间有关值与规定的修复时间有关一般当一般当t t增加(允许的修复时间长),增加(允许的修复时间长),M M也会增也会增加(在加(在t t内修复的可能性增加)内修复的可能性增加)M M值值与与系系统统的的复复杂杂性性及及维维修修条条件件有有关关(不不同同系系统有不同的统有不同的M M表达式表达式)有时也用记号有时也用记号G(t)G(t)表示可维修度表示可维修度并且引入变量:并且引入变量:g(t)=G(t)-g(t)=G(t)-可维修分布密度可维修分布密度2023/1/21522 2。修复率。修复率(t)(t)修修理理时时间间已已达达某某个个时时间间t的的产产品品,在在t时时刻
40、刻后单位时间内修复的概率。后单位时间内修复的概率。(t)与与G(t)的关系:的关系:(t)=g(t)/(1-G(t)一般情况下一般情况下(t)(t)为常数为常数有:有:G(t)=1-eG(t)=1-e-t-t2023/1/21533。平均修复时间平均修复时间MTTRMTTR(Mean Time to Repair)Mean Time to Repair)修复时间的平均值修复时间的平均值当当(t)(t)为常数为常数时时MTTR=1/MTTR=1/2023/1/21544 4。可用度(有效度)可用度(有效度)A(t)A(t)对可维修系统,在给定时刻可能可靠工作,对可维修系统,在给定时刻可能可靠工作
41、,也可能因故障处于维修状态,则用也可能因故障处于维修状态,则用A(t)A(t)表表示可维修系统在给定时刻能处于工作状态示可维修系统在给定时刻能处于工作状态的概率的概率2023/1/2155A(t)A(t)与可靠度是不同的与可靠度是不同的可靠度只涉及投入运行到第一次故障发生可靠度只涉及投入运行到第一次故障发生这段时间系统的行为这段时间系统的行为A(t)A(t)则是研究运行则是研究运行故障故障再运行情况下再运行情况下系统的行为系统的行为实际上指定一个时间计算实际上指定一个时间计算A(t)A(t)没有什么意没有什么意义,但研究一段长时间内系统的可用度则义,但研究一段长时间内系统的可用度则很有意义很有
42、意义2023/1/2156A=AA=A()称称稳态有效度稳态有效度A=MTBF/A=MTBF/(MTBF+MTTRMTBF+MTTR)=(1/1/)/(1/+1/1/+1/)=/=/(+)越大、越大、越小,越小,A A越高越高以后提到可用度都是指稳态可用度以后提到可用度都是指稳态可用度2023/1/2157习题一(第二章)习题一(第二章)1。某设备有某设备有10001000个焊点,工作个焊点,工作10001000小时后,检查小时后,检查100100台这种设备,发现台这种设备,发现有两处脱焊,求焊点的失效率有两处脱焊,求焊点的失效率2。某产品的失效率某产品的失效率=10=10-6 -6 1/1/小时小时1 1)求该求该产品投入运行后产品投入运行后100100小时、小时、10001000小小时、时、1000010000小时、小时、100000100000小时的可靠度小时的可靠度2 2)求该求该产品的平均故障间隔时间产品的平均故障间隔时间3 3)求该产品可靠度为)求该产品可靠度为0.99990.9999的可靠寿命的可靠寿命2023/1/21583。某可维修系统的失效率某可维修系统的失效率=10=10-4-4修复率修复率=10=10-2-2,求可用度求可用度A A4 4。某产品的某产品的MTBF=10000MTBF=10000,求求R R(30003000)2023/1/2159