《动态故障树分析方法在容错计算机系统中的应用.pdf》由会员分享,可在线阅读,更多相关《动态故障树分析方法在容错计算机系统中的应用.pdf(7页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、动态故障树分析方法在容错计算机系统中的应用+程明华姚一平(北京航空航天大学自动控制系,北京,1 0 0 0 8 3)捕蔓关键应用中的窖错计算机系统,为了获得高的可靠性-经常采用动态余度管理、储备及复杂的故障,错误恢复技术使计算机系统呈现出很强的动态性和实时性,而这些特性是用一般的故障树分析方法所不能描述的本文介绍了一种新的动态故障树建模分析方法,用来解决这些困难,并给出了一个具体的例子,以说明这种方法的应用。关键词动态故障树分析(D I 一A)容错计算机系统M m-k o v 状态转移链1 概述故障树分析方法经常被用来对关键系统进行可靠性分析,故障树模型及其相应的处理方法已经广为人们所接收。但
2、是,对于复杂系统的故障树,由于含有较多的基本事件,进行精确的综合分析花费是很大的。并且,在高级的容错系统中,一些重要动态行为,如故障恢复、时序相关的故障和冷储备的应用等,无法用一般的故障树模型来描述。M a r k o v模型具有足够的灵活性,可以用来描述几乎所有的动态系统的状态转移过程,但是,应用M a r k o v 模型,对即使是一个相对简单的系统,其建模过程都是烦琐的,并且容易出现错误。动态故障树是在一般故障树分析方法的基础上,结合M a r k o v 状态转移链方法而发展起来的一种新的可靠性分析方法。我们可以在故障树的基础上建立一些新的逻辑符号(动态逻辑门),在故障树模型中,利用这
3、些新的符号表示底事件和顶事件间的动态、时序的逻辑关系。动态系统故障行为可以由动态故障树直接地表示出来,在进行系统的可靠性分析计算时,将动态故障树转换为相应的M a r k o v 状态转移链,利用M a r k o v 状态状态转移过程来表示系统中的动态和时序的过程,并利用M a r k o v 状态转移过程分析计算系统的可靠性,一这样即避免了建立M a r k o v 状态转移链图过程中复杂且容易出错的困难,也应用了M a r k o v 状态转移链的图解方法取代了M a r k o v 状态过程解析求解的计算机算法的繁琐工作。动态故障树分析方法结合了故障树分析方法和M a r k o v
4、状态转移链方法两者的优点,同时克服了各自的缺点,具有广泛的应用前景。2 动态逻辑门及其向M a r k o v 状态转移链的转换对于一个动态系统,为了能够用动态故障树对其进行分析,必须建立系统的动态故障树模型。实际上,在系统的动态故障树模型中,很大部分是由一般的故障树分析方法就可以描述的,对这部分可以用一般的故障树方法处理;对于一般故障树所不能描述的动态、时序过程,我们介绍几种新的动态逻辑门来处理,并给出其向M a r k o v 状态转移链的转换:本文由国防科技预研基金和航空科学基金资助2 1 功能触发门如图1 所示,功能触发门由一个触发输入(既可以是一个基本事件,也可以是故障树中其它门的输
5、出),一个不相关的输出(反映触发事件的状态)和若干个相关的基本事件组成。相关基本事件与触发事件功能相关,当触发事件发生时,相关事件被迫笈生,相关事件以后的故障对系统没有进一步的影响,可以不再考虑。根据触发事件和相关基本事件之间的关系,对图1 所示包含两个基本事件的功能触发门,可以得到与之相对应的M a r k o v 状态转移链,如图2 所示。图l 功能触发门图2 功能触发门的M a r k o v 状态转移链2 2 优先与门如果个与门,它的两个输入基本事件必须按照特定的顺序发生,它的输出事件才发生,这样的与门就称为优先与门,如图3 所示。优先与门有两个输入A 和B。如果事件A和B 都发生,并
6、且A 事件在B 事件之前发生,输出事件才会发生。如果两个输入没有全部发生,或事件B 在事件A 之前发生了,输出事件也不会发生。对于事件A 在事件B 之前发生,而B 叉在事件C 之前发生的系统行为,可以用图4的优先与门的组合来表示。对于更多基本事件间的这种顺序发生关系,可以依此类推,也可以用下面介绍的顺序门来表示。图3 优先与门2 3 顺序门图4 优先与门的组合表示顺序门强迫门下面的事件以从左到右的次序发生。与优先与门相比,优先与门检测事件是否以一定的顺序发生(事件可能以任何顺序发生),而顺序门强制事件只能以特定的。顺序发生。顺序门包含两个或两个以上的输入,如图5 所示。顺序门和优先与门都可以表
7、示系统事件的时序性,一个顺序门表示的时序关系,可以由几个优先与门的组合来表示,因此这两个门在M a r k o v 状态转换时是相同的,如图6 即算多舭。酉巍为图4 所示的优先与门的组合和图5 所示顺序门的M a r k o v 状态转移链。2 4 冷储各门冷储备门用来表示系统中的冷储备情况。冷储备门包括一个主输入事件和若干个储备输入事件,如图7 所示。由于储各在主输入运行期间不通电、不运行,其储备故障率为0,储备期的长短不影响其以后的工作寿命。只有当主输入故障后,储备输入才通电运行,替代主输入,第一个储备输入故障后,才启动第二个储备输入;依此类推。当所有的输入都故障后,门的输出事件才发生。由
8、以上所述的逻辑关系,可以得到冷储备门的M a r k o v 状态转移过程。图8 是有n 个冷储备时的状态转移过程,这个过程同优先与门和顺序门的状态转移过程十分相似,但是在每个节点上的自身转移概率是不同的,在计算故障率时这一点尤为重要。S E O图5 顺序门C S P图7 冷储备门图6 顺序门的M a r k o v 状态转移过程图8 冷储备门的M&r k o v 状态转移过程在以上各种动态逻辑门的M a r k o v 的状态转移链建立之后,就可以借助于有关状态转移链计算公式(参见参考文献5)进行计算。3 动态故障树分析方法的应用举例我们结合一个容错计算机系统的例子,来说明动态故障树分析方法
9、的应用。系统的结构如图9 所示。这个容错计算机系统中,有一对余度处理器A1 和A 2 及冷储各处理器A,A 可以替换A l 和A 2 中故障的任何一个:系统中还有两个存锗单元M 1和M 2,通过一个存储接口单元U 连接到余度总线上,如果存储接口单元U 发生了故障,与它相连的存储单元M I 和M 2 就无法再使用了;同时,系统还有一个操作人员,通过一个控制台,运行相应的控制软件对系统进行人工控制操作。系统正常运行时,要求至少有三个处理器中的一个、所有存储单元和一条余度总线正常运行,另外,操作人员、控制台和相应的软件也能正常工作。下面我们对该计算机系统的各部分逐个进行分析。3 1 处理器模块首先考
10、虑双余度处理器A 1 和A 2 及其冷储各A。冷储备A 可以替换A 1 或A 2 中故障的任何一个。冷储备在运行之前储备故障率为0,若A 1 或A 2 发生故障,A 转换为运行状态,其故障率跳变为一个非0 值a图9 容错计算机系统结构图图1 0 是描述处理器故障行为的动态故障树模型。在动态故障树模型中,这种不连续的故障率用冷储备门来处理。冷储备门最左边的输入是首先运行的部件(主输入),其它的输入代表冷储备的部件,冷储备部件在必要时转换到运行状态。如图1 0 所示,冷储备门可以共事储备输入。处理器故障图l O 处理器的故障树模型图11 存储单元的故障树模型3 2 存储单元存储单元是利用功能触发门
11、动态建模的一个很好的例子。存储单元通过接口单元U 连接在总线上,在系统运行过程中,存储接口单元u 必须正常运行,以保证系统可以利用存储单元M 1 和M 2 进行存取操作。这样,我们就说存储单元与接口单元功能相关。图l1 是利用利用功能触发门来描述存储单元故障行为的故障树模型。接口单元是功能触发门的触发输入,存储单元是相关基本事件。3 3 系统的动态故障树系统的故障树如图1 2 所示。控制台基本事件代表了硬件,而控制台软件基本事件代表了应用软件。用菱形表示的标记为“操作人员”的事件代表了操作人员可能引起的潜在的故障。为简单起见,系统的余度总线用“2*B u s”来表示为两个相同的基本事件,在逻辑
12、上,这两个相同的事件分别处理。图1 2 整个系统的动态故障树在建立了系统的动态故障树之后,就可以利用动态故障树分析方法对系统进行定量的可靠性分析了。在整个系统的动态故障树中,由于处理器、总线、存储单元和控制台、操作人员及软件各部分之间没有共享的输入基本事件,所以可以作为独立的模块单独处理。对控制台、操作人员及软件模块和总线模块,由于其故障树不含有动态门,就用一般的故障树方法处理;而对于处理器模块和存储单元模块,由于其故障树中含有冷储备门和功能触发门,故需要按照动态故障树的处理方法,将其转换为M a r k o v 状态转移链,然后再计算。对存储单元模块,其M a r k o v 状态转移链可参
13、考图2 所示。对于处理器模块,根据故障条件,可以得到其M a r k o v 状态转移链,如图1 3。图1 3 处理器模块的M a r k o v 状态转移链最后用四个基本事件(具有相应的故障率或故障概率)分别代替各个模块,综合这四个基本事件就可以得到整个系统的故障概率。6 74 结论对含有动态逻辑门的处理器模块和存储单元模块,利用状态转移链计算公式进行计算,得到结果如下各部件故障率五(1 0“),J、时各模块的故障概率FA 1A 2AUM 1M 2处理器模块存储单元模块1 01 01 0ll O1 0g 8 8 1 8 1 0 一】61 0 0 0 I i 0-6根据对动态故障树的计算分析结
14、果,可以得到如下结论:故障覆盖率为I 的情况下,在容错系统中采用冷储备可以大大提高系统的可靠性。在功能触发门中,触发事件故障率对功能触发门所在的模块的故障概率影响较大,应提高导致触发事件发生的部件的可靠性。动态故障树分析方法具有一般故障树方法的实用、灵活、直观等特性,利用这种分析技术可以非常明了地对系统进行描述,用来解决一般故障树所不能表达的动态系统中的时序、动态的逻辑关系。这种方法可以应用到航空、航天等具有软腰件的计算机系统中,将为分析和改进系统可靠性起到重大作用,具有广阔的应用前景。动态故障树分析方法是一种新的可靠性分析方法,其具体的应用还存在着很多问题,如在个复杂的动态故障树中寻找独立的
15、模块以简化处理过程,在动态故障树中考虑覆盖率模型等,需要进一步研究。参考文献1 J B D u g a n,B V e n k a t a r a m a n,R o b i tG u l a t i,“D I F h e e:As o f h v a r ep a c k a g ef o r t h ea n a l y s i so fd y n a m i cf a u l tt r e em o d e l s,I nP r o c e e d i n g so ft h er e l i a b i l i t ya n dM a i n t a i n a b i l i t y
16、S y m p o s i u m,J a l T u a r y)1 9 9 72 J B D u g a n,S a l v a t o r eJ B a v u s oa n dM a r kA B o y d“D y n a m i cF a u l tT r e eM o d e l sf o rF a u l tT o l e r a n tC o m p u t e rS y s t e m s,”I E E Et r a n s a c t i o nR e l i a b i l i t y,V o l u m e4 1,N u m b e r 3,S e p t e m b
17、 e r19 9 2,p a g e s3 6 3 3 7 73 杨小军,姚一平,李沛琼,“动态故障树分析方法在飞控系统中的应用”,中国航空学会控制与应用第七届学术年会,1 9 9 64 姚一平,李沛琼编著,可靠性与余度技术,航空工业出版社,1 9 9 1,75 张福渊,李沛琼,韩于羹,状态转移链法一不可修的马氏型系统的可靠性分析,航空学报,V 0 1 5,N o2,1 9 8 46 曹晋华,程侃著可靠性数学引论,科学出版社,1 9 8 66 8动态故障树分析方法在容错计算机系统中动态故障树分析方法在容错计算机系统中的应用的应用作者:程明华,姚一平作者单位:航空航天大学自动控制系被引用次数:5次 引证文献(2条)引证文献(2条)1.孔德良.王少萍 可修系统的可用度分析方法研究期刊论文-北京航空航天大学学报 2002(2)2.王少萍.孔德良 容错飞行控制系统的可用度分析期刊论文-计算机工程与科学 2001(5)本文链接:http:/