《机务维修机构安全管理体系初探.doc》由会员分享,可在线阅读,更多相关《机务维修机构安全管理体系初探.doc(11页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流机务维修机构安全管理体系初探.精品文档.机务维修机构安全管理体系初探谢伟杰(厦门航空公司机务部,361006) 摘要:伴随世界民航业的迅猛发展,安全的需求和理念也在不断的发展和完善当中。新的安全形势要求对机务维修采取主动的管理方法 机务维修机构的安全管理体系(SMS)。安全应该是对风险的有效管理和控制。本文着重讨论了机务维修中的风险管理过程,包括风险识别、风险分析、风险的量化计算、风险优先权设定以及风险的规避措施。风险解决后,还应该进行监控,以形成一个闭环的管理体系。关键词:安全管理体系, 机务维修, 风险评估。1 引言航空运输中的安全管理体
2、系(SMS)在国际民航组织的倡议下,已经成为未来民航安全管理的发展趋势。当然,这也是国际民航组织附件6中提出的要求。从目前国际上各个国家民航当局所反应的态度来看,都是积极推广和采纳的。SMS对强化航空运输安全,保障飞行安全,特别是未来飞行安全有促进作用。航空安全管理体系(SMS)覆盖范围非常广泛,它包含飞行、空管、机务、机场等涉及航空安全的方方面面。但是,直到最近,大家才把注意力转移到机务维修上。根据欧洲航空安全局(EASA)2006年出版的年度安全报告,1997年至2006年,飞机系统 / 部件的失效或故障已经成为导致航空事故的一个主要因素。安全飞行很大程度上依赖于飞行器的适航性。因而,机务
3、维修的安全管理,也就成为安全飞行的一个重要组成部分。机务维修可以定义为在飞机的整个服役寿命内,保持或改进飞机及其系统、子系统、部件的适航性和固有可靠性的技术活动。机务维修是一个包含多种专业,并且人、机器、设备等多种因素相互关联的复杂系统。与飞行相比较,机务维修的失误有其特殊性。飞行中的失误,可能立刻就会造成后果,飞行员立刻就会得到失误反馈。而机务维修中的失误,不容易在短时间内显现出来,可能需要一段时间,甚至是一段相当长的时间才能产生后果。机务工作者对自己在工作中的失误很难得到及时的反馈。正因为如此,把机务安全管理的精力集中在对维修事故或差错的跟踪调查上是很被动的。安全管理始于已发生的事故和教训
4、是亡羊补牢的产物。需要建立一个积极主动的安全管理方法,通过跟踪调查可能导致事故或差错的潜在因素,把它们认识和识别出来,研究它们的发生原理,通过采取有效的措施,使事故不再发生,这是机务维修安全管理的关键所在。2 认识安全2.1 什么是安全认识安全管理体系(SMS),首先需要认识什么是安全。当然,完全消除事故和差错,这是绝对的安全。但是,这种绝对安全是不可能达到的。安全风险是不可能完全被消除的。所以安全是一个相对的概念,是指组织或个人借助有效的措施,将系统固有的风险降低并控制到最小程度或可接受的水平。所以,安全,应该理解为对风险的有效管理和控制。2.2 传统的安全管理传统的安全管理是对事故 / 差
5、错的被动式反应。事故或差错发生后,通过对其调查分析,然后采取一系列措施,使已发生的事故 / 差错不再重现。这是一种事后的、开环的、局部的安全管理方法。随在世界各国民航业的迅速发展,这种安全管理方法已经不能保证将未来的航空风险控制在可接受的水平上,已经不能适应世界航空业迅速发展的要求。2.3 安全管理体系(SMS)的基本原理为了将航空安全的风险降低到可以接受的水平,现代安全管理体系应该从传统的被动安全管理转变为主动的安全管理。安全隐患或影响安全的潜在因素在破坏安全,演变成安全风险时应该被主动识别出来。也就是说,在安全风险转变成安全事故前,能够通过安全管理程序,主动识别安全风险,从而能够采取多方面
6、的措施有效控制风险。根据现代安全理论,事故的发生并不是由一个或两个失误引起的。通常一个事故总是伴随着一系列破坏安全体系的事件发生的。这些破坏安全体系的事件通常包括决策失误、执行失误、固有条件引起的失误等。这些失误通常是在某些潜在条件下发生的。系统中本来就固有许多能够导致失误或影响安全的潜在因素,例如:设备老化,缺乏管理;时间压力;工作者经验不足;组织缺陷;缺乏有效的沟通;工作环境差等。有效的安全管理体系(SMS),应该将管理的目标定位于识别系统中能够导致失误或影响安全的潜在因素,而不是孤立地减少不安全事件。这是因为,所发生的不安全事件仅仅是安全问题产生的后果,而不是引起安全问题的原因。系统中能
7、够引起安全问题的潜在因素是不可避免的,所以必须采取措施,识别它们,并降低它们的负面影响。无论采取何种事故分析模型,任何事故或差错在其发生前都有明显的先兆。尽管事故后的调查分析非常重要,但是对可能引起事故的潜在因素的风险评估可能更为重要。特别是在机务维修中。因为事故毕竟是极少数的,把精力集中在极少数的事件上,这是安全管理上的浪费。可引起事故或差错的潜在因素可能有数十条甚至数百条,如图1所示。这些潜在因素应该在事故发生前尽可能被识别出来。严重事故事故差错事件图1 事件是事故的先兆Figure 1: Events are precursors of accidents机务维修过程中存在许许多多可能导
8、致事故和差错的潜在因素,主要包括以下方面: 设备(人体工程学设计,设备的可维护性,设备的操控性等); 基础设施(环境,温度,湿度,灯光等); 人及文化因素(身体状况,生理状况,心理状况,社交状况等); 团队的安全文化(团队的信心,经验共享,团队的态度等); 成本因素(在实现生产经营目标与安全目标之间的平衡)。有效的机务维修安全管理体系(SMS)是建立在有效的风险评估和管理的基础上的安全决策。这实质上与现代飞机维修思想是一致的。例如,飞机维修周期的确定,就是建立在飞机及其系统、子系统、部件在下个检修周期中,不发生失效的概率上。一些飞机部件,经常因为到时限而被更换。这并不是因为这些部件已经不可用或
9、已经失去原有的功能,而是基以设计和维修经验,为将风险降低到可接受的水平而采取的一种措施。3 安全管理过程首先列出可能影响安全的各种潜在因素。除了潜在因素本身外,还应该搞清楚各种因素之间的相互关系 / 联系。这需要系统的调查研究。安全管理体系是基于事实的管理,需要分析数据,评估风险,从而识别各种危险因素。各种风险因素根据其危险程度的不同,设定一个优先权。危险程度高的风险因素优先权高,需要优先采取措施消除或降低其风险。一个过程结束后,又重新进行新一轮的风险鉴别、风险评估和降低风险的程序,以形成闭环控制系统。如图2所示。鉴别风险风险分析设定优先权解决风险监控风险图2 风险控制过程Figure 2:
10、Standard risk management process3.1 数据采集机务维修安全管理体系(SMS)启始于收集相关的安全数据。安全数据的采集可以通过以下途径进行: 事故和差错报告系统自愿或强制性的报告系统; 对所报告的事故和差错的调查和后续措施; 趋势分析; 培训中的反馈; 飞行记录器中采集到的飞行数据分析; 安全调查、安全监督、安全审查; 维修记录、维修日记; 相关单位的信息; 根据模型推导出来的模拟结果; 其它可以获得的安全数据。对于一个机务维修机构,必须建立一套安全标准,对主要的机务维修行为进行监测。这些安全标准称为“安全指示器”,用于监测机务维修行为是否按照预期的目标运行,是
11、否有薄弱环节需要加强。“安全指示器”应该能够很容易地检测并关联到主要的机务维修行为上。3.2 风险分析每一个识别出来的风险都必须进行分析和评估。风险评估技术需要汇集并分析所有可能获得的数据,以确定在什么条件下,风险能够造成实质的危害,可能造成的后果,以及风险造成实质危害的可能性(概率)。通常风险评估包括以下三个方面: 计算事故的发生概率; 估算事故的严重程度、后果; 估算风险转变为事故的速度。3.2.1 定性质分析风险分析可以是定量分析,也可以是定性分析。定性分析通常是由多学科的专家队伍,运用归纳和演绎、分析与综合、比较的方法,将风险评定为“不可能发生”、“可能发生”、“很可能发生”等多种级别
12、。此外,定性分析也可以运用一些分析方法和分析工具,这些分析方法一般由数学模型转化而成。例如:统计分析、趋势分析、模拟研究、专家系统、成本分析等。3.2.2 定量分析随着风险分析技术的发展,越来越多的分析方法可以提供定量的风险分析结果。风险的量化数值等于风险的发生概率和风险产生的后果的乘积,可以用公式1计算: 风险数值 = 风险产生的后果 风险的发生概率 . (1)风险的发生概率是指一个单一孤立的风险发展转变为事故的可能性,用符号Pf表示。风险的发生概率Pf可以用公式2计算: (2)公式2中指系统、组件、部件的失效速率,它可以用失效前的平均寿命MTFB(Mean Time Between Fai
13、lure)的倒数来表示,见公式3: . (3)由于机务维修包含多种元素,各个元素都可能对整个过程带来风险,所以就必须计算多个风险的联合概率。例如,两个独立的元素E1、E2,它们之间的“与”关系P(E1 + E2),表示E1、E2同时发生的概率,可以用公式4来表示;它们之间的“或”关系P(E1E2),表示E1、E2至少发生一件的概率,可以用公式5来表示。 P(E1 + E2) = P(E1)P(E2). (4) P(E1E2) = P(E1)+ P(E2) P(E1)P(E2). (5)上述风险分析原则可以用一个简单的例子说明。例如,我们需要评估空中交通防撞系统TCAS对某型飞机飞行安全的可靠性
14、。统计过去几年TCAS系统的使用数据,得出TCAS系统在某型飞机上失效前的平均寿命为5000飞行小时,即TCAS系统的MTBF = 5000飞行小时。根据公式3,计算出TCAS系统的失效速率值:根据公式2计算出平均每次飞行时,TCAS系统的失效概率Pf :假如平均每次飞行时间为2飞行小时,TCAS系统失效可能造成的后果PC经专家队伍评估为0.1。根据公式1,TCAS系统对某型飞机每次飞行的飞行安全的风险数值PTCAS为:3.2.3 失效树分析失效树分析方法是一种逻辑分析方法。它通过对可能造成系统失效的各种因素,包括软件、硬件、环境、人为因素等进行分析,画出逻辑图,即失效树,从而确定系统失效原因
15、的各种可能的组合方式和发生概率,以计算系统的失效概率,采取相应的纠正措施,提高系统的可靠性。失效树的建造是失效分析方法的关键。机务维修的失效树建造工作十分庞大和烦杂,所以要求建树者必须十分慎重、仔细,并且广泛掌握飞机设计、使用、维护等方面的经验知识。建造失效树一般可按下述步骤进行: 广泛收集并分析有关技术资料; 选择顶事件; 建树; 失效树的简化。图3显示的是以“部件安装错误”作为顶事件的失效树分析案例。该失效树分析了导致部件安装错误的几种可能原因的组合。事件A(培训不足)如果和事件B(工作程序复杂)同时发生,就将导致对工作任务的理解偏差;如果工作任务中所包含的工具设备复杂(事件C),那么就会
16、导致部件安装错误。即事件A、B、C同时发生(“与”关系)将导致部件安装错误。另一方面,如果工作者的培训是足够的,但在时间压力下工作(事件D),并且缺少质量监督(事件E),此时如果工作环境差(事件F或事件G),也可能导致部件安装错误。部件安装错误A 培训不足;B 工作程序复杂;C 工具设备复杂;D 时间压力;E 缺少质量人员;F 灯光不足;G 接近困难。图3 “部件安装错误”的失效树分析案例Figure 3: Fault tree analysis example上述失效树分析结果,如果结合3.2.2中的公式,就可以计算出各事件组合导致部件安装错误的概率。所以,失效树分析不仅能进行定性的逻辑分析
17、,还可以计算复杂系统的失效概率以及其他的可靠性参数,为降低和控制风险提供定量的数据。3.3 设定风险优先权风险的优先权是根据风险的影响力大小而设定的。影响力很大的风险,优先权设定为最高,应该立即解决;影响力中等的风险,优先权中等,应该采取有效的措施控制;影响力最小的风险,优先权最低,需要引起足够的关注。设定风险优先权时,还应该考虑一个风险可能造成多个后果,不能仅仅根据风险所造成的某个后果而设定其优先权。当然,设定风险优先权时还需要进行成本效益分析,在企业的安全目标和经营目标之间寻求平衡。风险优先权最高发生频率经常发生可能发生可能性极小不可能发生A 可接受的风险C 采取控制措施后可接受的风险U
18、不可接受的风险造成的后果造成后果的等级:1 无后果; 2 小后果; 3 中等后果; 4 严重后果; 5 事故。图4风险矩阵表Figure 4: Risk matrix form风险优先权可以用风险矩阵表来表示,如图4所示。图4的风险矩阵表中,左上角表示高频率但影响力低的事件,例如个人工具保养不好,天气炎热等。这类事件虽然经常发生,但对事故、差错没有直接的影响,不要求立即处理。右上角表示高频率且影响力高的事件,例如时间压力大,缺少质量监督等。这类事件对安全事故有很大的影响,具有最高的优先权,必须立即解决。3.5 发展风险规避策略机务维修行为充满不确定性,所以对风险的管理和控制显得尤为重要。风险识
19、别分类之后,就应该采取措施规避风险。规避风险应该从优先权最高的风险开始。可以采取多方面的措施降低或限制风险可能造成的负面后果。例如: 终止维修行为以消除风险; 接受风险可能造成的后果,继续维修行为; 采取措施,将风险降低到可接受水平上。风险解决的过程可以用图5表示。需要强调的是,解决风险并没有普通适用的方法,维修机构应该根据自己的条件制定措施。重要的是,任何措施执行后,应该有反馈,以评估是否达到预期的目标,是否产生新的安全问题,最终形成闭环控制系统。解决风险终止维修行为,消除风险。降低风险至可接受的水平。继续维修行为,接受风险。回避风险增加裕度减少风险风险转移图5 风险的解决过程Figure
20、5: Risk resolution process例如,在3.2.2中计算出某型飞机每个飞行循环TCAS系统风险数值为PTCAS = 410-5。如果评估认为这个风险数值太高,不可接受。那么,可采取安装第二套TCAS系统的方法以降低风险。安装第二套TCAS系统后,根据公式4可计算出两套系统对飞机的风险值:PTCAS(1,2)= PTCAS1PTCAS2 = 410-5410-5 = 1.610-9这个风险值为可接受数值。即解决风险成功。3.6 监控已解决的风险风险识别、分类、采取措施控制后,还需要跟踪风险的解决效果。如果满足以下条件,则说明风险已经被成功解决。 安全事件已经被成功预防; 安全
21、事件产生的条件或时机已经被消除; 安全事件所产生的后果可以通过应急措施完全控制。3.7 风险管理记录最后的步骤,安全管理体系(SMS)的文件管理。在完成上述步骤后,应记录相关信息,完善风险管理记录。风险管理记录文件中应包括风险的编号、描述、后果,以及经过专家小组评估认为风险发生的可能性、严重性和可接受性,同时还应记录任何需要采取的规避措施。当有新的风险被识别出来后,要更新风险管理记录并提出新的风险规避建议。以事实说明风险已经被识别、评估、分类,并且采取措施消除或控制在可接受的水平上。4 结论安全管理体系(SMS)是提高机务维修安全水平最为有效的方法之一。SMS是一个有组织的安全管理系统,包括必
22、要的组织机构、职责、管理政策和管理程序。本文着重讨论了SMS中的风险评估过程,包括风险识别、风险分析、风险的量化计算、风险优先权设定以及风险的规避措施。这些问题在风险管理中可能是最重要也是最容易出错的。风险管理的困难之处是对风险的量化分析。由于机务维修的复杂性和不确定性,风险的量化可能非常困难。但是无论采取何种分析方法,都应该使风险管理形成一个事前的、主动的、系统的、闭环的管理体系。SAFETY MANAGEMENT SYSTEM IN AIRCRAFT MAINTENANCE ORGANIZATIONSXie Weijie ABSTRACT: The air transportation s
23、ystem in the world is outgrowing the capabilities of the current aviation safety system. Present circumstances call for a proactive approach to managing safety denoted as a safety management system (SMS) in aircraft maintenance organizations. As a consequence, safety is increasingly viewed as manage
24、ment and control of risks. Safety management principles and practices in the areas of aircraft maintenance are analyzed and explained in the paper. Risk management process comprises risks identification, analysis of drivers, calculations of probabilities, risks priority settings, and actions to resolve risks. All targeted risks must be monitored and new risks must be identified, what makes safety management system a closed loop. Key words: safety management system, aircraft maintenance, risk assessment