《分布式容错.ppt》由会员分享,可在线阅读,更多相关《分布式容错.ppt(12页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、分布式容错v分布式系统容错介绍 分布式容错系统是一个自主运行的系统,这种系统具有较强的免疫能力,尽量保证某些错误或者恶劣环境不会导致系统产生故障。同时,系统还具有较强的自愈能力。一旦发生故障,系统不需要外部的干预,通过自身的容错功能,自动从失效中恢复过来,并且不会对整个系统的性能产生严重的影响。免疫:系统具有防范某些故障发生的能力。自愈:系统具有监测、发现、容忍、处理故障和恢复正常的能力。容错是建立在冗余的基础上的,而冗余是指设置超过正常系统操作所需要的信息、资源或时间。v分布式系统的容错方法 依靠硬件冗余设计 通过采用各种专用芯片、特殊电路和专门的实现手段 依靠软件 通过容错调度算法解决分布
2、式系统容错问题 该方法的优点是不需要额外的硬件代价实现提高系统的可靠性v冗余类型物理冗余 可以用硬件冗余的方式或软件冗余的方式来实现,因为硬件和软件在逻辑上是等同的。信息冗余 海明码时间冗余 原子操作和原子事务处理在执行中如果出现故障,相当于它们没有被执行,系统的状态保持不变,所以它们可以重新执行,只是需要额外的时间。分布式容错基本原理v分布式系统故障的最常见形式是静默失效(fail silent),这时出故障节点的处理机不再响应任何输入,也不再产生任何输出。在分布式容错系统中,可以采用监视器进程检测主机的控制流的方法来发现节点的静默失效。单节点静默失效单节点静默失效:主节点的静默失效备份节点
3、的静默失效 主节点的静默失效 当备份节点的监视器进程Watchdog发现主节点失效时,就向系统管理员发出失效警告,同时运行主节点备份进程从而升格为主节点。在对失效节点排除故障重新启动后,原主节点就成为备份节点并运行监视进程;新的主节点的服务器进程MP收到新的备份节点监视进程发来的消息后,就终止本节点的监视进程,从而使系统恢复到失效前的正常工作状态。对于失效时未完成的客户服务,原主节点停止执行,在备份进程启动后再接受客户请求。备份节点的静默失效 可以采用由主节点的服务器进程MP定时检测备份节点的方法。发现其失效后,在本地节点运行监视进程,同时向管理员发出备份节点失效的警告。其后的恢复过程同主节点
4、失效一样。系统分布式容错系统设计采用被动式的主机备份机 系统设计采用被动式的主机备份机 运行模式:主机运行服务器进程,响应客户进程的服务请求,完成各项服务,备份机运行监视进程与备份服务器进程,监视主机的运行状况,在主机完成某个服务请求时备份主机的相应工作状态恢复步骤v当主机由于掉电或其它故障造成失效时,备份机用该机的服务器进程接替原来主机上的服务器进程的工作,并发出主机失效的报告。v失效节点在消除故障重新工作后,自动充任备份 机,运行监视进程,向此时的主机发出监视进程运行的消息v主机收到该消息后,停止本节点监视进程的工作,恢复双机备份工作模式。感谢亲观看此幻灯片,此课件部分内容来源于网络,感谢亲观看此幻灯片,此课件部分内容来源于网络,如有侵权请及时联系我们删除,谢谢配合!如有侵权请及时联系我们删除,谢谢配合!