《IDC机房运维管理.ppt》由会员分享,可在线阅读,更多相关《IDC机房运维管理.ppt(31页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、机房运行维护管理中国计算机用户协会机房设备应用分会副理事长美国可用性研究中心亚太区主任沈卫东内容运行维护管理的意义提高可靠性提高可用性提高安全性提高经济性运行维护管理的本质人员技能的提高(技术的掌握)制度流程的建立、执行运行维护管理的技术手段环境监控设备监控运行维护管理的意义提高可靠性:降低故障率提高可用性:减少宕机时间 提高安全性:减少灾害提高经济性:增长设备寿命运行维护管理的本质人员技能的提高技术培训经验交流运行维护管理的本质制度流程的建立、执行机房运维制度的建立机房运维制度的执行管理机制机房运行管理制度一.值班制度二.巡视制度三.日常管理制度四.运行维护制度五.安全保密制度一.值班制度机
2、房昼夜要有人值班值班人员要遵守值班守则值班守则二.巡视制度1.机房环境的巡视2.机房设备的巡视1.机房环境的巡视机房门窗的关闭情况机房的卫生状况机房的灯光状况机房的空气清新度状况2.机房设备的巡视对网络运行保障设施要经常巡视巡视供电系统、UPS、电池巡视空调的工作状况巡视新风机和空气净化器的工作状况巡视消防报警系统三.日常管理制度经常注意保持机房的环境卫生不得将食品、饮品带入机房机房内禁止吸烟不得在机房内乱扔物品四.运行维护制度配电柜一年进行至少2次维护检查UPS一年进行2次巡检机房专用空调每月进行一次巡检新风机每年2次维护空气净化器每季度维护一次机房消防系统每年一次检测机房防雷设施每年一次检
3、测机房每年进行2次保洁五.安全保密制度1.门禁管理2.防雷击、防火、防水、防盗、防虫害3.网络运行安全管理4.系统设备安全管理5.认真遵守国家的各项保密制度1.门禁制度机房要设有门禁机房门禁7X24小时保持运行机房门禁的2个作用机房工作人员需持卡进入机房非机房工作人员进入机房需登记2.防雷击、防火、防水、防盗、防虫害防雷击防火、防水防盗防虫害3.网络运行安全管理防入侵防病毒涉密网4.系统、设备安全管理进入机房不得带拷贝工具和便携机机房内所有服务器应设有开机密码、系统登录密码机房内所有服务器都应设有带密码的屏幕保护非网管人员不得私自操作任何服务器5.认真执行国家的保密制度涉及政务、金融、高科技、
4、网上交易定期集中销毁废弃的涉密纸、物非机房工作人员在机房工作时必须有机房值班人员陪同机房内各类服务器应由专人分类管理建立设备、资料责任制应用举例附件 机房运行管理制度机房内的危机管理史蒂文芬克(Steven Fink)的危机管理(Crisis Management-Planning for the inevitable):组织对所有危机发生因素的预测、分析、化解、防范等等而采取的行动。罗伯特希斯(Robert L.Heath)的危机管理(Crisis Management for Managers and Executives):管理者考虑如何减少危机情境的发生、如何做好危机管理的准备、如何规
5、划以及如何培训员工应对危机局面、如何从危机中很快复原。危机管理的PPRR模式Prevention(预防)观念、流程Preparation(准备)人力物力资源Response(响应)应急预案,消除危机的短期影响Recovery(恢复)经验总结,消除危机带来的中长期影响应急预案事前“马后炮”“一旦发生XX事故,管理员应该在XX分钟之内采取以下措施:一、XX;二、XX;。”第一步:列出危机或称风险例如,IT系统宕机、火灾、空调漏水、机房温度超高等。第二步:排除不存在的风险第三步:将各种风险列举在应急预案的风险目录第四步:横向分类与纵向分级横向分类:将目录中类似的风险进行分类,比如可将机房的风险划分为
6、的灾难风险(如火灾)、生产中断风险(如宕机)、安全隐患风险(室温过高、接地不良)、财产风险和人力资源风险等等。纵向分级:按各类风险的大小和威胁程度排序,从而建立起风险管理的优先顺序。比如可将IT系统宕机定为I级风险,而将室温升高定为II级风险,将湿度过低定为III级风险。第五步:设计针对这些风险的预先和应急处理措施1.对可以预见且时间和资源允许处理的风险,采取排出和缩减。2.对可以预见但可能发生概率较低的风险,可以进行风险转移。如,将火灾风险转移给保险公司,将UPS停机风险转移给UPS厂商或UPS服务商。3.对现在没有表现出来,但其爆发总存在一定征兆的风险,采取建立预警系统对其监控。4.对那些
7、发生时间完全不可预测的风险,则必须建立起一个协调人力资源的“危机处理机构组织结构图”以及一个指导人员操作的“危机应对表”,使运维管理人员和相关部门、人员能够在危机发生时有组织地、按部就班地执行。“危机处理机构组织结构图”的建立预先协调跨部门的资源“危机应对表”管理人员根据对各种可能出现的危机设想,设计出的应对措施。环境监控机房电力质量监测机房温度监测机房湿度监测新风风量监测IT微环境监测机架电力质量监测机架温度监测机架湿度监测运行维护管理的技术手段监控对象故障预测:防止故障的发生故障报警:缩短故障恢复时间运行维护管理的技术手段监控目的 故障预防3/1/202328-2-101234发现隐患采取措施设备将发生故障设备发生故障的 时间被推迟 故障恢复10234567故障发生服务商收到详细报警信息管理员收到详细报警信息服务商判断故障部件服务商携带部件赶到现场服务商更换部件系统恢复总结运行维护管理的意义提高可靠性提高可用性提高安全性提高经济性运行维护管理的本质人员技能的提高(技术的掌握)制度流程的建立、执行运行维护管理的技术手段环境监控设备监控谢谢!Albert.Shencra-