某机房运维方案11938.pdf

上传人:得** 文档编号:79840882 上传时间:2023-03-21 格式:PDF 页数:62 大小:4.30MB
返回 下载 相关 举报
某机房运维方案11938.pdf_第1页
第1页 / 共62页
某机房运维方案11938.pdf_第2页
第2页 / 共62页
点击查看更多>>
资源描述

《某机房运维方案11938.pdf》由会员分享,可在线阅读,更多相关《某机房运维方案11938.pdf(62页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、-.z.机房运行维护工作建议书 为加强*单位数据中心机房各系统的运行维护和管理工作,保证系统长期稳定、高效运行。根据*信息化工作管理规定,编制适合于*机房运维方案。1.运维现状分析*数据中心机房目前由*部门管理,由指定的外协公司承接根本运维工作,其职能限定于出入平安、配件管理、设备管理、运行物理环境管理。对于设备本身及其运行维护、软件运行维护等工作,仍由各个供给商按工程签订的协议提供免费效劳,目前这些免费效劳大局部处于过期或者即将到期的状态。目前机房运维没有涵盖桌面终端、大楼综合布线、楼层配线间与设备间等,未构成一个完整的运维体系。1.1.故障连带现象 多方运维导致机房出现中断或者效劳不良的情

2、况时有发生。*公司机房由于始终未能受到规统一的运维管理,加上机房作为数据核心,由各种外部单位组成的运维团队无论在数据平安性、人员责任感、技术全面性等方面,都难以保持机房的持续性运转。我们没有准确的数据来说明机房的运行情况,这也是目前运维工作尚未达标的一种表现,同样,这也导致我们对现状无法进展准-.z.确描述。但是,通过一些现象仍然可以发现机房运维工作应该大幅度改良。1.1.1.长时连续网 具体原因不详,但由于机房效劳器大局部无法接通,地区的二级单位网络依赖的 DHCP 效劳无法使用等现象持续多个小时,发现晚,响应慢。1.1.2.上班时间网速慢 具体原因不详,但简单归结为 SEP 或者人多并不能

3、完全的解释网速慢的问题,由于网络是信息化建立的根底,充分发挥机房部与外部的资源是运维工作的重要职责。1.1.3.效劳意外退出 当虚拟机系统开场引入后,我们时常发现挂载在虚拟机系统上的一些效劳器无故宕机且不知道任何原因,当用户需要使用时,由于无法自动恢复,影响正常工作。1.1.4.不易寻找责任人 机房是一完整的整体,涉及到环境、网络、效劳器、存储、操作系统、数据库、应用软件等,当一个故障发生时,难以判定故障原因,而目前机房是各个外协单位各施其责,最终造成故障排除时间缓慢,相互推诿的情况时有发生。-.z.1.2.半自动化运维现状 目前许多企业的 IT 运维已经实现从人工运维到计算机管理,但延展咨询

4、在同客户的交流中发现其中很多企业的 IT 运维管理还只是处在“半自动化的运维状态。因为这种 IT 运维仍然是等到IT 故障出现后再由运维人员采取相应的补救措施。这些传统式被动、孤立、半自动式的 IT 运维管理模式经常让 IT 部门疲惫不堪,主要表现在以下三个方面:1.2.1.运维人员被动、效率低 在 IT 运维过程中,只有当事件已经发生并已造成业务影响时才能发现和着手处理,这种被动“救火不但使 IT 运维人员终日忙碌,也使 IT 运维本身质量很难提高,导致 IT 部门和业务部门对IT 运维的效劳满意度都不高。目前绝大多数的企业 IT 运维人员日常大局部时间和精力是处理一些简单重复的问题,而且由

5、于故障预警机制不完善,往往是故障发生后或报警后才会进展处理,,使到IT 运维人员的工作经常是处于被动“救火的状态,不但事倍功半而且常常会出现恶性连锁反响。1.2.2.缺乏一套高效的 IT 运维机制 目前许多企业在 IT 运维管理过程中缺少自动化的运维管理模式,也没有明确的角色定义和责任划分,使到问题出现后很难快速、准确地找到根本原因,无法及时地找到相应的人员进展修复和处-.z.理,或者是在问题找到后缺乏流程化的故障处理机制,而在处理问题时不但欠缺规化的解决方案,也缺乏全面的跟踪记录。1.2.3.缺乏高效的 IT 运维技术工具 随着信息化建立的深入,企业 IT 系统日趋复杂,林林总总的网络设备、

6、效劳器、中间件、业务系统等让 IT 运维人员难以沉着应对,即使加班加点地维护、部署、管理也经常会因设备出现故障而导致业务的中断,严重影响企业的正常运转。出现这些问题局部原因是企业缺乏事件监控和诊断工具等 IT 运维技术工具,因为在没有高效的技术工具的支持下故障事件很难得到主动、快速处理。现在随着 IT 运维管理工作的复杂度和难度的大大增加,仅靠过去几个“运维英雄或“技术大拿来包打天下已经行不通了,企业开场需要运用专业化、标准化和流程化的手段来实现运维工作的自动化管理。因为通过自动化监控系统能及时发现故障隐患,主动的告诉用户需要关注的资源,以到达防患于未然。例如,全天候自动检测与及时报警能实现

7、IT 运维的“全天候无人值守,大大降低 IT 运维人员的工作负担。而且,通过自动化诊断能最大限度地减少维修时间,提高效劳质量。因此,对于越来越复杂的 IT 运维来说,将纯粹的人工操作变为一定程度的自动化管理是一个重要开展趋势。-.z.1.3.规制度不健全 IT 系统三分建、七分管,运维管理十分复杂,技术要求高,涉及围广,实施难度大,突出有“三难。1.3.1.职责难明 IT 系统运维管理离不开使用、建立、运维三方的共同努力。不能将所有运维责任归于运维部门,运维部门与其他部门相互配合程度低,导致运维人员压力大,处理事务多。哪些由使用部门负责,哪些由运维部门负责,难有明确的职责界定。1.3.2.资料

8、难全 网络设备价格和系统集成复杂度不断降低,部门自建“网中网、“小系统现象愈加普遍,资料准确性和完整性不断降低,给清查设备和排查故障带来很大困难,运维部门掌控系统资源越来越难,运维管理资料难求完整。1.3.3.绩效难估 运维部门有个“两难境界:系统问题越多,工作量越多,但有人认为维护水平越低;维护水平越高,问题越少,但别人认为工作量越少。运维部门绩效评估难以用业务部门类似的指标来衡量,不能受到公平评估。因此运维人员积极性越来越低,人员流失率高。-.z.2.总体目标 2.1.机房运维管理规化、流程化、制度化 鉴于最终用户对信息化效劳持续性供给的要求,*数据中心机房运维工作急需由被动式变更为主动式

9、,针对以下容进展规化管理,确保其持续运行时间与工作性能满足生产需求。机房环境,包括温度、湿度、供电、防雷、消防、承重等;机房设备,包括效劳器、交换机、存储、网络平安、通讯等设备;机房链路,包括骨干光缆、机房跳线、收发与中继等;机房应用软件的运行监控,包括门户、办公、生产、财务、网络等应用软件等;机房软性资源,包括 IP 地址、VLAN 等。对于以上各个工程类别,根本上都包括监察、报警、故障排除、优化等工作,由于应用软件等受到供给商的限制,其故障排除与优化往往只能由供给商提供,但对其运行进展实时监控仍然是机房运维职责围的工作。2.2.统一管理和集中授权 机房运维目前存在的诸多问题,导致工作较为混

10、乱,职责不清,相互推诿时有发生,这与运维本身所需要的快速排除事故,综合性根本性的解决潜在问题的要不一致的。除了技术上需要一个中央平台以外,显然管理上也应该形成一-.z.个统一的运维团队,这个团队应该对机房各项容都承当相应的职责,这种职责是深入的,而不仅仅是简单的遇到事故时一个通知者的角色。设备厂商、应用软件开发商都是在不断变化中的,而运维管理团队却是不变的。地研院信息中心认为,运维管理团队应该保障运维行为的合理性。不允许在事故排除、问题诊断、持续改良的过程中,出现互不承当责任,尤其在一些业务穿插点上;对运维配置项的识别方法是统一的,工作单、知识库等的格式是标准一致的;对石油钻探行业的知识理解是

11、一致的,包括不同应用的重要性等级、不同部室数据的平安性等级等;团队应共同对运维效劳工作的推进承当责任;部区分不同的平安等级,比方管理员账号与密码属于高平安级,而外部人员的工作则是适度授权的。在业务与管理上到达集中统一的要求后,就形成了“*数据中心机房运维一体化的工作模式,由于这种模式加强了运维部凝聚力,因此易于在运维流程、技术等方面进展持续改良,从而不断提高*公司在信息化运维工作上的能力,也就为*公司信息化建立解除了后顾之忧。则,我们再看一看现在的现状,可以反射出多方运维所形成的一些后果。-.z.2.3.集中监控平台 机房是公司的信息化核心,无论是应用效劳、核心网络、骨干链路,都将牵动全公司的

12、信息化使用。而机房的软硬件通常都是由不同的渠道采购的,这就造成了多厂商与多供给商共同维护的局面,由于不同厂商有不同的管理平台,不同集成商有不同的运维方式,运维队伍良莠不齐,在运维的及时性、有效性、平安性上,都无法满足*公司的业务需要。事实上,我们需要如下所述的一个平台。统一而且固化可执行的流程,保证无论何人来都可以按标准执行,以减少运维风险;集中的监控预警系统,通过集成机房环境、网络、效劳器等系统,任何系统出现故障,都将在第一时间发现并报警,同时,管理人员也只需在一个统一门户上进展操作管理,而无需面对各种各样的管理体系,在减缓学习曲线的同时也提高运维品质;1)集中的知识库,知识包括历史实施过程

13、、技术方案、原始资料等,由于运维的延续性非常重要,因此,具有高度参考价值的历史运维资料是一笔相当珍贵的财富;2)集中的运维队伍管理;3)统一规的根底配置项数据库。4)只有通过一个中心平台,封装不同厂商与集成商所提供的不同容,最终到达运维工作可执行,业务延续而不受到厂商或者集成商的过度牵制。-.z.5)但是,业务上或者说技术上只是提供了一个系统,而运维要落地仍然需要各类人员来完成,则,保证运维工作的实施与落地就需要统一的管理。2.4.运维自动化 首先,IT 运维流程自动化能够提高流程的可控性,可以基于业务需求来制定个性化的流程,使企业领导有时机看见他们的业务流程,对企业流程有一个深刻的分析和理解

14、,进而改造和优化流程。其次,IT 运维流程的自动化能提高透明度。因为随着业务需求的变化可能会有多个版本出现,手工流程的不透明将会给流程定制和优化带来相当大的困难,而自动化流程可以使用户能够一目了然的看到整个流程的各个节点运转情况,自动化工具潜移默化地提升业务保障能力。再者,运维系统实行了自动化监控以后,通过工具自动监控对人的工作是一种减负,也是一种降低本钱的表现。3.建立方案*数据中心机房的运维是一个整体化的工作,无论在电信、金融等信息化程度较高的行业,都是由一个运维团队来承当运维工作,鉴于行业信息平安的需求,通常是由一个部效劳机构进展统一管理,外协单位辅助来统一开展工作。地研院信息中心作为距

15、离*数据中心机房较近,信息化人-.z.员有一定运维经历,有足够的意愿为*数据中心机房运维提供良好的支持,目前地研院信息中心与一些有经历的外协单位通力合作,正在努力向 ISO/20000 标准所要求的运维效劳规化流程化的方向前进,并根据自身对机房运维工作的理解,已经开发出一些流程与制度,为机房运维奠定足够的根底。3.1.自顶向下设计 机房运维涉众自顶向下牵系到各个层面的诉求,*数据中心机房的运维是一种分层次的效劳,整个运维过程将会涉及多类人员。根据*公司的现状与实际情况,我们分析以下人员将构成整个运维生命周期中的干系人,并行使各自的角色权利。3.1.1.终端用户 终端用户是我们的最终客户,其满意

16、度是我们运维工作是否良好的主要评判标准。终端用户不局限于大楼的办公用户,也包括骨干网络联通的对端用户、机房效劳器上各类应用的使用者、集团公司的远程网络管理者,等等。终端用户也是运维费用的承当者,我们的职责就是让其满意度逐步提升。3.1.2.部效劳管理部门 公司信息管理部作为部效劳管理部门,承当了保证终端用户满意度的责任。由于部效劳管理部门承当了大量的管理工作,再承当-.z.运维效劳工作事实上不具有可行性。因此,信息管理部应承当运维的管理工作,包括选择运维工作承当单位、审批管理流程、传递集团公司管理规或者制定公司部的企业规,等等。部效劳管理部门也是运维费用的评定方与支付方,为整个运维工作履行管理

17、职责。3.1.3.运维承接单位 地研院将作为运维工作的承接单位,将贯彻落实效劳管理部各项指标,并为终端用户提供效劳界面。运维承接单位必须是中石油部单位,其一是由于信息平安的要求,其二是为了更好的遵循企业规,其三是不断提升部队伍的运维水平。运维承接单位本质上还是一个部效劳单位,在一些技术与业务无法支撑的情况下,需要外部协作单位提供运维技术工作的支撑。3.1.4.外部协作单位 外部协作单位为运维工作提供了附加的人力资源与技术专家效劳,是整个运维工作的重要组成局部,其通常会承当实际工作的执行者角色。作为外部协作单位,必须遵守公司的规与要求,并按需提供相应的数据资料与过程文档。由于机房的技术复杂性,外

18、部协作单位可能不只一家,这些外协单位将由运维承接单位进展统一的管理,形成统一的运维团队。-.z.3.1.5.供给商与厂商 供给商与厂商,包括软件与硬件,这两局部都需要他们提供配件效劳与修复效劳,无论在免费效劳期还是收费效劳期,这些商家都属于运维体系中的一局部。供给商与厂商,也包括一些工程研究与测试阶段的参与者,这些商家也必须遵守机房相应的管理规定。3.2.采用自底向上与自顶向下相结合*数据中心机房运维目前处于一种被动式的工作状态,距离主动式运维还有很长一段距离,这是由于各个运维单位没有标准的工作流程与数据规,导致根底数据极度欠缺,这些工作目前都必须一步一步通过坚实的工作来逐渐补充和完善。同时,

19、我们不能将运维工作简单当作一个软件系统或者平台,我们必须要按照 ITILv3等国际标准,结合*公司实际,制定自已的标准,这样展开工作才有章可循,有法可依。按照这自底向上与自顶向下结合的原则,我们建议采用如下步骤来实施*数据中心机房运维。3.2.1.建立运维团队 运维团队的建立主旨,就是满足运维工作的 PDCA 循环,结合部与外部工作人员,构建一个良性的不断自我成长的运维生态圈。-.z.由于对 IT 运维的不够重视,很多企业并没有建立良好的运维团队来系统而规的进展运维管理,这在一定程度上引发了 IT 运维人员的流失,使得企业的 IT 运维无法在质量上得到最大限度提升。此外,随着企业 IT 应用的

20、深入,运维已无法单纯依靠几个“运维先锋以及“技术大鳄来解决。运维专业化的细分,需要企业能够充分了解 IT 运维以及运维人员的特性,才能让运维人员在适宜的细分空间不断进展运维经历的积累,从而提升运维质量。而这恰恰是很多企业无视的问题,运维中总是采取消极应对的态度,使得众多“运维先锋以及“技术大鳄也因为受重视程度不够等诸多原因选择离开。在运维管理中,团队质量直接影响着效劳质量,只有持续投入管理精力,建立相应晋升培训机制方能确保较高的效劳水平和较稳定的效劳质量。我们将在后续章节详解我们的运维团队组成方案,由于工作都是由人开展的,所以这是最急迫的工作,也是*数据中心机房运维工作的重要局部。由于中石油属

21、于战略行业,我们必须在考虑到人员技术性的同时,也要考虑到外部人员的信息平安性。3.2.2.建立规章制度 加强 IT 系统运维制度建立事半功倍,通过运维工作制度化,全面落实各项管理责任,可有效保证 IT 系统的平安、稳定、可靠运行。-.z.随着 IT 系统在各行各业的迅猛普及,IT 部门工作重点,逐渐由系统建立转向运维管理,确保 IT 系统高效稳定运行、提高效劳水平成为重心。近年来,IT 系统运维管理开展了一些先进理论方法,诸如以ITIL 为核心的 IT 效劳管理十大流程、IT 外包等,推进了信息化效劳水平的提高。但是,对于 IT 系统规模较小、功能简单的单位来说,运维部门人力弱,经费投入少,运

22、用实施这些理论方法存在着较大的难度。因此,解决运维管理“三难问题,惟一的方法就是建立较为完整的运维管理制度,形成一套职责、流程和指标,做到事事有章可循、有规可依。根据*的实际情况,参照行业的一些经历,我们已经拟定了一些规章制度的初稿,可以在后续章节中看到。不过仍需要在实践过程中不断改良,以适应我们的实际情况。3.2.3.采集根底配置项数据库*数据中心机房运维的根本工作欠缺较多,尤其是在根底数据方面,一直难以提供一份完整的资料,对运维工作的开展造成巨大的障碍。配置项管理数据库即 CMDB,通过识别、控制、维护,检查企业的 IT 资源,从而高效控制与管理不断变化的 IT 根底架构与 IT效劳,并为

23、其它流程,例如事故管理、问题管理、变更管理、发布-.z.管理等流程提供准确的配置信息。随着 IT 技术的进步与开展,企业的 IT 环境越来越复杂。数量庞大、品种繁多的 IT 设备很难被有效的管理,更不用说管理以这些 IT 设备为根底的各种 IT 效劳。同时,企业的 IT 环境在不断变化,如何评估*个设备或效劳发生的事故或变更所造成的影响,以及如何为其它流程提供 IT 资源当前准确的配置信息都是企业面临的重大挑战。CMDB 正是为了解决以下这些问题而诞生的。3.2.3.1.信息整合 如何将众多 IT 设备、IT 效劳、甚至使用它们的部门与人员整合在一个完整的库中.这样整合的信息将使有效与高效的管

24、理 IT设备与效劳成为可能。可自动发现各种主机、网络设备、应用。同时支持全网发现、指定子网、指定配置项三种发现方式。3.2.3.2.关系映射 如何将硬件、软件以及 IT 效劳之间的物理和逻辑关系映射可视化.使得 IT 人员可以看到其互相之间的依赖关系,并确定该 IT组件对客户带来的潜在影响。假设 IT 人员可以实时看到其对公司或客户业务的影响,将大大有助于提高 IT 效劳水平。展示 IT 资源、部门、人员之间的关联关系,实现关联关系的定义与维护。CMDB不仅仅存储 IT 资源的属性与关联关系,还自动关联 IT 资源与其发生过事故、问题、变更、发布。-.z.3.2.3.3.流程支持 如何为其它

25、IT 运维流程提供准确的 IT 设备、IT 效劳的配置信息包括当前设备或效劳发生过的事故、问题、变更、发布等信息对效劳台、事故管理、问题管理、变更管理、发布管理来说,准确的配置信息将极大的提高流程的运作效率。在效劳台、事故、问题、变更、发布流程中,均可以快速查看当前流程涉及到的 IT资源的全面、准确的信息。3.2.3.4.软件库与硬件库 如何保证应用到 IT环境的软件与硬件均是经过授权与测试的.这是保证 IT 环境质量与提供稳定 IT 效劳的前提条件。通过支持DSLDefinitive Software Library,最终软件库与 DHSDefinitive Hardware Store,最

26、终硬件库,保证在发布管理中使用的软件与硬件均是通过授权与测试的。CMDB 是 IT 运维的一个关键,但是因为每个企业对 CMDB 的要求都会有些差异,因此 CMDB 的灵活性很重要。*公司机房的配置项虽然不比电信或者互联网应用效劳商,但由于其具有远比电信、互联网应用的复杂性,在分析、采集 CMDB 资料时,将面临更多的挑战。3.2.4.研发*运维平台*数据中心机房运维,如果仍然延续大量的人工,规章制-.z.度、业务流程难以落地,执行时容易偏离,大量根本数据无法采集或者采集困难,造成好的运维理念最终仍然无法贯彻。随着信息时代的持续开展,IT 运维已经成为 IT 效劳涵中重要的组成局部。面对越来越

27、复杂的业务,面对越来越多样化的用户需求,不断扩展的 IT 应用需要越来越合理的模式来保障 IT 效劳能灵活便捷、平安稳定地持续保障,这种模式中的保障因素就是 IT 运维其他因素是更加优越的 IT 架构等。从初期的几台效劳器开展到庞大的数据中心,单靠人工已经无法满足在技术、业务、管理等方面的要求,则标准化、自动化、架构优化、过程优化等降低 IT效劳本钱的因素越来越被人们所重视。其中,自动化最开场作为代替人工操作为出发点的诉求被广泛研究和应用。IT 运维从诞生开展至今,自动化作为其重要属性之一已经不仅仅只是代替人工操作,更重要的是深层探知和全局分析,关注的是在当前条件下如何实现性能与效劳最优化,同

28、时保障投资收益最大化。自动化对 IT 运维的影响,已经不仅仅是人与设备之间的关系,已经开展到了面向客户效劳驱动 IT 运维决策的层面,IT 运维团队的构成,也从各级技术人员占大多数开展到业务人员甚至用户占大多数的局面。因此,IT 运维自动化是一组将静态的设备构造转化为根据 IT效劳需求动态弹性响应的策略,目的就是实现 IT 运维的质量,降低本钱。可以说自动化一定是 IT 运维最高层面的重要属性之一,但不是全部。-.z.3.3.运维团队的最低配备满足 PDCA 循环 运维团队的构成与职责分配是*数据中心机房运维是否能够到达预期目标的一种保障,根据*公司的组织构造与信息化建立现状,结合 ISO/2

29、0000 标准,我们以一个完整的 PDCA 循环作为建立团队组织构成的依据,建立一个完整成体系的运维队伍。以上图示表达了整个团队的根本配备情况,每个环节都承当相应的职责不可或缺,在图中并未表达在机房运维过程中可能出现的供给商与厂商人员,但一旦出现,也同样纳入团队的管理规程中,并形成相应的制度与评估考核体系。3.3.1.客服人员 客服工作人员是与用户沟通的主要渠道之一,需具备一定的话术要求和根本技能。要保障 7*24 小时的不连续效劳质量,需要至少 4 名员工进展轮班工作,人员需求量相当较大。鉴于*数据中心机房目前的运行需求,可以安排 2 名客服人员轮值,每日 12 小时,其余时间由驻点运维工程

30、师提供客服效劳。根据实际运行情况进展人员调整。3.3.2.运维工程师 运维工程师是一线工作人员,包括驻点工程师和移开工程师,-.z.运维工程师是与用户交流的零距离界面,沟通的主要渠道之一,需具备一定的话术要求和根本技能。1)承受工作任务单,登记处理过程与结果 2)现场故障排除 3)远程故障排除 4)提出流程改良建议 5)每日工作汇总 6)提供技术知识与业务知识积淀 7)协助用户工作,提供技术支援 运维工程师属于一线员工,在接人待物、沟通以及根本技术水准都需要到达一定的要求。运维工程师在排除故障或者技术支援的时候,必须严格按流程进展,对于无法解决的问题,需要通知客服中心,加派或者另派技术专家协助

31、。*数据中心机房运维目前需要 24 名工程师轮班,这些人员可能由运维承接单位与外部协作单位共同组成。3.3.3.行为督查员 行为督查员的主要工作是检验流程的符合度与运维最终效果,同时也起到一个工作过程监管的作用,形成运维工作持续改良的依据。-.z.1)检查工作流程的执行情况,派发工作整改单 2)实施客户满意度调查 3)实施客户新的需求调研 4)工作检查情况汇总 5)统计运维 KPI 指标,提供改良依据 6)运维质量保证体系的部评审 目前,行为督查员同时承当了劳动监察与客户反响的双重角色,作为 PDCA 循环中“检查这一重要环节,行为督查肩负了为运维工作持续改良提供量化依据的职责。行为督查员需要

32、 12 人,无需轮班。3.3.4.技术专家 作为运维工作的核心,技术专家将承当对整个运维技术、流程、规的制定与改良工作,同时,当一线人员遇到难以解决的问题时,技术专家会从二线转为一线,为用户排除故障。1)制定与改良运维流程与规章制度 2)协助运维工程师解决技术难题 3)研制新的效劳容 4)追踪问题及解决方案 5)研发运维自动化产品 6)研发运维配套软件 7)维护配置数据库-.z.技术专家是一个团队,通常根据各自熟悉的业务,分为多种技术专家。技术专家通常集中办公,按需提供技术支撑保障。技术专家是 PDCA 循环中方案的制定者,也是改良的实施者,承前启后,并且为工程师和用户提供专业的技术支持,是整

33、个团队的灵魂。目前,在*数据中心机房运维的专家团队中,需要机房环境、IT 设备、数字网络、操作系统与数据库、软件研发方面的专家,由于各能一人多项,所以专家人数约在 35 人左右不等。3.3.5.文档管理员 文档管理员是为了保证运维工作受控,建立企业知识库,提高运维水平所必须配备的。文档管理员一方面是实现了纸质文档与电子文档的归类以便于查询,另一方面则是整理出知识形成知识库。1)收集运维过程文件,分类归档 2)收集外来文件,分类归档 3)电子档案的历史版本管理 4)维护运维知识库 5)业务资料查询 6)文档规化管理*数据中心机房运维的文档管理员需要 1 名专职或者兼职人员。3.3.6.管理人员

34、为了团队的管理与实际工作的扩展,可能还需要增加一些人员-.z.配备,以便于工作的开展。这些人员通常可以在前述角色中寻找人员兼任。1)运维团队总负责人,主要进展管理工作,调配人员 2)运维管理人员,负责运维工作中的日常管理,跟协助配全等工作。其中运维团队总负责人可能会由运维承接单位的人员兼任。3.4.自动化建立 自动化建立根据根底设施类、业务系统类、应用能力类进展划分。提供自动告警提供短信、和声光等手段通知监控人员。监控人员可以看到业务系统实时的未处理告警数目、告警详情。并可以对告警进展故障预判,系统会记录下告警的处理过程,对有通用性的解决方案可以归入知识库。建立集中日志动态监控和分析系统,为了

35、提升故障综合分析的能力、通过关联关系分析故障原因;提供特定场景的监控分析,比方重点商品的下载性能、VIP 用户的使用性能分析等等;并快速响应新的、甚至是自定义的监控和分析需求。通过可视化的界面从业务系统部构成的角度,即通过拓扑关系来对告警进展展示和处理,通过业务系统的构成配置,可以把业务系统的各个组成局部,各局部之间的联系通过图形化界面的方式直观展示。当其中*一点发生告警时,相应的局部将会有颜色变化,监控人员可以看到该告警可能影响的业务,从而有针对性的加强监-.z.控。3.4.1.现有自动化软件及远景 也随着信息化的管理*也迈向自动化的设计及管理,现集团公司、各机关也在运用自动化的工作及软件,

36、如 SEP、平安监控软件、包括辅助办公软件等。为完善更高运维要求,做到 IT 运维的自动化监控和管理平台。总之,实现 IT 运维自动化管理是指通过将 IT 运维中日常的、大量的重复性工作自动化,把过去的手工执行转为自动化操作。自动化是 IT 运维工作的升华,IT 运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是 IT 运维的最高层次,也是未来的开展趋势。3.4.2.运维工具简介 Nagios Nagios 是一款开源的免费网络监视工具,能有效监控Windows、Linu*和 Uni*的主机状态,交换机、路由器等网络设置,打印机等。在系统或效劳状态异常时发出或短信报警第一时间通知运维人

37、员,在状态恢复后发出正常的或短信通知。Nagios 可以监控的功能有:1)监控网络效劳SMTP、POP3、HTTP、NNTP、PING 等;监控主机资源处理器负荷、磁盘利用率等;2)简单地插件设计使得用户可以方便地扩展自己效劳的检测方法;-.z.3)并行效劳检查机制;4)具备定义网络分层构造的能力,用parent主机定义来表达网络主机间的关系,这种关系可被用来发现和明晰主机宕机或不可达状态;5)当效劳或主机问题产生与解决时将告警发送给联系人通过EMail、短信、用户定义方式;6)可以定义一些处理程序,使之能够在效劳或者主机发生故障时起到预防作用;7)自动的日志滚动功能;8)可以支持并实现对主机

38、的冗余监控;9)可选的 WEB 界面用于查看当前的网络状态、通知和故障历史、日志文件等。PUPPET puppet 是一种 Linu*、Uni*、windows 平台的集中配置管理系统,使用自有的 puppet 描述语言,可管理配置文件、用户、cron任务、软件包、系统效劳等。puppet 把这些系统实体称之为资源,puppet 的设计目标是简化对这些资源的管理以及妥善处理资源间的依赖关系。puppet 采用 C/S 星状的构造,所有的客户端和一个或几个效劳器交互。每个客户端周期的 默认半个小时 向效劳器发送请求,获得其最新的配置信息,保证和该配置信息同步。每个 puppet 客-.z.户端每

39、半小时(可以设置)连接一次效劳器端,下载最新的配置文件,并且严格按照配置文件来配置效劳器。配置完成以后,puppet 客户端可以反响给效劳器端一个消息。如果出错,也会给效劳器端反响一个消息。开发 puppet 是为了让系统管理员可以相互交流和共享成熟的工具,防止重复的劳动.通过以下两个特性来实现这一目标:1)提供一个简洁的但是强大的框架来完成系统管理任务 2)系统管理任务可以描述成 puppet 语言,因此可以相互分享代码,就像分享其他语言的代码一样,比方 python,c 等 3)因此,作为系统管理员的你可以更快的完成工作,因为你可以用puppet来处理所有的管理细节,甚至你还可以下载其他管

40、理员的puppet 代码来让你的工作完成的更快。CACTI Cacti 是通过 snmpget 来获取数据,使用 RRDTool 绘画图形,而且你完全可以不需要了解 RRDTool 复杂的参数。它提供了非常强大的数据和用户管理功能,可以指定每一个用户能查看树状构造、host 以及任何一图,还可以与 LDAP 结合进展用户验证,同时也能自己增加模板,功能非常强大完善。界面友好。Cacti 的开展是基于让 RRDTool 使用者更方便使用该软件,除了根本的SNMP流量跟系统资讯监控外,Cacti 也可外挂 Scripts 及加上 Templates 来作出各式各样的监控图。-.z.Cacti 是用

41、 php 语言实现的一个软件,它的主要功能是用 snmp效劳获取数据,然后用 rrdtool 储存和更新数据,当用户需要查看数据的时候用 rrdtool 生成图表呈现给用户。因此,snmp 和 rrdtool是 cacti 的关键。snmp 关系着数据的收集,rrdtool 关系着数据存储和图表的生成。Mysql 配合 PHP 程序存储一些变量数据并对变量数据进展调用,如:主机名、主机 ip、snmp 团体名、端口号、模板信息等变量。3.5.自主软件工具研发 目前,地研院正在与外部相关公司共同组成研发队伍,在充分了解市场已有产品如北塔、摩卡等的优势与缺点后,结合中石油与*自身的实际情况,研发符

42、合需要的运维软件工具。目前正在研发和方案研发的容包括:1)工单系统,跟踪任务流程,实现在线的知识采集、客户反响,由此来固化操作流程、收集运维数据 2)根本配置项数据库系统,整理机房运维的资源与对象,是运维工作根底中的根底 3)知识库系统,是业务知识与技术流程固化的重要手段 4)运维数据统计分析系统 5)中央运维门户平台,集成各个不同厂商的运维或者监控系统的数据,并采用门户的方式集中呈现-.z.目前我们已经在开展一些工作,如工单的创立与跟踪,以逐渐规运维的管理工作。4.运维实施 4.1.运维规流程 我们遵循 ISO/20000 的标准规提出的十大流程,其中一线员工通常提供巡检、排障、技术支持等工

43、作,是客户可见的局部,而客服中心、专家、督查、后勤等角色,与客户也会有接触,但其核心工作是不可见的。鉴于流程与表单是运维效劳工作的核心组成局部,在此我们以数个规流程作为例如,表述在 ITILv3 和 ISO/20000 的指导思想下,如何结合*数据中心机房运维的实际需求,开发满足自身需要的操作流程。4.1.1.效劳分工 序号 效劳模块 容描述 提供方 1 机房环境 根据标准规,对机房环境进展检查,是否防潮防尘 地研院,外协 2 机房卫生 对机房卫生检查,是否到处是垃圾 地研院,外协 3 UPS 检查 UPS 情况 地研院,外协,厂商-.z.4 综合布线、网络 检查各电缆线、光纤、网线等是否有损

44、坏 地研院,外协 5 机房供电制冷设施 保证机房供电与制冷正常工作 地研院,外协,厂商 6 设备上架与更换 操作设备上架实施,被放置位置的列柜、机架等 地研院,外协 7 系统安装 根据需求对设备操作系统规安装 地研院,外协 应用系统 根据需求对系统的应用系统的维护 地研院,外协 8 现场软件升级 业务维护方负责对旧版本、低版本的软件升级操作 地研院,外协,厂商 9 现场故障诊断 对出现的问题进展分析、诊断 地研院,外协 10 远程支撑 对驻点工作人员不能处理的的问题进展给予协助 地研院,外协 技术支撑 对疑难问题的技术分析、探讨、总结解决问题 外协,厂家 11 问题管理系统 负责对日常故障的统

45、计与分析、总结 地研院,外协 12 门禁管理 负责对外来人员的登记管理 地研院,外协 4.1.2.设备上架流程 设备上架的流程,首先需求方提起需求申请,发起工单到运维效劳台,填写需求申请表,相关领导审核通过后,流程提交到运维-.z.部门,到上架实施,上架验证,日常维护等工作。流程说明 1)需求方提出新增效劳器的需求。2)效劳台派发工单,判断上架设备的类型,让申请需求都填写申请表,并将申请资源发给资产管理员。3)物理效劳器由资产管理员指定特定物理位置组织人员效劳器上架安装电源线、网线 4)维护人员按需求安装操作系统。5)把回单回执给需求方。6)资产管理员更新资产列表。-.z.7)由需求方自于安装

46、应用软件。8)软件运行正常后,由运维中心按需求进展平安检查。9)试运行正常,投入生产,纳入 IT 监控、业务监控、投入维护工作。设备申请 如效劳器、网络上架需要申请人或者申请部门填写设备申请表,得到签字同意前方可按照流程继续进展。资源核查 本阶段主要包括以下工作需求确认与资源检查。申请部门填写的设备资源申请表,设备申请部门各表单所填写的客户信息、设备信息必须一致,经部门经理审核后,与设备上架申请书一并提交至运维部门备档管理,并对需求进展归口管理。资料检查包括被分配的资源信息进展核对,详情见设备验收上架表,如检查合格后,需要签字确认,运维局部需存档。上架实施 资源申请到位后,则执行上架实施工作,

47、上架实施前,由维护人员发起上架实施工单至效劳台,效劳台进展记录,纳入到工单系统。对信息事件进展备档处理。上架后,需要维护人员根据上架信息表进展补充工单信息,包-.z.括上架位置、电源接口,所占 U 数据,上架时间,上架人员,维护人员等,并且需要需求方与设备方签字确认签字上架完毕后,即完结工单。上架信息归档 维护中心根据已经上架的设备信息进展整理归档,上架信息表是对效劳器已经上架后确实认信息表,保证上架设备信息的完备性,便于运维资产信息管理。纳入日常运维 从设备上架之日起,确定了责任部门及运维局部,就按照运维流程开场日常维护工作,包括日常巡检、故障处理、优化建立、作业方案等。过程表单*设备上架申

48、请书 工程名称 联系人 联系 所属部门 工作 申请时间 上架时间 注:如特殊需求容为加急或临时测试,则上架时间和申请时间间隔不得超过规定时间。-.z.需求事项 1加急上架不超过规定时限;2临时上架需给出下架时间;3其他 需求原因及操作容:设备容 设备型号 大小U 数 效劳器配置 数量 资产编码 IP 需求 核定功耗 产权归属 上架进机房人员*-.z.申请部门经理签字:运维部经理意见:备注:效劳器类型请假根据客户自己的效劳器类型在相应位置做如下标记设备需求与*数据中心机房设备申请表容相对应*数据中心机房设备申请表 工程名称 使用周期 编号 申请事由 申请容 工程类型 型 申请环境 正式环境 小型

49、 测试环境 设备类型 设备型号 配置需求 申请数量 设备编号 其他物资 申请人签名:审核人意见:申请人单位:审核人签名:-.z.年月日 年月日 备注 为确保*数据中心机房运维规化、流程化、高效化、及上线应用稳定,控制工程应用上线质量,提高成功发布率,运维需依据工程新上线流程控制进展上线。注:1“型工程必须填写此表,并以纸形式走申请流程,书面签字确认,并且交由档案部备纸质管理;2“小型工程填写此表后,以电子系统审批确认,生成电子备档;设备验收上架表 时间 厂商 防伪查询 是否 设备型号 是否 合格证 有无 序列号效劳号 设备类型 效劳器 交换机路由器 防火墙 存储设备 设备配置参数 -.z.设备

50、包装清单 设备上架方案书 上架时间 上架人员 上架位置 设备开机测试 质保周期 工程监理签字 乙方承包商 签字 甲方人员签字 备注 上架信息表 效劳器名称 确认检查上架效劳器名称,型号,占用空间大小,额定功率。1.上架效劳器在试验台上电,是否能正常开机;能正常开机进入第三步,不能正常开机返厂。2.机房工作人员检查机柜空余空间,空余PDU 插座。3.符合机柜平安用电、空余空间、空余 PDU插座情况下,上架效劳器在此机柜。型号 功率 验电情况 所在机房 所在列柜 所在 U 数 所占 U 数 PDU 插座 -.z.效劳器标签 4.安装效劳器完毕后,在此效劳器贴标签使用单位,维护单位,安装日期,电源线

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 工作报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁