《数据中心自动化运维管理及平台的建设.docx》由会员分享,可在线阅读,更多相关《数据中心自动化运维管理及平台的建设.docx(11页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据中心自动化运维管理及平台的建设 企业的信息系统平台实现集中化处理的必要基础,其在企业的信息化建设中发挥着重要的作用。科技信息的不断进步促使了企业数据中心相关设备的应用数量渐渐递增,不断强化对数据中心的管理并逐步实现数据中心运维管理的自动化,从而达到节约人力、节约成本的目的。基于此,本文首先阐述了自动化运维的相关理论学问,并进一步分析探讨了自动化运维平台的建设方法。 【关键词】数据中心 运维管理 自动化 运维自动化其实就是将传统的计算机运维工作实现自动化,从而变更了以往传统的手动模式,削减了运维工作人员的数量,全面的提升了计算机运维的工作效率。由于传统的单靠人工计算机运维已经不能满意当前企业
2、服务器及数据量的各项要求,这就要求相关技术人员通过不断学习来应对目前高速发展的信息化时代。同时,对于企业的自动化运维管理系统在设计时要遵循自动化程度高、综合性强、易扩展的原则,从而在实际的工作时实现数据中心的自动化管理。 1 运维自动化的内容和工具 1.1 运维自动化的内容 计算机运维经验了漫长的发展历程,目前它已由原来的几台服务器发展到现在一个海量的数据中心,并逐步实现了运维自动化的一个全新状态,而在当下困难的大数据背景下实现计算机运维自动化管理成为运维人员亟待解决的问题。对于每天的常规检查、配置变更以及软件安装这些平常运维工作中须要重复进行的工作,实现自动化管理代替传统的人工操作即为运维自
3、动化管理。通过运维自动化可以使运维工作中的延迟现象得以削减甚至消退,从而达到计算机运维的“零延迟”目标。另外,运维自动化系统可以帮助运维人员避开日常简洁重复的工作,节约时间的同时使工作效率也得以提高。此外,自动化运维可以对故障进行提前预料并报警,从而帮助运维工作人员在事 故未发生时就能提前预防并消退隐患,大大降低企业在生产过程中不必要的消耗。图1所示为运维自动化程度与运维困难度模型分析,依据这个模型得出,当机器的数量增加时运维的困难度也会相应增加,假如采纳自动化运维则会削减大量人工操作,节约成本。 1.2 自动化运维管理工具 企业运营过程中,自动化T具的应用可以彻底实现运维自动化,主要有运维监
4、控和诊断优化工具、运维流程自动化工具。 1.2.1 白动监控 目前多数企业的运维系统已经逐步完善,但是运维人员及被管理对象的数量比例严峻失调,因此不能刚好发觉运行过程中发生的风险及故障。而监控自动化对工作中重要的计算机组件、业务的运行状况以及处理效率等实时状态进行主动式监控,从而达到刚好并精确的发觉运行中发生的各种故障,然后将故障通知相关用户,达到提前预警防患于未然的效果。 1.2.2 自动检测配置变更 由于运维对象多,变更量大且频率高,运维工作者的工作量很大,从而导致有些流程和制度执行不到位的状况。而一旦计算机设备的配置参数发生变更时,就会触发到变更流程同时将信息传递给运维人员进行确认,通过
5、自动化测试帮助运维人员对配置进行查找和维护。配置变更检测自动化如图2所示。 1.2.3 自动提示待维护事务 传统的计算机运维工作时,运维对象产生大量的事务,由于事务的分级不合理使得工作人员不能刚好发觉并处理一些紧急事项。运维人员要想做到维护事务提示自动化则可以通过适时监控相关的系统服务管理平台,提高管理的可控性和透亮度,一旦出现突发的事故时,系统可以第一时间发觉并启动报警,然后将有效的信息传递给运维技术人员进行解决。 1.2.4 自動生成维护记录 相关技术人员要对计算机设备的运维系统以及一些硬件配置进行定期自动的检查与维护,还要对计算机系统的运行状况定期自动的做好日志的记录、收集与分析,通过对
6、系统阶段性的监管与探讨归总,以此为依据定时的供应计算机运维系统相关的应用状况以及分析报告。 2 数据中心自动化运维平台的建设方法 2.1 构建自动化运维 2.1.1 构建运维自动化管理平台 通过运维自动化管理系统的建立可以实现计算机运维的自动化管理,通过自动化运维管理系统来实现对系统运行过程中出现的故障以及问题集中管理和处理的实力。运维管理平台可以实时的对计算机设备进行管理与监控,例如:服务端、数据库、存档、网路、平安、计算机房、相关应用与服务端等相关项目的管控,通过对海量的网络和服务器等节点的实时监控实现故障的精确预警、报警以及精确定位。 2.1.2 构建系统故障的自动触发流程 运维自动化平
7、台在工作过程中一旦遇到问题和设备故障都会自动报警,在对故障进行汇报时,不论是系统报警还是人工汇报,都要严格切记利用红色标识展示在运维系统的屏幕上。收到故障信息后,运维人员依据相关学问库的数据,然后依据相关流程按步骤操作即可。因此,企业必需要事先建立流程化的故障和事务处理机制,一旦有异样状况或设备出现故障时就会马上触发相关事务,然后将相关工作流程处理程序触发并传递给操作运维人员,以此确保运维人员按规定刚好完成流程规定的工作,这样可以大大提高工作以及运维处理故障事务的效率。 2.1.3 建立规范的事务跟踪流程 要想实现计算机运维的自动化管理,首要工作就是建立流程化的事故处理与时间处理机制,利用表格
8、工具对出现的异样状况和故障处理状况进行相应的运维日志的记录,并且要定期的对记录的信息进行总结,通过分析总结找寻发生故障的线索和根源。多年工作实践发觉,通过建立事务的流程化故障和事务处理机制,可以有效降低运维人员的不规范操作,削减操作的随意性,加大计算机操作和运维工作的执行力度,尽力将系统发生故障和问题的几率降到最低。 2.1.4 建立运维的关键流程 信息技术运维的管理人员为运维部门定制合理的工作流程以及职责,同时其不仅要明确指出工作流程的含义,还要说明每个关键流程对企业的必要性,并建立事务处理机制,引入优先处理的原则。此外,在对运维关键流程的自动化进行设置时,首要条件是要保证紧急事务的优先处理
9、原则,一般事务按常规处理,对于特殊的事务运维工作人员肯定要根据优先级次序,提高事务的处理效率和质量。 2.2 数据中心自动化运维平台的建设方法 在进行运维管理系统平台的建设时要结合业务工作的实际要求,充分将服务与平安两个方面的因素考虑在内,以服务为视角、平安为依托,整合现有不合理的管理模式并采纳模块化和分层次的架构,开发出一套全新的检测、监控和管理软件。 2.2.1 设计目标 运维自动化即是运用最少的运维人员,结合运用脚本以及第三方程序,确保运维系统在一周的时间里每天24小时,高效率平稳地运行。由于企业运维部门设备多、运维技术性强以及人工运维易遗漏等特点,自动化运维平台设计的目标可概括为以下3
10、个方面: 指导性:对目前的存在风险与漏洞的信息基础设施的工作性能进行优化与完善;提高运维系统的平安性能,以降低企业的平安风险;对信息基础设施的需求做出合理的规划与具体的安排;考核技术水准提高服务质量。 实时数据:随时对基础设施和运维系统的工作状况;对设备的故障和异样刚好驾驭并第一时间找出问题的缘由;对运行状况进行分析并进行完善以提高运维效率 数据牢靠:流程管理的变更可以确保系统设备生命周期管理的数据牢靠;对日常 的巡检单进行管理可以确保企业数据中心相关监控设备的精确;通过提取实时数据以及校验底层监控对象以实现监控事务相关数据的精确程度。 2.2.2 系统平台的设计 顶层架构设计。分析企业目前信
11、息运维系统的运用状况,技术人员要保证新架设的自动化运维综合管理系统不影响企业目前的架构体系,自动化平台要以清晰明白的图形化界面为依托,敏捷高效的实现对企业核心业务系统以及平常信息运维的管理,架构设计如图30 底层数据抓取设计。作为监控模块重要组成部分的系统基础信息采集模块,其不仅有助于运维技术人员对当前系统的健康状况有一个具体的了解,还可以作为衡量一个企业服务质量的标准。例如,在系统资源吃紧时会出现系统卡顿等现象,造成客户的体验效果变差从而影响了服务质量。另外,通过提取相关设备流量的运用状况,可以为运维技术人员评估带宽的性能以及设备指标数据供应依据,其中包括Linux系统信息、系统的数据信息、
12、块设备和网络地址库等信息。技术人员获得这些信息之后,就可以对系统服务的状态进行全方位的解读,然后利用报警机制的快速响应特性,使其在第一时间响应并对故障进行处理。 现在多数的企业计算机机房服务器系统主要是以LinuxX86和Unix小型机为主,在进行运维平台设计时,利用UnixShell&Python实现对小型机Unix和Linux系统的健康状况和服务进程状态的抓取。最终将采集的原始数据经过上层子系统的分析处理,对整个系统进行全面深度的检测管理。 自动化运维功能设计。自动化运维管理平台设计时要依据企业日常运维的特点,结合业务工作的实际要求,充分考虑服务与平安两方而的内容,实现企业数据的统一监管和
13、管理,并且做到对数据精确的获得与响应。在对运维资源进行功能化、系统化区分后,依据平台建设目标,站在信息运维人员的角度,具 体划分为如下: 1.日常检查与管理。企业数据中心的全部值班人员和运维人员对设备系统健康状况的检查工作,通过应用工作表单的方法进行记录,在遇到故障的状况时,通过登录相关的事务管理系统完成后续工作。 2.运维监控管理。对企业运维服务时所生成的一系列关键指标进行分析,来衡量企业运维系统的现状。一目了然的图形化方式实现对企业核心业务系统及数据库的实时监控;以简洁的专业化吩咐行代码实现异地/本地灾备环境的数据库同步,便利非本专业的值班人员了解并发觉出现的问题。 3.设备信息管理。通过
14、集中化的平台和标准化的变更流程,对全部硬件的相关设备信息进行细化并归档,以便利运维管理层精确快速的进行信息的查找。 4.学问库文档管理。对于一切涉及运维的技术类文档统一的进行管理和归档,以便利以后的参考与查阅。 5.接入第三方平台。结合企业目前的信息技术运维管理工具,为其配备简洁的账户信息,以实现从运维平台单点接人到第三方系统。 6.系统平安管理。通过对平安事务的监控以及系统漏洞与病毒感染种类进行统计,以此来了解运维系统的平安与否。 2.3 自动化运维平台功能的实现 2.3.1 本地数据库与异地數据库同时监控 在企业的运维管理中,本地数据库OracleDataguard及异地数据库Sliare
15、plex的监控工作是特别值得重视的,其能否刚好与精准的将相应数据进行复制对于企业系统数据的平安与否具有不行替代的作用。假如不应用自动化运维平台,这样便只能由企业内部具有专业学问的数据库管理员去进行源端与目标端系统服务和数据库服务进行状态、数据积压与延迟量的检查,这就大大增加了相关技术人员的工作量。而运维技术人员手工编写一些Shell脚本在服务器上进行运维,利用shell脚本达到对本地数据的获得,并利用信息传输机制把相应数据精准地传送到运维平台的相应数据库中,且在平台上展示给工作人员,达到刚好报警并精确定位故障发生点。 2.3.2 应用服务与数据库服务可用性监控 应用服务状态与数据库服务状态不仅
16、仅是运维部门工作的评估项目,其更关系着企业的正常运作。若未构建自动化运维平台,许多时候都是在用户或研发团队出现问题时才通知运维部门,致使企业运维技术人员无法刚好发觉并处理异样状况,大大降低了企业运维部门的工作效率。而通过构建自动化运维管理平台可以刚好监管应用服务与数据库服务状态,且能把相应数据信息大批传送至平台前端,由数据中心相应从业者及当值者实行监管,一旦出现故障或异样状况,系统就会自动报警从而弥补了人工监控的不足之处。 2.3.3 备用存档检验自动化 相关数据与文件等的备用存档牢靠与否,干脆影响与确定着企业数据是否存在威逼与在 出现问题须要回档时可回到的时间点,因此,备用存档的牢靠性检验至
17、关重要。大多时候备用存档均是由运维部门的相关从业者建立并检验、核对的,但以往的人工检验难免因特别缘由致使出现差错,导致误漏状况或操作出错的状况出现,因此造成部分数据丢失给企业带来不行估量的损失。而建立自动化运维平台后,众多各类备用存档数据文件均能够利用Shell脚本完成检验的自动化与检验结果直观显示,从而使得系统数据文件的备用存档得以高质保证。 3 结束语 伴随着众多科研、从业人员夜以继日的深化探讨,多项相关难题得到解决,“云计算”与“虚拟化”两项新兴科技渐渐得到了极大发展。为信息化构建带来了极大的便利,但也为数据中心的运维提出了全新的挑战。为此,提升数据中心运维技术,逐步实现数据中心运维管理
18、的自动化,让相关运维技术人员有更多精力投入到对系统和技术的优化工作中,从而降低人工操作的失误率,节约人力物力的同时也给企业削减了众多的资金开支,使企业得以更加高效、便捷、低风险的稳固运行。 参考文献 1李威,顾海林.面对业务的自动化运维管理探究J.中国科技纵横,2022. 2朱玉立,任义廷,高曱子等.浅谈大数据时代下的数据中心运维管理J.信息系统工程,2022. 第11页 共11页第 11 页 共 11 页第 11 页 共 11 页第 11 页 共 11 页第 11 页 共 11 页第 11 页 共 11 页第 11 页 共 11 页第 11 页 共 11 页第 11 页 共 11 页第 11 页 共 11 页第 11 页 共 11 页