《IDC数据机房运维方案.pdf》由会员分享,可在线阅读,更多相关《IDC数据机房运维方案.pdf(23页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、IDCIDC 数据机房运维方案数据机房运维方案韩韩 东东 勋勋目目录录1 IDC1 IDC 数据机房架构图数据机房架构图.1 11.1 IDC数据机房系统逻辑架构图.11.2IDC 机房网络拓扑图.11.3IDC 数据机房安全技术架构图.22 IDC2 IDC 机房运维机房运维.2 22.1 软件维护.22.2 硬件维护.22.3 安全维护.32.4 物理环境维护.32.5 其它维护内容.43 IDC3 IDC 机房智能化管理机房智能化管理.4 IDC4 IDC 机房信息资产统计机房信息资产统计.9 95 IDC5 IDC 机房值班方案机房值班方案.9 96 IDC6 IDC 机房应急预案机房
2、应急预案.1 12 21 IDC1 IDC 数据机房架构图数据机房架构图1.11.1 IDCIDC 数据机房系统逻辑架构图数据机房系统逻辑架构图业务层:主机托管、业务备份等业务层:主机托管、业务备份等1.21.2 IDCIDC 数据机房网络拓扑图数据机房网络拓扑图资源层:计算、存储、宽带等资源层:计算、存储、宽带等1.31.3 IDCIDC 数据机房安全技术架构图数据机房安全技术架构图网络层:路由器、交换机、防火网络层:路由器、交换机、防火2 IDC2 IDC 机房运维机房运维物理层:电力、空调、综合布线物理层:电力、空调、综合布线 2.1 2.1软件维护软件维护运营管理层运营管理层网络管网络
3、管资源管资源管业务管业务管运营管运营管软件设备可分为操作系统软件、典型应用软件(如:数据库软件、中间件软件等)、业务应用软件等维护:常用应用软件的安装、调试、管理、更新、升级、故障检测及排除。操作系统的调试、管理、更新,升级,故障检测及排除。建立常用应用软件及驱动程序库。(视客户情况而定)2.2 2.2硬件维护硬件维护硬件设备包括:网络设备、安全设备、主机设备、存储设备等维护:计算机硬件设备的维护、保养、更新、升级、故障检测及排除。对于需要更换的设备,提供设备选型建议及市场参考价格,并可代为购买(设备采购费用另计)。建立电脑硬件配置档案,实行标准化管理。(视客户情况而定)网络交换机维护网络交换
4、机维护提供网络交换机的调试、故障诊断、日常维护保养、更换升级建议。对于突发的紧急硬件故障可以提供匹配的设备进行临时替代,保证用户网络的正常运转。路由器维护路由器维护提供用户端路由器的调试、故障诊断、日常维护保养、更换升级建议。对于突发的紧急硬件故障可以提供匹配的设备进行临时替代,保证用户网络的正常运转 2.3 2.3安全维护安全维护安装、管理、维护客户端计算机的病毒防护系统。培训用户计算机病毒的防护知识以及防病毒软件的使用,建立用户的防病毒意识。升级、更新、优化用户已有的病毒防治系统。定期提供病毒检测、告警及最新预防措施。提供紧急病毒故障处理服务,对突发的新计算机病毒进行及时响应。对用户的网络
5、防病毒系统进行维护,升级版本,更新病毒库从而确保网络、系统及数据资料的安全。2.4 2.4物理环境维护物理环境维护综合布线系统维护综合布线系统维护利用专业测试仪器提供对铜缆、光纤的布线故障检测处理。对现有综合布线系统中存在的缺陷、问题提供合理化改造或升级方案,并可提供专业水平的工程施工(工程费用另计)。主机、存储系统运维服务主机、存储系统运维服务主机、存储系统的运维服务包括:主机、存储设备的日常监控,设备的运行状态监控,故障处理,操作系统维护,补丁升级等内容。设备的增加设备的增加内存和硬盘的增加是服务器最常见的,安装的应用软件、资源库越来越多,服务器需要更多的内存和硬盘容量。增加内存前需要认定
6、与服务器原有的内存的兼容性,最好是同一品牌的规格的内存。如果是服务器专用的ECC 内存,则必须选用相同的内存,普通的 SDRAM 内存与 ECC 内存在同一台服务器上使用很可能会引起系统严重出错。在增加硬盘以前,需要认定服务器是否有空余的硬盘支架、硬盘接口和电源接口,还有主板是否支持这种容量的硬盘。尤其需要注意,防止买来了设备却无法使用。设备的卸载和更换设备的卸载和更换卸载和更换设备时的问题不大,需要注意的是有许多品牌服务器机箱的设计比较特殊,需要特殊的工具或机关才能打开,在卸机箱盖的时候,需要仔细看说明书,不要强行拆卸。另外,必须在完全断电、服务器接地良好的情况下进行,即使是支持热插拔的设备
7、也是如此,以防止静电对设备造成损坏。除尘除尘尘土是服务器最大的杀手,因此需要定期给服务器除尘。尤其是在炎热的夏季,对于服务器来说,灰尘甚至是致命的。除尘方法与普通 PC 除尘方法相同,尤其要注意的是电源的除尘。2.52.5其它维护其它维护机房环境检查就是对机房的温度、湿度、照明、防鼠、防水、防尘、消防、卫生、门窗的关闭进行检查,主要通过检查以下设备或项目去完成:1.机房空调检查空调是否正常运行、制冷温度是否在规定范围内检查空调设备断电后再通电的自动投运状况检查空调是否有漏水现象检查空调电源插头是否稳固、是否出现老化现象检查空调设备卫生情况填写巡检记录2.照明设备检查照明设备是否都能正常运行、照
8、明光度是否足够检查机房事故照明断电后的工作情况检查照明设备是否出现老化迹象检查照明设备的控制开关是否能正常使用、灵敏度填写巡检记录3.消防设备检查消防设备合格证、是否通过安全定检消防设备是否配备足够消防设备是否完好(外观)检查机房消防系统是否能正常运行清洁消防设备填写巡检记录4.抽湿机检查机房抽湿机是否正常运行检查机房抽湿机设定的湿度是否在规定范围内填写巡检记录5.机房防鼠检查机房所有与外界有联系的孔洞是否已严密封堵检查机房门窗是否已关闭检查机房门的防鼠板是否已装上并安装稳密填写巡检记录6.机房防水、防尘检查机房空调是否有漏水现象检查机房墙壁是否有渗水现象检查机房门窗是否已关闭填写巡检记录7.
9、机房卫生检查机房是否有垃圾、杂物清洁门窗、地柜;整洁办公用品,清洁地面负责施工后机房地面清洁工作填写巡检记录8.电池检查蓄电池外观完好性检查蓄电池是否有变型、渗液等状况清洁蓄电池填写巡检记录9.防雷设备检查防雷设备运行是否正常,能否实现防雷功能检查、测试设备运行的相关参数是否正常并记录检查设备的外观完好性检查设备是否出现老化迹象检查防雷设备接线是否牢固,线缆是否出现老化迹象清洁防雷设备填写巡检记录 UPS UPS 系统系统 UPS 主机一般是智能型的,它对环境温度要求不高,但要求室内清洁卫生否则灰尘遇潮湿会引起主机工作紊乱;主机中的参数在使用中不能随意改变;在断电时,应避免带负载启动 UPS
10、电源,应先关掉负载,等 UPS 启动后再开启负载,否则会有多负载的冲击电流和供电电流造成 UPS 电源瞬间过载,严重时会损坏变换器;不能让 UPS 电源经常处于满载或过载。1.蓄电池的维护及注意事项尽管使用的是免维护蓄电池,但从广义来说一定的维护还是必要的。首先它对环境温度要求较高,工作环境一般要求在 2025之间,低于 15时,其放电容量下降,温度每降低 1,其容量下降 1%,而温度过高(大于 30%)其寿命就会缩短;其次,要防止电池短路或深度放电,深度放电会造成电池内阻增大或充电电压过低从而导致降低甚至失去充电能力,放电程度越深,循环寿命越短;第三,要避免大电流充放电,否则会造成电池极板膨
11、胀变形,使得极板活性物质脱落,内阻增大,容量下降,寿命缩短;第四,由于组合电池电压很高,存在电击危险,因此装卸导电联接条、输出线时应有安全保障;第五,对于不经常停电的地区,建议用户每隔一个月对UPS 进行一次人为的断电,让 UPS 电源在逆变状态下工作一段时间,防止电解液沉淀,以便让蓄电池维持良好的充放电特性,延长使用寿命;第六,搬运电池时不要触动极柱和安全排气阀;第七,不能用二氧化碳灭火器,一旦发生火灾,可用四氧化碳之类的灭火器;第八,不能把不同容量、不同厂家、不同性能的电池联在一起,否则会影响整组蓄电池的性能。同时,要定期对电池进行检查、测量,并做好记录。检查项目包括:整组电池的浮充电压,
12、单体电池浮充电压,测单体电池电压时,应在电池放电状态下进行,否则测得的结果会是假电压,经验作法是在测量时,万用表两端并联一个 13 欧母的电阻丝;检查电池是否损坏,壳、盖间有无泄漏,表面是否有灰尘等杂物,电池架、连接线、端子是否有松动或锈蚀等。雾溢出主要是排气阀附近。3 IDC3 IDC 机房智能化管理机房智能化管理远程智能控制管理软件远程智能控制管理软件可实现对 IDC 数据机房的实时监控、故障检测、批量备份、一键开关机重启、一键安装应用软件、远程分配资源、机房空调控制等。机房、机柜内每台设备都会在远程只能控制管理软件上面一对一映射,可进行全方位远程监测和控制管理,远程智能控制软件最大限度地
13、诠释绿色机房和高效便捷管理的新概念。随着现在机房的不断发展,人为机房管理模式将被淘汰,远程智能控制软件为绿色机房提供了更加安全、可靠、智能的末端电脑管理理念。在新一代数据机房中,远程控制软件,结合现代机房数字化 IT 平台,随时随地远程监控、远程控制异地PC 的模式,能及时发现机房设备异常,预防故障发生,并能迅速排除故障,降低人力成本,最终实现无人值守的机房或基站。可需要通过登录管理软件即可实现对远程电脑的开关机和重启操作。这样的话,即使数据机房设备繁多,分布无序,通过使用远程智能控制软件,也可以更加合理、高效地分配机房资源。远程智能控制软件,可依托 P2P 连接方式,可以在远程迅速提取到机房
14、末端设备的运行情况,为数据机房管理员提供精准的机房设备相关数据。帮助管理员了解整体机房的运行情况,从而使管理员能对数据机房的进行全面监测和管理,更加合理地分配人力物力资源。4 IDC4 IDC 机房信息资产统计机房信息资产统计IDC 数据机房资产统计应包含在日常运行维护中,帮助我们对用户现有的信息资产情况进行了解,更好的提供系统的运行维护服务。统计内容包括:硬件设备型号、数量、版本等信息统计记录;软件产品型号、版本和补丁等信息统计记录;网络结构、网络路由、网络 IP 地址统计记录;综合布线系统结构图的绘制;其它附属设备的统计记录;5 IDC5 IDC 机房值班方案机房值班方案(1)(1)用户现
15、场技术人员值守用户现场技术人员值守IDC 数据机房现场应安排技术人员值守,保证网络的实时连通和可用,保障接入交换机、汇聚交换机和核心交换机的正常运转。现场值守的技术人员每天记录网络交换机的端口是否可以正常使用,网络的转发和路由是否正常进行,交换机的性能检测,进行整体网络性能评估,针对网络的利用率进行优化并提出网络扩容和优化的建议。现场值守人员还进行安全设备的日常运行状态的监控,对各种安全设备的日志检查,对重点事件进行记录,对安全事件的产生原因进行判断和解决,及时发现问题,防患于未然。同时能够对设备的运行数据进行记录,形成报表进行统计分析,便于进行网络系统的分析和故障的提前预知。具体记录的数据包
16、括:配置数据性能数据故障数据(2)(2)现场日常巡检现场日常巡检现场日常巡检需要对设备及网络进行全面检查的服务项目,通过该巡检,可最大可能地发现存在的隐患,保障设备稳定运行。同时,将有针对性地提出预警及解决建议,使客户能够提早预防,最大限度降低运营风险。巡检包括的内容如下:编号编号巡检内容巡检内容硬件运行状态检查项目硬件运行状态检查项目单板状态检查1电源模块状态检查风扇状态检查整机指示灯状态机框防尘网检查检查机房温度、湿度检查设备地线检查软件运行情况检查项目软件运行情况检查项目设备运行情况检网络报文分析2查设备对接运行状况检查路由运行情况检查网络整体运行情况调查网络整体运行情况调查3网络运行问
17、题调网络变更情况调查查网络历史故障调查服务器系统巡检项目模板服务器系统巡检项目模板巡检人员设备型设备名:号设备序管理 IP:列号参考标参考标检查内容检查内容准准检查结检查结状态是否正常状态是否正常果果巡检方法描巡检方法描述述巡检周巡检周期期电源指示灯正常异常正常面板指示灯硬件运行状态正常内存状态异常正常内置磁带机异常正常CPU 状态异常异常正常磁盘状态异常正常网卡状态异常正常HBA 卡运行状态异常系统日志正常异常正常Mail异常文件系统,包括正常磁盘卷剩余空系统正常检查正常交换分区异常间硬件检测异常异常正常固件版本异常正常补丁包版本异常正常系统镜像异常存储磁盘正常异常正常存储驱动异常正常进程状
18、态异常正常系统性内存利用率能检正常查磁盘 I/O 性能CPU 利用率异常正常异常异常数据库运行状数据库安装目录正常异常数据库进程状态正常异常态集群检查集群进程状态正常异常正常集群日志异常存储设备故障灯状态正常异常存储检查SAN 交换机端口状态正常异常存储交换机环境状态正常异常正常系统故障报告异常6 IDC6 IDC 机房应急预案机房应急预案突发事件应急策略突发事件应急策略系统运维应急方案是对中断或严重影响业务的故障,如宕机、数据丢失、业务中断等,进行快速响应和处理,在最短时间内恢复业务系统,将损失降到最低。在系统维护过程中,突发事件的出现将是很难完全避免的,针对这种情况,公司应设计完善的突发事
19、件应急策略。系统巡检人员要定期规范检查各硬件设备的运转情况和应用软件运行情况,同时做好日常的数据增量备份和定期全备份。对发现的问题在报各级负责人的同时,要协调相关资源分析问题根源,确定解决方案和临时解决措施,避免造成更大的影响。问题得到稳定或彻底解决后,要形成问题汇报,避免以后类似重大紧急情况的发生。对发现的问题在报负责人的同时,要协调相关资源分析问题根源,确定解决方案和临时解决措施,避免造成更大的影响。问题得到稳定或彻底解决后,要形成问题汇报,避免以后类似重大紧急情况的发生。技术支持工程师,需根据长期的机房工作经验,建立常用知识库,其中包括多种常见技术故障和突发事件的应急策略。当获悉出现突发事件时,技术支持人员可以立即从知识库中获取相应的应急策略,并综合用户方的具体情况,给出相关解决方案,然后在第一时间以电话、邮件支持或现场服务的方式帮助用户解决问题,尽最大努力减小突发事件对用户日常应用的影响。