《IT综合运维管理系统技术方案.pdf》由会员分享,可在线阅读,更多相关《IT综合运维管理系统技术方案.pdf(156页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 IT 综合运维管理系统技术方案 It was last revised on January 2,2021 IT 综合运维管理系统 技 术 方 案 目 录 第 1 章 项目概况.错误!未定义书签。.项目总体背景.错误!未定义书签。.项目的总体思路.错误!未定义书签。整体思路.错误!未定义书签。建设与管理范围.错误!未定义书签。达到的效果.错误!未定义书签。.综合运维管理系统.错误!未定义书签。系统简述.错误!未定义书签。架构和功能.错误!未定义书签。第 2 章 需求分析.错误!未定义书签。.总体要求.错误!未定义书签。.需求分析.错误!未定义书签。.建设目标.错误!未定义书签。第 3 章 整
2、体架构设计.错误!未定义书签。.实施范围.错误!未定义书签。.网络系统管理模式.错误!未定义书签。.统一的网络系统解决方案蓝图.错误!未定义书签。代理方式与无代理方式结合的设计.错误!未定义书签。数据库设计考虑.错误!未定义书签。.平台总体设计.错误!未定义书签。设计要求.错误!未定义书签。结合 BTIM 的平台总体设计.错误!未定义书签。信息系统综合网管系统系统软件的选型.错误!未定义书签。设计要求.错误!未定义书签。数据采集层技术设计.错误!未定义书签。.数据管理层技术设计.错误!未定义书签。设计要求.错误!未定义书签。数据管理层技术设计.错误!未定义书签。.其他技术设计.错误!未定义书签
3、。设计要求.错误!未定义书签。相关技术设计.错误!未定义书签。.平台功能扩展设计(接口方面的设计).错误!未定义书签。第 4 章 综合管理系统功能.错误!未定义书签。.综合网管系统架构图.错误!未定义书签。.综合监控.错误!未定义书签。综合监控的优势和亮点.错误!未定义书签。管理监控与值班监控的功能.错误!未定义书签。设备运行的功能.错误!未定义书签。线路流量的功能.错误!未定义书签。峰值流量的功能.错误!未定义书签。环境监控的功能.错误!未定义书签。告警总览的功能.错误!未定义书签。服务总览的功能.错误!未定义书签。.网络拓扑管理.错误!未定义书签。网络拓扑管理的优势和亮点.错误!未定义书签
4、。自动发现生成网络物理拓扑图.错误!未定义书签。基于 IE 的拓扑浏览.错误!未定义书签。拓扑图监视.错误!未定义书签。网络拓扑图编辑.错误!未定义书签。常用工具的集成.错误!未定义书签。TOPN 性能排序.错误!未定义书签。图例管理.错误!未定义书签。.网络监控管理.错误!未定义书签。网络监控管理的优势和亮点.错误!未定义书签。网络监控管理详细介绍.错误!未定义书签。设备负载一览的功能.错误!未定义书签。线路流量一览的功能.错误!未定义书签。TOP N性能分析的功能.错误!未定义书签。端口流量分析的功能.错误!未定义书签。交换机用户连接信息的功能.错误!未定义书签。交换机 VLAN分布表的功
5、能.错误!未定义书签。其他网络监控功能.错误!未定义书签。.设备面板管理.错误!未定义书签。设备面板图管理.错误!未定义书签。网元配置参数备份.错误!未定义书签。自动识别堆叠式设备.错误!未定义书签。关闭/打开端口.错误!未定义书签。VLAN划分,VLAN自动辨识.错误!未定义书签。更改 VLAN.错误!未定义书签。端口状态.错误!未定义书签。端口下联设备.错误!未定义书签。设备支持.错误!未定义书签。.接入管理管理.错误!未定义书签。IP 地址管理.错误!未定义书签。IP 安全管理.错误!未定义书签。.数据流分析.错误!未定义书签。功能描述.错误!未定义书签。数据流分析的优势.错误!未定义书
6、签。功能实现.错误!未定义书签。功能特点.错误!未定义书签。.主机系统服务资源管理.错误!未定义书签。系统和通用应用数据采集.错误!未定义书签。主机管理.错误!未定义书签。数据库管理.错误!未定义书签。中间件管理.错误!未定义书签。应用管理.错误!未定义书签。系统和通用应用故障管理.错误!未定义书签。告警管理通知方式.错误!未定义书签。数据传输安全管理.错误!未定义书签。.业务管理.错误!未定义书签。业务结构.错误!未定义书签。业务运行管理.错误!未定义书签。业务安全管理.错误!未定义书签。业务使用与流量分析.错误!未定义书签。根原因分析.错误!未定义书签。业务报表.错误!未定义书签。用户模拟
7、体验功能.错误!未定义书签。.存储管理.错误!未定义书签。存储管理的优势和亮点.错误!未定义书签。部署方式.错误!未定义书签。产品特性.错误!未定义书签。.虚拟化管理.错误!未定义书签。虚拟化管理的优势和亮点.错误!未定义书签。部署方式.错误!未定义书签。产品特性.错误!未定义书签。.故障告警管理.错误!未定义书签。故障管理的优势和亮点.错误!未定义书签。BTIM 故障管理详细介绍.错误!未定义书签。基线数据管理的功能.错误!未定义书签。告警日志查询的功能.错误!未定义书签。辅助查询的功能.错误!未定义书签。ARP 干扰设置的功能.错误!未定义书签。其他告警.错误!未定义书签。.报表管理.错误
8、!未定义书签。报表管理的优势和亮点.错误!未定义书签。报表内容说明.错误!未定义书签。报表展现类别说明.错误!未定义书签。报表提供方式.错误!未定义书签。.机房管理.错误!未定义书签。.统一监控平台.错误!未定义书签。服务拓扑展现功能说明.错误!未定义书签。运行展现功能说明.错误!未定义书签。告警展现功能说明.错误!未定义书签。.系统管理.错误!未定义书签。系统管理的优势和亮点.错误!未定义书签。用户管理的功能.错误!未定义书签。用户操作审计的功能.错误!未定义书签。当前在线用户的功能.错误!未定义书签。当前用户编辑的功能.错误!未定义书签。网管邮件发送帐号的功能.错误!未定义书签。第 5 章
9、 综合运维系统功能.错误!未定义书签。.建设思路.错误!未定义书签。.系统概述.错误!未定义书签。.平台架构.错误!未定义书签。.基于 ITIL功能模块.错误!未定义书签。自助服务平台.错误!未定义书签。服务台.错误!未定义书签。事件管理.错误!未定义书签。问题管理.错误!未定义书签。变更管理.错误!未定义书签。发布管理.错误!未定义书签。资产配置管理.错误!未定义书签。作业管理.错误!未定义书签。知识管理.错误!未定义书签。服务级别管理.错误!未定义书签。排班管理.错误!未定义书签。.运维系统功能.错误!未定义书签。门户平台.错误!未定义书签。接口管理.错误!未定义书签。流程设计.错误!未定
10、义书签。报表设计.错误!未定义书签。流程监控.错误!未定义书签。.硬件&基础软件.错误!未定义书签。硬件构成.错误!未定义书签。故障恢复.错误!未定义书签。第 6 章 项目管理与实施计划.错误!未定义书签。.项目总则.错误!未定义书签。.项目组织机构.错误!未定义书签。组织架构保证.错误!未定义书签。人员稳定.错误!未定义书签。.项目进度计划.错误!未定义书签。.项目范围内容.错误!未定义书签。.项目实施地点.错误!未定义书签。.项目进度管理.错误!未定义书签。.项目合同变更管理.错误!未定义书签。.项目质量管理.错误!未定义书签。.服务内容.错误!未定义书签。.项目管理.错误!未定义书签。.
11、项目交付成果.错误!未定义书签。.实施准备.错误!未定义书签。.实施人员清单.错误!未定义书签。.实施工作进度计划.错误!未定义书签。.实施技术资料.错误!未定义书签。第 7 章 培训方案.错误!未定义书签。.培训总论.错误!未定义书签。.培训内容.错误!未定义书签。培训课程表.错误!未定义书签。课程内容简介.错误!未定义书签。培训资费.错误!未定义书签。第 8 章 售后服务与日常运维方案.错误!未定义书签。.服务宗旨.错误!未定义书签。.北塔软件售后技术支持服务提供的内容.错误!未定义书签。.北塔软件售后服务网点.错误!未定义书签。第1章 项目概况 1.1.项目总体背景 随着某院信息化建设的
12、快速发展,在新一代运载研保条件信息化项目完成后,拥有多台 Windows服务器,多台用于高性能计算的 Linux 服务器、多个应用系统、多台网络路由交换设备以及近千台终端。面对如此庞大数据量的应用系统和信息设备,依靠某院信息中心目前的运行维护队伍,进行服务器及网络系统的状态监控、配置管理、故障修复、应用维护,还要包括系统开发和后续系统建设,是根本无法完成的,将极大的影响信息化系统的稳定可靠运行能力。尤其是配置管理和状态监控完成依靠人格经验和手工记录完成,造成系统变更不受控制、故障无法预警等问题,严重的甚至影响应用系统的稳定运行,对科研生产带来严重的影响。另一方面,自从开展新一轮军工一级保密资格
13、认证工作,按照新标准保密工作工作量成倍增加,如涉密人员流动频繁;信息系统的普及产生多种形式涉密载体,涉密设备和载体如何账物相符管理难度较大,协作配套项目多,协作单位的交流保护核心技术;日常的保密管理制度落实程度等等。依靠传统两三个管理人员,纸质账本登记的方式难以为继,需要通过信息化的手段,提高保密日常管理工作效率和监督的检查的能力。基于以上原因,需要部署信息系统运行维护管理系统,完成运维管理、效率评估、设备状态实时监控、配置变更统一受控、客户端信息集成管理和技术服务标准、流程化等功能。1.2.项目的总体思路 1.2.1.整体思路 项目要在整体统一规划的基础上,采取分阶段、分步骤的策略对现有的信
14、息系统综合网管系统进行建设,实现某院的网络设备的集中监管和维护,通过集中部署管理方式、实现对网络设备的集中监管,全面建成实现某院一体化统一信息系统综合网管系统平台,实现整个院所IT 基础设施的集中监控、集中管理和集中维护,全面提高某院 IT 基础设施运行、管理和维护水平。1.2.2.建设与管理范围 此次综合运维管理系统建设范围覆盖某院整体 IT 信息设备,系统部署在某院本部。1.2.3.达到的效果 某院综合运维管理系统的全面建设,将为某院基于信息化系统的各项业务和工作的顺利开展提供坚实的技术支撑,为科研项目的生产和管理活动提供良好环境和坚实的基础保障,IT 部门作为项目成果的使用者、管理者和直
15、接受益者,将从不同角度和层面感受到项目所产生的变革,具体价值体现为:给予 IT 部门一个全局化的管理视角,能够杜绝信息系统运转过程中的黑箱现象,避免管理死角的出现。通过简单直观的图形管控手段替代传统上不直观、不友好的管理界面,通过图形、动画、数据等多媒体手段的集成全方位展现整体信息系统动态运转情况,让管理人员对信息系统的运行情况做到全局掌握和实时了解,及时发现异常或问题,从而迅速介入和及时处理,做到问题早发现、早解决,提高对电力超高压检修信息系统运行管理质量和保障能力。提供对多厂商、跨平台异构IT 系统的统一管理支持,由管理平台屏蔽它们的底层差异性,采取统一的管理维护方式,从而简化管理、降低管
16、理难度,避免重复投资导致的资金浪费,实现经济好省。管理覆盖全面,实现对某院构成的各要素、各环节进行全面监控,主要是数据交换平台(网络)、安全,管理平台开放的体系架构和高度的可扩展性不但能够充分满足当前的管理需要,而且能够充分适应未来管理发展的变化,快速实现对新技术、产品的支持和适应,保护现有投资,实现向后兼容性。提供丰富的展现和分析手段,资源使用、系统负荷压力分布一目了然,为有效评估和科学评价提供帮助,确保资源的分配与使用更加科学合理;提高 IT 部门响应速度和支持保障能力,具备从容应对各种突发事件的能力,通过统一平台的主动检测监控,实现各种问题的及时发现、分析、定位并提供一系列管理手段帮助实
17、现故障的快速诊断和精确定位,帮助管理维护人员迅速锁定故障根原因,从而采取正确的措施迅速排障,最大限度降低故障对业务运转的影响;为多部门、多专业进行高效协同提供统一平台,使不同岗位和专业的管理人员,各司其职,相互协调,相互监督,运转流畅,使信息运维管理工作步入管理规范化、管理科学化和办公现代化的轨道;详实的运行维护数据为推行量化的精细管理奠定了基础,解决了IT 部门进行有效绩效考评的困难,为上级部门和主管领导客观评价IT 部门的工作成效提供了有力的论据,也有助于 IT 部门客观检查、审视自身工作,总结成绩、经验,发现不足,制定改进计划,持续改进、提高和优化信息管理维护工作;准确掌握问题、故障的多
18、发点,从设计、运行、管理等多环节切入寻找影响系统正常、稳定和可靠运转的关键因素,为深入优化、升级、改造提供有力的数据支持,从而确保信息管理和决策的科学性。集成安全管理,统一管理监控入口,及时捕捉影响系统安全的各种风险因素,提高信息系统整体安全性和坚固性;变被动的响应为主动监控;变事后修复为事前预防;变复杂操作维护为简单管理;变孤立分散管理为集中统一管理;全面扭转 IT 部门在运维工作中被动局面,借助于统一信息内网监管平台的有力支撑,有力推动某院 IT 部门朝着“全面实现以预防为主、修复为辅的主动式管理”的目标迈进。该项目建设完成后,将会对某院运行维护和管理水平的整体提高发挥积极的推动和促进作用
19、,做到故障早发现、早解决,确保计算机网络连续、可靠、安全运行,降低发生故障的可能性,提高信息运维部门的运行管理水平和服务保障能力,为信息运维综合监管系统的持续建设与深入应用提供强有力的支持与保障。1.3.综合运维管理系统 基于对上面内容的理解,在充分沟通、仔细调研的基础上,我们本次为某院推荐上海北塔公司的 BTIM 信息系统综合网管系统。1.3.1.系统简述 BTIM 为基于 DOTNET 平台运行的应用系统,采用了业界最新的框架及开发平台;系统采用 B/S 架构开发的应用系统,采用了业界最先进的技术,通过Ajax 技术和 Web Service 技术,实现了在浏览器上页面的局部更新,提供更好
20、的部署和使用体验;BTIM-IE 客户端采用运行于的 jscript 开发语言,大大提高 IE 客户端操作的响应速度;BTIM 通过 O/R Mapping 技术和缓存技术,能够自动适用不同数据库之间差异性,优化数据访问速度。BTIM 是一套全中文网络资源管理系统,是一套“基于网络平台、面向客户应用”的网络设备资源与应用服务资源、全中文、通用的管理软件,具有先进性、实用性、易用性和安全性的特点。为了确保某院安全、高效、稳定地运行,提高管理水平,满足客户日益增长的服务需要,提供最安全最周到的服务保障,树立自己的行业形象,结合现今行业发展水平,利用先进技术,采用安全可靠的设计方案,将监控系统集成化
21、,流程化。1.3.2.架构和功能 BTIM 系统主要功能架构包括对象层、对象采集层、数据处理层、数据展现层、外部接口等。BTIM 系统框架图如下:BTIM 系统的管理对象包括:网络设备、安全设备、机房环境、主机系统、数据库系统、应用系统、其他等,BTIM 系统数据采集的方式多种多样,支持分布式主动轮询或被动接受的方式采集数据,支持标准的 SNMP、RMON、Syslog、WMI、Telnet 等协议的数据采集,支持数据库接口采集,支持应用 API 接口采集等多种方式,支持集成第三方管理平台组件进行数据采集,还可以根据用户的要求定制相应的接口,将相应系统的信息纳入网络管理系统中,形成统一管理。B
22、TIM 系统采用开放的数据存储平台 SQL server 来进行网管系统的数据存储,能够保存半年以上的历史故障数据和性能数据以便生成相应的趋势分析报告。BTIM 系统能够针对告警事件提供灵活的过滤,提供对告警级别、告警类别、告警消息等配置的能力,告警划分成几种颜色,提供多种工具和方法定位问题的根源。BTIM 系统的性能数据采集能够支持秒级单位的采样周期。BTIM 能够提供原始采样频率的数据。BTIM 系统经过一段时间的记录,能够通过对性能数据的对比,生成相应的阀值告警事件。BTIM 系统通过 Web 访问的方式为用户展示物理拓扑结构,并通过物理拓扑结构为用户提供全网的性能和状态信息,并通过颜色
23、表现表示出来,帮助用户及时发现网络潜在的故障隐患点,从而为用户提供管理数据的分析、诊断机制和运维管理流程。BTIM 系统标准的 Syslog、Telnet、API 等接口,可以将安全管理系统、相关环境的管理数据,纳入 BTIM 系统中实现集中管理。第2章 需求分析 2.1.总体要求 结合项目特点综合运维管理系统要求如下:实时掌握网络性能数据和故障信息,其中性能数据的获取时间不高于 5 分钟,告警数据的获取时间不高于 30 秒。按时间段(天/周/月/季度/年)统计分析网络运行情况,支持设备性能和链路性能图表。实现全园区系统汇总运行的统计分析,例如 CPU平均使用情况、内存最大使用情况等。分析数据
24、可以层层下钻,看到各个网络设备相关指标的分析情况。也可以分析某段时间内不同区域不同指标的情况。实时监控、展现网络设备关键指标的变化情况。支持统一告警台视图展现,可将监控的所有的内容所产生的事件汇总到统一的展现界面,并可通过事件的点击追溯到事故资源的详细指标信息中。核心网络实时监控和分析展现是对核心网络数据深入统计分析,更好地了解核心网络系统的运行状况、分析异常数据变动的原始数据原因。核心网络分析展现通过数据抽取对业务数据进行分析结果展现,同时提供分析所需要的细粒度数据和汇总数据。网络实时监控和分析展现能按时间段(天/周/月/季度/年)统计分析网络指标的情况,分析数据可在时间维度逐层向下查看详细
25、数据。(1)系统需提供多种统计分析手段,如排序、同比、环比等而无需输入任何分析公式(2)监控信息刷新频率可以按照用户的需要进行灵活调整(3)满足实时抽取关键数据,按日批量和增量抽取明细数据(4)监控信息刷新频率可以按照用户的需要进行灵活调整 2.2.需求分析 根据需求来看,实际运维工作中是有一些管理工具进行监控工作。但是从实际运维管理工作需求角度出发,现有的管理工具存在较多的问题,这种问题体现在工具相互之间缺乏关联性,工具的非定制性导致采集数据和某院的实际运维工作存在较大的偏差,因此对于综合运维管理系统需求集中体现在以下几个方面:1)所有 IT 设备均纳入综合运维管理系统管理 综合运维管理系统
26、首先需要的是将某院所有IT 设备均纳入管理,这是运维工作管理的基础和核心。只有当所有设备都在管理范围内,对其进行的监控、告警、统计、分析、报表才有实际意义。目前某院虽然有了一些监控工具,但从实际情况来看,并未将所有设备纳入监控范围,从监控本身角度存在较大的缺失。2)全面增强的基础监控 KPI 某院网络管理系统必须摆脱依赖于原有工具来开展运维工作的情况,需要根据某院自身运维管理工作特点,有目的有计划的展开各类管理对象的专题分析,比如网络设备监控、链路监控、服务器监控、数据库监控等,通过梳理现有的监控指标尤其是全国范围内用户对上述设备的管理指标,建立健全某院对基础监控的KPI 库,将各类风险纳入到
27、综合运维管理系统中,实现综合运维管理系统及时、快速、有效的对各类故障进行事前可知、事中可控、事后可查的目标。2.3.建设目标 根据某院局现状和需求进行统筹规划,本着“从实际需要出发,保护已有投资”的原则,将目前已有的、针对网络的分散式监控管理系统,以及数据处理中心的动力集中到一个统一的监控系统,并以适当的形式进行集中展现,为运维人员进行系统、设备的监控、故障定位、故障诊断和解决等运维工作提供信息来源。实现集中统一的事件监控、集中统一的性能监控,从而实现综合运维管理系统的各项业务功能要求。利用综合运维管理系统全面主动反映某院个业务系统的运行健康情况,通过多种分析手段为合理有效地分配各运维人员和值
28、班人员的人员调度,为制定设备升级、扩容方案提供决策支持。通过综合运维管理系统对业务核心数据进行分析和实时监控,并实现丰富、科学、美观的展示。第3章 整体架构设计 本技术实施方案的目标是使用BTIM 运维管理系统为某院建立一个统一的信息系统综合网管系统,具体来说包括:1.建立起以 BTIM 为主体的网络运维管理系统:最终的综合信息系统综合网管系统应能够很好的满足某院信息网络系统管理的实际需求,具备良好的实用性,能够提供强大的故障监测和故障信息处理平台。平台能够实现目前某院对全公司网络系统的管理原则,实现网络综合监测管理模式。能够根据各级管理运行管理范围和责任划分实际情况,灵活定义和界定检测管理的
29、边界,根据实际需求选择和定义对相关检测信息的显示形式和统计方法。对网络核心环节能够实现全面的检测和状态管理。对网络设备的跨厂家、跨平台的统一管理;网络产品管理进行监控,以及运行值班管理等功能;提供了较快速的故障告警信息;能针对各厂家产品提供统一的管理界面;提供了较丰富和实用的管理工具;提供了被监视设备的故障日志;操作方便,能够提供大量的网络设备的性能和状态的真实数据、方便实用的事件统计功能;能对这些系统提供的数据进行整理和分析,结合运行考核办法,制订应用于某院各级运行管理的数据集。根据某院对网络综合管理与监控平台的要求,结合某院网络的实际情况及一些客观的因素:广域网带宽、设备性能、设备数量、管
30、理策略(如设置历史记录、告警等)等,BTIM信息系统综合网管系统采用集中部署设计。3.1.实施范围 本次 BTIM 信息系统综合网管系统总体技术实施方案范围为某院。在某院本部部署一套核心的 BTIM 运维管理系统,共 3 个逻辑组件(可以根据服务器的性能装在一台服务器上),包括:BTIM 数据采集器及 BTIM 管理平台 BTIM Web-Server服务器 BTIM 数据库(SQL server),可以使用客户已有的数据库服务器 本方案采用统一的管理,我们以某院本部信息中心作为整个系统的网络中枢,管理某院的核心网络。通过 BTIM 系统,可以实现跨厂商的网络产品管理、服务器管理、应用系统管理
31、、告警事件管理、日志管理、用户管理、流量分析管理、报表分析管理、机房监控管理等。对于各种事件和日志,有收集、统计、告警、处理、分析等功能,管理数据采用安全的协议和方式在统一平台上实现共享。所有功能实现均非互不相关的对立功能软件的堆砌,真正实现了某院建设信息系统综合网管系统的需求。3.2.网络系统管理模式 在现实的 IT 组织中,运行维护的管理模式可能是以上四种基础模式形态中的一种或几种的组合方式。对某院来讲,可以从以下几个方面来评估现状,或协助制定未来的管理模型:控制(Control)-Where are decisions made 单一控制或多点控制(Single or Multiple)
32、某院:采用单一控制方式,其优点是统一入口,集中管理。执行(Execution)-Where the management function executed?单一执行主体或多个执行主体(Single or Multiple)某院:采用单一执行主体方式 3.3.统一的网络系统解决方案蓝图 企业信息化管理是一个多元化的工程体系。它不是一蹴而就的,而是一个循序渐进,不断完善、改进的过程。考虑到某院业务的扩展和网络管理系统、流程管理系统的不断完善,基于对系统管理需求和管理模式的分析,我们制定了如下的设计原则:集中管理。基于集中管理系统的高效性,某院可以采用某院管理总控,统一制定并部署管理角色与职责、管
33、理策略,考核指标由某院统一制定并强制执行。3.3.1.代理方式与无代理方式结合的设计 针对某院这样一个大规模的网络系统管理平台,管理范围大,技术要求高,单独采用任何一种方式很难满足其架构设计的需要。考虑到代理方式和无代理方式的优缺点,建议采用两种方式结合的部署方式,大规模部署用无代理方式,深入监控需求用代理方式。通过 SNMP 协议能够获取详细信息的管理对象。两种方式结合所带来的益处是:1.兼顾安全与效率 2.兼顾深度与广度 3.兼顾可靠性与安全性 3.3.2.数据库设计考虑 3.3.2.1.数据库宏观设计 在北塔的方案中,建议某院采用SQL server 数据库的来存储全公司的性能和告警数据
34、,并作为日后进行流程管理的重要基础。3.3.2.2.数据库详细设计 在统一数据库中,需要为告警事件、流程管理、资产和配置、可用性与性能等不同的系统监控信息分别分配一组表空间,以实现数据的物理隔离,并有助于提高应用的访问速度。每一组表空间的大小可以根据某院采集点和采集频度进行估算。从性能和灵活性角度考虑,可以将数据库中的各种监控数据所存储的表按月进行分区,每个分区分别占用不同的表空间。这样做的好处是向表中插入数据时索引的更新速度较快,且可以较快地生成跨月的报表,同时又能较快地摘除过期数据。每一张表按照时间和最常用的一到两个监控维度字段建立索引,索引也按照表的分区分段存放在不同的表空间中,这样可以
35、使最常生成的报表获得最快的查询速度,且生成的索引较小。3.4.平台总体设计 3.4.1.设计要求 某院信息网络信息系统综合网管系统为总部集中式管理。以某院作为整个系统的管理中枢,能够实现对网络系统的状态检测,建立一个安全、高效、先进的监控体系。平台管理应具有企业级管理能力,管理平台能够对所有管理结点进行配置和监测数据同步。所有管理工作以良好直观的界面实现,支持远程管理。管理功能集成于一个管理平台,统一于一个管理图形界面。可监测和管理网络,形成一套统一的网络状态管理体系。对于各种事件和日志,有收集、统计、告警、处理、分析等功能,能够提供规范的数据传输接口和API接口,能针对重要的应用进行二次开发
36、。监测代理软件不应影响操作系统及应用程序的正常运行,对系统资源的消耗少。提供基于业务应用角度的监控,实现快速的故障诊断。能采用安全的协议和方式实现对不同安全等级区域中设备和应用系统的监测和管理。具有自身安全性控制,包括用户访问权限、数据安全控制、通信协议安全等,用户必须具有分权管理功能。有很好的可扩展性,可以随着应用规模和管理需求的增加而不断扩展,并保证不同阶段实施的管理功能和结构的完整和统一,保护投资,并能够提供长期的技术支持。3.4.2.结合 BTIM 的平台总体设计 根据某院对网络综合管理与监控平台的要求,结合某院网络的实际情况及一些客观的因素:广域网带宽、设备性能、设备数量、管理策略(
37、如设置历史记录、告警等)等,BTIM 信息系统综合网管系统采用集中部署设计。通过 BTIM 系统,可以实现跨厂商的网络产品管理、告警事件管理、日志管理、用户管理、流量分析管理、报表分析管理等。对于各种事件和日志,有收集、统计、告警、处理、分析等功能,管理数据采用安全的协议和方式在统一平台上实现共享,所有功能实现均非互不相关的对立功能软件的堆砌。BTIM 层次化管理功能具有很强的安全性控制,包括用户访问权限、设备管理权限、功能管理权限、数据安全存储和传输等。同时提供基于业务应用角度的监控,配合强大的告警事件管理功能,实现快速的故障诊断和恢复处理。各平台有很好的可扩展性,提供规范的数据传输接口和
38、API 接口,针对重要的应用可以进行二次开发,可以随着某院的应用规模和管理需求的增加而不断扩展,并在不同阶段实施保持管理功能和结构的完整和统一。数据采集采取某院与下属单位分步取数,层层递进分析的方法。上述所有功能实现的基础是由 BTIM 系统自动生成的真实物理拓扑图,所有的操作都是以拓扑图为核心展开的,所有功能是统一系统平台上支持数据综合分析的统一管理,而非割裂的几个分产品的堆砌,实现了 BTIM 统一网络运维管理的特性。通过采用 BTIM 运维管理系统统一的管理,我们以某院本部信息中心作为整个系统的网络中枢,管理某院的核心网络设备。信息系统综合网管系统模块配置设计 本方案中平台应用软件配置为
39、 BTIM 运维管理系统 BTIM 运维管理系统为分布式、多层架构的系统,支持部署多个数据采集器来进行信息系统综合网管系统的数据采集和处理。3.4.3.信息系统综合网管系统系统软件的选型 操作系统:数据库服务器和应用服务器采用 Windows2003 Server 或 Windows2008 Server 操作系统,可分布部署的信息采集器则根据采集技术的要求选取操作系统,本项目使用 Windows2003 Server 或 Windows2008 Server 作为 BTIM 管理平台的操作系统和作为数据库的操作系统。数据库系统:本项目采用 SQL SERVER 或 ORACLE 作为数据库管
40、理软件。数据采集层技术设计 3.4.4.设计要求 数据采集应考虑以下的性能因素:数据采集模块具有良好的健壮性和容错性,采集模块之间互相独立,网络异常恢复后能自动恢复采样。数据采集不能对监测对象的性能有过多的影响。能在一定范围内根据系统运行情况调整采样策略。数据采集、传输必须使用安全、可靠的技术手段,对现有的各类应用业务的安全不产生影响。对网络设备最小数据采样周期不大于 10S,对主机系统最小数据采样周期不大于 30S,对数据库和中间件最小数据采样周期不大于60S,要求提供各类采集指标最小数据采样周期。(最大采样周期要求可参照平台监控管理范围与主要指标要求中相关部分要求)要求平台能够根据适应应用
41、系统状态监测的不同需求,支持采用代理、非代理型二种采集模式对主机系统、应用系统和有关中间件状态进行监测。数据采集应考虑以下安全因素:在进行数据采集时对于高权限用户账户信息应全部采用有效的加密方法进行传输和存储,并对特定 IP、MAC 地址访问控制,以保障被测设备和系统的安全;对重要的设备和系统必须采用加密的登录过程(即 SSH),保障远程登录的安全性;数据采集、传输、存储、读取应支持 HTTPS 和 SSH 加密协议。用户登录系统除通过不同的用户名和密码进行身份和权限控制外,还应可设定系统只允许通过指定的 IP 地址进行远程登录。对网络系统的数据采集应依托网络进行,对专用设备的监控应通过现有传
42、感设备进行,最终通过网络传输和存储。3.4.5.数据采集层技术设计 BTIM 系统提供分布式的数据采集器,支持分散、多个安装在网络的不同位置,从BTIM 管理平台下载数据采集和监视的规则,接受自动处理调度、上传采集数据、数据处理结果与告警策略监视,从而动态、全面地收集整个网络的信息。网络管理人员可以在各网络合适的交换位置上安装 BTIM 分布式数据采集器,对全网信息进行不间断的收集和处理,即缓解了网络数据采集带来的压力,同时由于 BTIM分布式数据采集器本身也可以处理一些数据,这样无疑大大提高了 BTIM 系统整体的运行效率。BTIM 分布式数据采集器具有良好的健壮性和容错性,各采集器之间互相
43、独立,在网络异常恢复后能自动恢复采样。数据采集可以单独/批量进行手工调整采样策略和采样间隔。BTIM 的数据采集、传输使用 SNMP v3、SSH、HTTPS 等安全、可靠的方式,对现有的各类应用业务的安全不产生影响。BTIM 分布式数据采集器对网络设备类最小数据采样周期为 10S,对主机系统类最小数据采样周期为 15S,对数据库和中间件最小数据采样周期为 60S。BTIM 支持采用代理、非代理型二种采集模式对主机系统、应用系统和有关中间件状态进行监测。BTIM 分布式数据采集器在进行数据采集时对于高权限用户账户信息采用SNMP v3、SSH、HTTPS 等有效的加密方法进行传输和存储,并对特
44、定 IP、MAC 地址进行访问控制,保障了被测设备和系统的安全;对重要的设备和系统采用加密的登录过程(SSH),保障远程登录的安全性;数据采集、传输、存储、读取支持HTTPS 和 SSH 加密协议。用户登录系统除通过不同的用户名和密码进行身份和权限控制外,还可设定系统只允许通过指定的 IP 地址、MAC 地址和交换机端口进行远程登录。BTIM 分布式数据采集器对网络系统的数据采集依托网络进行,对专用设备的监控可以通过与现有传感设备进行联动,最终通过网络传输和存储。BTIM 系统提供开放的平台架构和标准的 API,能够根据用户的实际需求,自定义用户专用系统或设备的数据采集监测器和监测脚本。3.5
45、.数据管理层技术设计 3.5.1.设计要求 数据管理层的要求包括:能够适应不同的监控内容和采样策略,有合理的数据文件结构,避免采样时的数据文件争用。数据库参数配置尽量合理,高效。要求数据库运行无明显瓶颈,满足某院目前被监控系统的采样数据写入和应用层查询的需求,并留有适当可扩充的冗余。数据库支持为本系统自身所监控。平台提供完备的备份策略,提供有效的数据备份方案及相应的数据恢复、迁移方案,要求可行性高。3.5.2.数据管理层技术设计 BTIM 的数据管理平台支持数据复用与信息一致化,所有功能采用统一底层结构,以资产为中心共享数据,保持不同功能项之间数据的一致性,数据采集采用北塔特殊的算法,达到最大
46、的数据复用效果,避免数据的重复采集,减少网际数据流压力,在相同管理数据流压力下提高管理功能效率,能够适应不同的监控内容和采样策略。保证了数据库运行无明显瓶颈,满足某院目前被监控系统的采样数据写入和应用层查询的需求,并留有适当可扩充的冗余。数据库支持为本系统自身所监控。BTIM 运维管理系统具有完善的系统纠错恢复安全机制和自动诊断报警能力,运行稳定可靠。BTIM 提供多种自动备份工具,能够定时备份数据库和配置文件。BTIM 可以通过在主机安装防火墙和防病毒软件的方式来保证自身主机的安全。3.6.其他技术设计 3.6.1.设计要求 操作日志 系统提供操作日志记录,对系统事件(登录、查询)和采集等操
47、作进行记录。接口 平台必须留有标准的外部程序接口,具备二次开发能力,可以根据要求对用户的具体网络监测需求进行定制开发。采用开放的API 和模块化设计,能够实现网络管理资源整合,以保证整个系统与其他系统之间的无缝连接。必须提供多种方式的数据输入输出。权限设置 系统提供分级的权限设置体系、用户分级不少于以下四类。超级用户:是用户权限分配和系统监控的根节点。负责添加和配置采集端,增加/删除被监控对象;系统级监控员:由超级用户定义和配置,负责管理和监控某一类系统的管理员:如综合业务管理及监控系统管理用户、主机监控用户、数据库监控用户等。应用系统级管理员:由超级用户定义和配置,负责管理和监控单个应用系统
48、。应用系统管理员具有监控数据库、专用防火墙和其所部属的中间件资源的监控权限。普通状态监控用户:由上述两种用户在各自权限范围内定义,对某单个设备或某个基础应用系统进行监控,并且存在时效限制。要求能够在上述四类的基础上对具体的监测对象在添加设备、删除设备、添加监测点,删除监测点等等操作权限分等级设置;能够对具体的监测对象在设备、监测点的数据处理权限分等级设置,并具备较好权限组合能力。监测信息展示 系统支持投影、声音等多媒体展现方式,用于监控结果的宏观展示。信息展示要求包括:统一访问门户(portal)用于向用户提供基于 WEB 的统一网管访问入口,使用户能够在统一登录、统一认证的情况下,方便的实现
49、对应用系统管理系统、网络管理系统的访问和管理。统一访问门户预留与其他网络管理平台、应用系统管理、安全管理平台等系统集成的端口。根据用户的实际应用和管理需求,能够在各级管理区域中(或跨区域),由用户自定义业务系统或设备的监测视图并进行集中展示。自动通知功能 系统能根据警告事件的级别通过声音告警、电话告警等方式主动通知运维人员。3.6.2.相关技术设计 操作日志 BTIM 提供完备的操作日志管理、故障日志管理,支持按不同时段、不同对象查寻日志,支持日志打印输出、报表输出。BTIM 可以记录和查询系统管理员和日常操作员的所有操作,信息包括用户名称、用户登录时间、操作内容等;BTIM 提供有关该设备的
50、最近故障日志查询,可以查询某台设备或所有设备某时段或所有时段日志记录,日志可以打印输出。接口 BTIM 运维管理系统留有标准的外部程序接口,具备二次开发能力,可以根据要求对用户的具体网络监测需求进行定制开发。BTIM 采用开放的 API 和模块化设计,能够实现网络管理资源整合,以保证整个系统与其他系统之间的无缝连接。提供多种方式的数据输入输出。BTIM 系统提供的标准接口如下:直接数据库共享:BTIM 系统采用 SQLServer、Oracle 等大型数据库,支持其他系统直接访问该数据库中的各种表格数据,实现数据共享。OR Mapping数据共享:BTIM 通过 OR Mapping 机制将关