《2022年IT综合监控系统功能建设 .pdf》由会员分享,可在线阅读,更多相关《2022年IT综合监控系统功能建设 .pdf(5页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、ForceView IT 综合监控系统建设功能一、建设目标IT 综合监控系统的建设目标是:对项目涉及的机房内设备及应用软件进行全面监控管理,及时掌握信息系统资源现状和配置信息,反映信息系统资源的可用性情况和健康度,创建一个可知可控的IT 环境,从而保障各类业务系统的可靠、高效、持续、安全运行。二、可管理对象IT 综合监控系统的管理对象涵盖项目涉及用户正在运行的应用系统,以及支持应用系统运行的IT 基础设施,包括路由器、交换机、防火墙、服务器、数据库等。三、 ForceView 架构特点1、 IT 综合监控系统支持多层次的管理模型。下级监控中心将网络拓扑、告警事件、 性能数据上传到上级监控中心,
2、上级监控中心可以了解下级监控中心的网络系统运行状况。2、 IT 监控系统采用J2EE 架构,可跨平台部署。3、 B/S 架构,基于web 浏览器访问,在网络可达的任意位置进行远程监控和管理。4、 IT 监控系统产生的流量小,不会影响网络的正常运行。5、 IT 监控系统采用无客户端监控方式,不需要在被管网元上安装任何agent 产品。6、 具有很好的开放性,支持业界标准,并能通过开放的接口与第三方产品集成。管理系统后台数据库采用开放的数据库。7、 系统具有较强的可扩展性,提供开放的API 和开发文档, 支持用户针对选定监控目标开发专门的监控产品。8、 IT 监控系统提供标准接口,可以与IT 服务
3、管理系统或其他系统进行对接。四、功能介绍IT 监控系统建设功能需求可分成:IT 基础设施管理的功能,应用系统的监控功能和集中管理平台的功能三个部分。(一) IT 基础设施管理功能1、 网络设备管理对现在的大部分网络设备及将来添加的支持SNMP 的设备进行管理, 能对二层设备进行监控和管理,支持cisco、华为、 H3C、ZTE、锐捷、北电等厂商设备。(1)网络节点和拓扑管理1) 支持网络拓扑展示,不同厂商网络设备以不同的图标显示,对于无法识别生产厂家及产品类型的网络和主机设备,提供手工方式加以定义;2) 拓扑中实时显示网络元素和链路的状态,用不同颜色标识不同状态;3) 鼠标点击拓扑中的网元图标
4、可以显示相关的实时性能数据和告警信息;4) 能快速进行定位故障,找到故障影响的设备和业务范围;5) 鼠标点击拓扑中链接可以显示相关的实时数据;6) 具备拓扑的人工维护功能,可对拓扑图进行编辑;名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 5 页 - - - - - - - - - 7) 可以针对IP 地址进行MAC 地址绑定;(2)网络性能管理1) 网络性能数据采集需要支持SNMP(包括 v1、v2 和 v3) 、RMON ;2) 可根据被管理的类型及其属性,定时采集性
5、能数据,如 CPU 利用率、,内存利用率、端口利用率、端口错误率、端口丢包率、端口流量,并将数据保存在数据库中供统计、分析使用;3) 对每一个被管理对名,可针对不同的性能指标进行阈值设置,设置阈值检查和告警,提供相应的阈值管理和溢出告警机制;4) 网络性能数据要可保存到数据库中,进行分析,统计和整理,按照不同的时间粒度生成性能趋势曲线,以直观的图形反映性能分析的结果,5) 在拓扑显示图中,能以链路的粗细来显示网络流量情况,显示不同的节点设备之间,不同链路的通断情况。支持阈值告警,在超过用户自定义阈值时,通过弹出窗口或者闪烁等方式显示告警情况;(3)网络故障管理1) 可监控网络中发生的各种事件,
6、对于不同的故障等级给予不同的显示(如不同颜色) ,可提供多种报警方式,如电子邮件,声音,告警界面、手机短信等;2) 可按照预先设置,自动抑制重复事件;3) 对于故障点,能在管理视图中以特定方式与正常节点加以区分,并能依据故障的严重程度给予不同显示;4) 可提供连通性故障定位功能,并将明确的故障发生定位信息通过街区系统发送到网络管理员;对于故障事件能进行自动关联,给出最直接的故障原因,帮助管理员在最短的时间内解决问题;提供故障诊断功能;5) 对于发生的故障事件,可自动进行统计汇总。2、 服务器系统管理要求对现有的服务器操作系统(hpunix、ibm aix 、sun solaris、linux
7、、windows )进行管理。(1)服务器系统监控管理1) CPU 性能管理: 可监视系统CPU 利用率, 并针对系统的每个CPU 分别给出其相应的利用率;可按照占用CPU 的情况给出系统所运行的进程列表;可可显示CPU 运行队列的长度;2) 内存使用情况管理:可监视系统内存的利用率以及虚拟内存的使用率;可显示用于系统进程的内在和用于用户进程的内在的使用情况;3) 硬盘利用情况管理:可显示硬盘太磁盘阵列的使用率;可显示用于文件读或写操作的磁盘I/O 利用率;4) 系统进程管理:可实时监视系统进程的运行状况,并能在系统进程出现异常时给出告警;可针对系统进程表显示出进程所战胜系统资源的情况;可显示
8、每个用户占用的内存量;每个进程占用的内存空间;可对行时间占用CPU 的进程进行告警;5) 性能管理:可监控系统资源的实时变化,可设置门限值,当正监测的系统性能参数达到门限时产生报警,并可生成系统资源的的历史性能报表;名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 5 页 - - - - - - - - - (2)服务器系统文件系统管理可实时监视文件系统空间的使用情况,并在文件系统达到一定的阈值时给出告警(3)服务器系统应用进程管理1)监控应用系统进程的运行状态,可在应用系
9、统进程出现异常时给出告警,并能在主要用系统的进程终止时给予自动重启该进程的操作,同时发送告警到控制台;2)对关键进程占用系统资源的情况进行管理;3)可实时检测应用系统的可用性;4)可针对应用系统运行中生成的记录文件进行监测,从而判断应用中的重要错误、警告以及性能等问题;(4)服务器系统运行日志管理:1) 可自动对系统日志内容进行分析,判断系统中的重要错误、警告以及性能等问题,并给出相应的告警;2) 对主机系统及其外设的硬件故障可通过对其相应的故障日志的分析,做出及时的告警;3、 数据库管理监控数据库关键的运行状态和性能,并对数据库进行有效管理。支持的主流数据库包括 Oracle、Sybase
10、、MSSql、 SQLServer、DB2 等。(1)运行监控1) 服务器实例的可用性,监控数据库实例的状态,登陆的用户数等;2) 空间监控:监控数据库表空间、日志的使用情况,碎片情况,超过指定阈值则报警;3) 显示和过滤数据库告警信息和数据库日志中的报警。(2)性能监控1) 锁资源监控, 对阻塞了其它会话的锁进进行街区,以及监控可用的锁;2) 对数据库事务的监控,包括提交的事务,回滚的事务百分比等;3) 监控缓冲区,磁盘I/O 等相关的性能数据;4) 监控数据库会话的善,包括会话中当前活动和最近活动的SQL 语句会话的资源消耗、会话等待的事件,会话的锁活动等;5) 可对正在执行的SQL 进行
11、扫描,分析出占资源较大的SQL 语句;6) 监控数据库进程情况,包括进程占CPU 事件,内存大小。4、 中间件及服务管理监控中间件关键的运行状态和性能。涉及的产品WEBLOGIC 、 TUXEDO 、WEBSPHERE 、TOMCAT 、JBOSS、APUSIC 、DOMINO 、EXCHANGE 、MQ 等,同时可以对http、FTP、DNS、SMTP、 POP3等服务协议状态监控。1) 当中间件服务器实例或其他被监控组件出现异常事件时报警;2) 监控中间件服务器占用资源CPU、内存占有情况;3) 监控中间件应用服务器打开连接数;4) 监控中间件应用服务器Sockets 数;5) 监控中间件
12、应用服务器总交易数;6) 退出交易数和提交交易数;7) 对中间件应用服务器JSP/SERVLET 监控:最大执行时间,平均执行名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 5 页 - - - - - - - - - 时间,重新加载累计值,重新加载累计值比率;8) 对中间件应用服务器EJB 的监控:事务提交,回滚,事务命中;9) 对监控中间件应用服务器连接池的监控:当前活动,等待连接,活动数,等待连接最高数,等待秒数最高值。(二)应用系统监控的需求对应用系统的管理贯穿网络
13、管理,主机系统管理、 数据库管理、 应用本身管理等各个层,最终形成面向应用的端到端管理。(1)应用系统监控1)关键进程运行状态监控2)关键进程消耗CPU、内存情况;3)应用日志监测;4)性能指标超越设置的阈值时进行告警。(2)面向应用的综合监控1)提供应用综合管理视图,集中显示应用相关各部分状态;2)提供综合报表,综合统计应用系统各部分运行情况,性能数据、故障维护数据等,并能生成相应的日报,周报,月报,年报等。(三)管理平台的需求提供基于Web 的网络管理管理平台,集中管理各监控系统,集中事件管理,集中报表管理。(1)监控系统集中管理1)监控系统集中管理平台整合各监控系统,查看各系统的运行状况
14、,包括IT 基础设施状况及应用系统状况;可以进行统一的数据分析和显示;2)支持身份管理,不同的系统管理员所的管理模块、事件内容不同;3)支持用户开发新的应用程序;能利用、集成已经在用的其他监控工具如机房环境监控系统;4)分类管理,按网络设备、主机设备、数据库、中间件、业务系统等进行分类管理,每一大类下面可以细分小类直至最终设备的监控对象,以树状显示,以不同颜色显示每一分枝的最高告警状态;用户可添加、更改分类;5)提供拓扑图管理,实现局域网、广域网拓扑图,拓扑图可以嵌套子图,拓扑图上可以显示节点状态及线路流量,可以从拓扑图上选择设备进行性能监控;6)提供事件管理,可及时发现、集中处理来自网络系统
15、、主机系统、数据库、应用系统等的消息和事件;支持基于用户定制策略对跨系统事件进行关联、过滤与集中,支除冗余、无关的事件;支持用户自定义策略,对所收集到的事件进行自动处理,实现以弹出窗口、突出显示、电子邮件、短信等方式通知相应管理人员;当前事件(所有未关闭事件)实时显示,支持对事件确认和关闭;历史事件提供多种查询条件查询浏览;提供接口,可以将故障处理建议录入到集中管理平台;当监控到故障出现时,提示系统管理员如何解决故障;可提供接口支持与其他系统集成,将经过滤、集中的重要事件自动发送到其他工单系统中,并接受工单系统对事件的确认和关闭信息;7)提供性能管理,从设备管理树中选择监控对象进行实时性能监控
16、历史性能查询;8)提供业务系统视图,集中显示业务系统各部分组件及状态;可以从业务视图中名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 5 页 - - - - - - - - - 查看各监控对象事件及性能;用户可以增加、修改业务视图;(2)综合报表系统报表系统包括资产报表、性能报表、事件报表等。具体要求如下:1)与集中管理平台、运维服务管理平台紧密结合;2)支持 Web 远程访问, B/S 结构;3)可根据不同的用户(组)定义不同的报表,使不同用户根据各自关注重点通过浏览器
17、查看报表系统,安全可靠;4)系统以 SQL Server 或 Oracle 等关系型数据库为数据库平台,至少能保存三个月的的主要运行实时数据,可提供多种灵活、形象的分析图表,对统计数据提供三年以上的保存时长;5)生成的报表全部是中文,在报表中包含对报表内容的说明,使管理人员可以清楚了解报表内容、报表数据的含义、数据量定义等;在给出文字报表的同时,可生成多种形式的图表。要求全部的报表采用统一格式,全部报表规范统一;6)提供打印和以多种格式的数据导出(Excel、 PDF 等)功能;7)可由用户灵活定制报表;8)可根据用户需求自动打印每日的报表,并可邮件方式自动转发用户指定人员。9)系统可按小时、 日、周、月、年等不同时间梯度对数据库系统中数据进行汇总、整理,提供不同粒度的统计数据。对数据的统计、分析、处理过程可由用户选择在指定的时间进行,处理结果保存在专用的数据表中,供生成报表使用,减少生成报表时对网管系统的性能影响。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 5 页 - - - - - - - - -