《企业云计算管理平台规划设计方案.doc》由会员分享,可在线阅读,更多相关《企业云计算管理平台规划设计方案.doc(90页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流企业云计算管理平台规划设计方案.精品文档.云计算咨询项目云计算管理平台规划设计方案目 录一. 概述51.1 建设背景51.2 建设目标6二. 规划思路62.1 云计算整体规划思路72.2 云管理平台总体目标架构7三. 基础设施云管理平台建设规划83.1 功能架构描述83.2 服务管理功能域123.2.1 服务目录要求123.2.2 服务目录管理133.2.3 服务流程支撑143.2.4 自助服务门户143.2.5 配置数据管理153.3 监视功能域173.3.1 数据采集管理193.3.2 性能管理243.3.3 健康管理263.3.4 容量
2、监视293.3.5 告警管理323.3.6 拓扑管理333.4 资源调度功能域333.4.1 资源纳管封装343.4.2 模板管理403.4.3 部署调度423.5 采集与控制功能域473.5.1 性能采集483.5.2 告警采集503.5.3 配置采集523.5.4 操作控制533.6 管理流程说明54四. 虚拟桌面云管理平台建设规划564.1 整体功能架构描述564.2 桌面虚拟化云管理平台规划574.2.1 接入层支持594.2.2 身份认证管理624.2.3 会话管理634.2.4 资源管理664.2.5 用户和用户组管理684.2.6 系统维护管理704.3 瘦客户机管理平台规划78
3、4.3.1 部署安装784.3.2 配置管理814.3.3 用户管理824.3.4 维护管理834.4 平台运维规划864.4.1 虚拟桌面运维管理864.4.2 虚拟桌面瘦客户机运维884.4.3 虚拟桌面系统运维914.4.4 虚拟桌面业务运维92五. 统一应用环境建设规划955.1 整体功能架构描述955.2 平台服务功能规划975.2.1 应用服务器运行环境服务975.2.2 数据库服务975.2.3 中间件服务985.2.4 业务系统接口服务995.2.5 开发框架服务995.2.6 开发测试环境服务995.3 PaaS与IaaS的交互方式1025.3.1 接口协议1025.3.2
4、资源调度接口1025.3.3 服务节点监控信息接口1025.3.4 模板管理接口102一. 概述1.1 建设背景云计算的快速发展正在引起新一轮的产业变革。企业采用云计算技术整合内部 IT 系统是云计算战略的重点工作之一。遵循南网对企业云计算的统一发展规划,企业IT云计算应用主要从IaaS 层入手,建设内部服务器资源池、整合利旧Unix服务器。同时,从提升服务器资源的利用率,降低运维管理复杂度,提高业务系统的稳定性和可用性的需求出发,需要建设基础设施云平台。同时,企业公司桌面计算普遍使用传统的PC机。随着信息技术的飞速发展,桌面用户的个性化及应用需求日益增加,现有的桌面系统很难满足用户的需求。从
5、日常运维管理的角度来看,传统PC机存在多种问题:1、难以管理:面对广泛分布的 PC 硬件,当PC系统或硬件发生故障时恢复时间较慢。此外,由于 PC 硬件种类繁多,更减慢了故障发生后的恢复时间。2、难以保护数据的安全:确保 PC 上的数据能成功备份并能在 PC 出现故障或文件丢失时恢复,是一个巨大的挑战。即使数据能成功备份,PC 失窃的风险也威胁着重要数据的安全。通过采用在服务器系统上承载桌面映像的方式,既桌面虚拟化,以集中资源并提高其桌面计算基础架构的可管理型来解决上述问题。虚拟化桌面主要面向的对象为企业收费营业厅、调度中心、变电站、95598、IT服务中心等3000余台对外服务窗口及调度、内
6、部服务窗口。适用对象都基本满足以下基本条件:不是用作办公用的终端、长期与对外人员接触、有数据丢失或失窃的风险、不易更新操作系统漏洞、不需要连接互联网、发生故障时需要尽快恢复的终端设备。1.2 建设目标在云计算平台建设过程中,需要逐步完成所有适合应用向资源池的迁移。在保障系统稳定运营的同时,用两到三年的时间,对现有系统分批完成适合PC服务器的应用向PC服务器资源池的迁移;对Unix服务器,则采用虚拟化技术进行整合,逐步实现分区或虚拟化部署,实现池化管理。提高资源共享水平和利用效率、提高应用系统弹性,降低IT总体拥有成本。资源池的建设给管理和运营带来了新的变化:IaaS 资源池的主要特征是虚拟化+
7、管理自动化,通过虚拟化技术将主机等资源拆分成多个相互独立的虚拟机,并进行自动化的调度,从而提高资源使用的精细化程度及利用效率;同时基于统一的流程根据需求申请快速提供和回收资源,从而提高业务响应效率。资源池的高效管理要求能够对物理资源、虚拟资源实现统一部署调度,并可在运行时根据资源的使用情况和应用要求动态伸缩或迁移等,对现有IT服务管理体系提出了新的要求。为保障资源池引入高效稳定运行,需要在充分分析 IaaS 虚拟化资源池的管理 要求的基础上,增加 IT 服务管理系统的IaaS资源池管理能力,调整现有需求管理等流程,将资源池运营纳入现有 IT服务管理体系,实现统一管理。建设统一的桌面虚拟化基础架
8、构,同时部署桌面云管理平台,实现对企业桌面虚拟化环境的统一高效管理。二. 规划思路2.1 云计算整体规划思路云计算的IT资源池具备共享、快速、动态等基本特点:资源统一建设、能力提前具备、全专业共享:资源池模式下,基础设施要求统一规划、统一建设,能力提前具备、各专业共享,不再按传统方式 按系统部署硬件、独享式使用;自助式申请使用,可快速开通及回收资源:根据用户申请快速开通所需计算资源,大大缩短硬件就绪工期。资源使用完成后,可快速回收。可动态按需伸缩,支持应用及虚拟机迁移:可根据需要在应用繁忙时动态增加计算资源、空闲时释放计算资源,并可进行资源池内的虚机动态 迁移,高效稳定运行并充分利用计算资源。
9、2.2 云管理平台总体目标架构IaaS 资源池和虚拟桌面资源池模式下,构建云计算管理平台的管理能力主要体现在需求及资源申请及开通与调度、操作与运维、计量统计等主要方面,如下图所示。便捷的用户自助服务能力:基于不同角色(如用户、管理员)提供个性化的 自助服务门户功能,方便用户提供资源申请及进度查询、所拥有资源利用情况统 计,为管理员提供虚机开通、虚机回收、资源池使用情况统计查询等;清晰的服务目录和流程配置:能够基于资源池提供服务目录,如不同配置的 裸虚拟机、虚拟桌面,不同操作系统的通用虚拟机和桌面,安装不同版本系统软件的专用虚机等,并实现相应服务的流程支持;快速部署和灵活动态伸缩:可管理资源池所
10、有管理对象(如资源区、集群、 宿 主机、虚拟机、虚拟存储、虚拟网络等)及对象之间关系,并能提供细粒度的系 统、网络、存储的资源分配及调整能力(如 CPU、存储空间、IO 带宽等);可根据预定模板及配置自动生成和开通虚机资源(含批量),支持灵活的资源分配和调度策略,并能够根据资源池运行性能及预定策略进行灵活的资源伸缩或动态迁移;主动性的运维支持能力:可提供资源池、物理机(宿主机)和虚拟机等不同 粒度的的性能和可用性监控并能及时预警,支持资源调度策略设计;可根据资源 使用情况、增长情况等容量统计数据,实现资源池可满足业务的周期预测及需求 预测,支持容量规划。准确的计量统计能力:可根据资源使用情况提
11、供容量使用报告数据,为业务部门提供准确的成本核算依据,以实现资源合理、高效分配和使用。三. 基础设施云管理平台建设规划3.1 功能架构描述根据IaaS 资源池管理的功能要求,基础设施云管理平台的功能逻辑架构图如下,在服务管理域、监视功能域和采集等域功能在IT服务管理平台上进行了补充增强,并新增了虚拟化资源的部署调度和操作控制功能域。如下图所示:服务管理域:通过服务目录,为 IT 用户提供自助的虚机等资源申请/修改/回收/查询等服务,并通过规范化需求管理、变更管理等流程的支持,支持资源申请的开通及回收,实现对资源服务全生命周期的管理。CMDB 中包括资源池相关的管理功能,支持资源池物理资源、虚机
12、资源的统一的、准确的配置数据管理。 服务管理域主要是增强原规范的 IT 服务管理系统中的流程支持和 CMDB 管理能力来实现。监视管理域:通过对 IaaS 资源池范围内的各类对象(资源区、集群、宿主机、虚拟机、虚拟存储和虚拟网络)的性能数据管理、运行状态监视、容量监视、健康分析和告警管理,及时发现异常和潜在问题,并支持基于容量数据对资源池、 资源区、宿主机等容量发展趋势作出预测。监视管理域的能力主要是通过增强原 规范中的 IT 基础监控系统的能力来实现。资源调度域:支持资源(宿主机、虚拟机等)的自动发现及纳管,支持多种 格式模板的配置及管理;支持多种调度策略管理,如高可用、负载均衡等策略; 支
13、持资源创建、修改、迁移、克隆、回收的全生命周期管理;根据资源性能指标 及预置调度策略,实现资源池运行时的自动伸缩及迁移调度。资源调度域的能力 主要是在原 IT 基础设施监控系统上增强操作控制管理能力来实现。采集与控制域:本层屏蔽异构的各种主流虚拟化技术平台(如VMware、 Hyper-V、KVM、Redhat Xen/KVM)的差异性,通过主动采集等方式,获取不同 管理对象(宿主机、虚拟机等)的配置信息、性能信息、告警信息,并负责管理 对不同被管对象发起调度控制时的命令传递和结果反馈;并把操作结果和各类信 息以统一的接口对上提供。采集与控制域的能力主要是通过增强现有IT基础设施监控系统的采集
14、与控制功能来实现。各功能域之间的关系如下图所示:功能域子功能域模块间主要传递信息描述(功能模块-功能模块)服务管理域监视与资源调度域配置变更信息(变更管理-资源部署调度)。配置信息(配置数据管理(CMDB)-监视)。 配置信息(配置数据管理(CMDB)- 部署调度)。监视与资源调度域服务管理域告警事件信息(监视-事件管理)。配置信息(监视-配置数据管理)。 配置信息(资源部署调度-配置数据 管理)。配置变更请求结果反馈信息(资源部署调度-变更管理)采集与控制域控制命令/脚本(资源部署调度-操作控制)采集与控制域监视与资源调度域性能信息(性能采集-监视)告警信息(告警采集-监视)配置信息(配置采
15、集-监视)控制命令/脚本执行结果反馈信息(操作控制-资源部署调度)资源池性能采集请求(性能采集-资源池虚拟化管理软件或 hypervisor)告警采集请求(告警采集-资源池虚拟化管理软件或 hypervisor)配置采集请求(配置采集-资源池虚拟化管理软件或 hypervisor)控制命令/脚本(操作控制-资源池虚拟化管理软件或 hypervisor)性能采集请求(性能采集-资源池虚拟化管理软件或 hypervisor)控制域采集与控制域性能信息(资源池虚拟化管理软件或hypervisor-性能采集)告警信息(资源池虚拟化管理软件或hypervisor-告警采集)配置信息(资源池虚拟化管理软件
16、或hypervisor-配置采集)控制命令/脚本执行结果反馈信息(资源池虚拟化管理软件或hypervisor-操作控制)hypervisor-操作控制)注:资源池虚拟化管理软件是指各厂商的虚拟化软件管理如 VMware 的vCenter、Microsoft的SCVMM和 SCOM;Hypervisor 是指底层物理设备 与虚拟机之间的控制层,实现底层物理资源的抽象化和资源隔离,并对上层虚拟机运行进行控制,如 ESX、Hyper-V、KVM、XENSERVER等。3.2 服务管理功能域各类资源封装成各种服务,如封装成不同配置、不同操作系统、预装不 同常用软件的虚机模板,以标准服务的方式提供给用户
17、使用(如虚拟裸机、 中间件虚拟机),用户可以通过服务目录进行资源服务新增、变更和释放等申 请,并能查询所拥有资源运行状况。本部分功能描述支撑从资源申请、变更 到回收的全流程管理,服务目录管理,用户自助服务,需求、事件等 IT 服务 流程、配置数据管理(CMDB)等功能模块需要补充能力要求。3.2.1 服务目录要求虚机资源应可根据 CPU 数量、内存大小、内置盘大小,网卡数量、存储空间大小、操作系统、服务器用途(如数据库、Web 服务器、应用服务器)、 预装系统软件、高可靠性需求(如需高可用)等不同角度进行标准服务设计。 对非标准请求,可归入非标准类型资源服务。存储空间服务应可根据使用存储设备可
18、服务范围(如A资源区)、主要适 用类型(OLTP、OLAP 等)、RAID 方式、性能要求等角度进行存储服务目录设计。对非标准请求,可归入非标准类型资源服务。下表是虚机服务目录的一个参考示例,可作为规范化分类依据。服务类别服务类别服务类别服务类别服务配置指标(L-0)(L-1)(L-2)(L-3)系统服务业务受理开通服务专业技术服务事件处理软件开发服务参数配置服务基础设施资源服务虚拟机服务裸机服务 裸虚拟机(无操作系统)2C/8G,100G硬盘Liunx虚拟机服务Redhat5.04C/16G,200G 硬盘Ubuntu 虚拟机4C/16G,200G 硬盘Windows虚拟机服务Windows
19、2003 虚拟机4C/16G,200G 硬盘Windows2008 虚拟机4C/16G,200G 硬盘Tomcat虚拟服务器Tomcat6.0+Redhat6.0 虚拟机4C/16G,200G 硬盘Tomcat7.0+Window2008虚拟机4C/16G,200G 硬盘IIS虚拟服务器IIS6.0+Window2003虚拟机4C/16G,200G 硬盘IIS7.0+Window2008虚拟机4C/16G,200G 硬盘Weblogic虚拟服务器Weblogic9+Redhat5.0虚拟机4C/16G,200G 硬盘Weblogic10+Windows2008虚拟机4C/16G,200G 硬盘
20、Oracle虚拟服务器Oracle10+Redhat5.0虚拟机4C/16G,200G 硬盘Oracle10+Windows2003虚拟机4C/16G,200G 硬盘Sybase虚拟服务器Sybase12+Redhat5.0虚拟机4C/16G,200G 硬盘Sybase12+Windows2003虚拟机4C/16G,200G 硬盘3.2.2 服务目录管理服务目录管理是将资源池资源根据用途、配置等各种关键属性进行服务分类管理和显示,便于用户和管理者沟通理解,使用户可方便查询资源池提供的标准虚机种类,使管理者可方便管理资源池并快速开通。资源服务可根据配置大小(如CPU、内存配置)、操作系统版本、服
21、务器用途、预装软件配置等设置服务类别,通过服务类别的层次关系可将服务目录组织成树形结构,便于查询阅读。服务目录管理包含:服务条目管理、服务类别管理、服务目录管理。 服务条目:此处服务条目是指IaaS资源池向用户提供的各种具体资源服务定义,标准虚机服务一般对应资源模板。服务条目管理是对IaaS资源池提供的各种资源服务的定义及维护的过程,如定义可提供的虚拟机配置、虚拟存储配置。主要管理功能包含:服务条目创建、服务条目修改、服务条目删除、服务条目查询。 服务类别:服务类别是服务的分类说明。服务类别可包括支持多种服务类别,如虚机主要参数配置、服务器用途、操作系统版本、预装软件等进行分类。层次类别可可根
22、据需要设定,并支持后续方便调整层次。为便于查询,一般情况下层次划分建议不超过3层。服务类别管理包含:服务类别定义、服务类 别修改、服务类别删除、服务类别查询 服务目录:服务目录对当前已投入使用以及所有即将投入使用的服务进行统一集中的管理和展现,并能根据权限生成和维护准确的目录,从而向IT服务管理系统的使用者提供一个描述服务信息的访问界面。服务目录管理主要包含:服务目录创建、服务目录发布、服务目录修改、服 务目录删除、服务目录审批、服务目录查询、服务目录导入和导出通常服务类别可以关联零个或多个子服务类别,服务类别可以包含零个或多个服务条目,资源模板可以同时和多个服务条目关联或不和任何服务条目关联
23、。3.2.3 服务流程支撑在企业IT服务体系中发布了需求管理、变更管理、事件管理等11大流程以及对这些流程固化的功能要求。本次资源的申请开通、修改和回收等服务作为一个新的需求类型纳入原需求管理流程的范畴,不新增流程类别。3.2.4 自助服务门户在企业IT服务体系自助服务门户的基础上,增强了自助服务模块的功能,即实现IT人员通过自助门户对IaaS资源池服务目录信息的查询,以及对资源池服务的申请、修改、释放统一入口。自助服务门户的功能要求如下:1) 自助查询:用户登录后,可以查询IT服务管理系统所提供的服务。自助查询应能够实现如下功能: 服务查询:从IT服务管理系统中查询所需要的IT服务; 服务目
24、录查询:列出所具备权限查询的资源服务目录,供用户查看、选择; 需求单查询:可以查询已提交资源需求的进展和状态; 服务实例查询:可以查询已申请的服务信息,包括服务名称、服务实例标识、服务实例状态等信息;2) 自助提交:用户登录后,可以提交资源池的需求申请单,并跟踪需求单进展情况。自助提交应能够实现如下功能: 服务需求申请录入:对新增资源池服务需求申请录入,用户登录后,系统引导用户选择一个或多个服务后自动生成需求申请单,系统界面。 自动完成服务申请明细子表填写。 对修改或回收资源池服务需求申请录入,用户登录后查询资源服务实例,系统自动填充服务实例的详细子表信息提供用户修改。 服务需求提交:能将用户
25、的需求申请单提交处理。3.2.5 配置数据管理配置数据管理是通过存储、管理全面、准确的IT配置数据为IT服务管理系统和IT监控系统等提供高效的配置管理和配置关联分析服务,支撑企业的高效运营管理。引入IaaS虚拟化技术后,要求增加对资源池的资源管理功能。对配置数据管理和应用提出了以下补充要求: 配置信息管理:扩大资源主题域的管理范围(如新增了资源区、集群、虚拟机、虚拟存储、虚拟网络等管理对象)以及新增对象的关系 拓扑管理:新增资源池结构拓扑图,虚拟资源可以结合物理资源及之间的关联关系进行显示,并对新增的配置项使用不同的节点表示。 影响分析:影响分析范围增加资源池的资源,通过虚拟资源的关系及虚拟资
26、源与物理资源的关系进行业务和服务的影响分析。 配置预警:新增对资源区、集群、虚拟机、虚拟交换机等资源池的资源进行容量预警。 配置报告:资源实体信息查询统计和资源实体历史查询范围增加资源池的资源,并对资源区、集群、虚拟机、虚拟交换机等资源进行容量统计。 自动发现:在满足原有从监控管理系统采集数据外,增加从资源管理域和采集与控制域进行数据采集的功能。 数据同步:同步服务管理范围增加资源池的资源配置数据管理的整体功能架构包括模板管理、配置信息管理、拓扑管理、配置预警、影响分析、配置报告、自动发现、数据同步。配置数据管理的功能视图如下:1) 模板管理模板管理是指定义各类IT配置项的类型信息、属性信息以
27、及相互关系,以实现准确的描述各类配置项(CI)并快速入库。2) 配置信息管理配置信息管理是对管理范围内的配置项(CI)信息和相关的关联关系进行的呈现、录入、修改、删除、检索等操作。3) 拓扑管理拓扑管理是实现将各种配置项(CI)及各种配置项间的关联关系以拓扑的方式展现,使用户能够在拓扑图上直观的掌握整个配置项的拓扑结构及各种配置项状态,并能够通过拓扑图灵活建立配置项间的关联关系。4) 配置预警配置预警管理是指按照各类资源设定的时间、数据、占用比率等各种规则进行计算统计,对于符合预设置的条件将以预警的方式输出,以支持用户进行资源管理决策。5) 影响分析影响分析是依赖其管理的配置项(CI)间的关联
28、关系,以数据列表或者拓扑的方式提供所涉及到的配置项和配置项间的影响度。6) 配置报告配置报告是通过一些通用查询条件字段(如标识、配置项类别)进行查询,并能够灵活选择通用查询条件字段进行组合,进行配置数据查询统计,并形成报告展现给用户。7) 自动发现配置自动发现是通过与被管对象接口进行配置数据采集,将数据采集到的原始数据整合为对象型配置数据(主要以基于被管对象而关联聚合的配置信息集形式存在),以便能够灵活管理和呈现被管对象的配置信息。8) 数据同步数据同步是指将CMDB管理范围内的CI以及CI间关系以数据变化消息通知或批量拷贝等方式同步到需要配置数据的系统,如基础设施监控系统,以确保各系统间的配
29、置数据保持一致。3.3 监视功能域监视功能域对资源池中的IT基础设施进行集中统一的监控与管理,包括资源区、集群、宿主机、虚拟机、虚拟存储、虚拟网络。通过性能、配置、告警、操作日志进行集中采集与分析,从而形成对虚拟化资源池性能、容量趋势、健康指数、拓扑的统一展现。监控的管理范围是,包括但不限于以下虚拟化相关对象:资源区、集群、宿主机、虚拟机、虚拟存储、虚拟网络。监视功能组主要的功能包括以下内容:数据采集管理:通过定义采集要求后下发至采集与控制域,并接收采集与控制域反馈的采集结果,为容量监视、性能管理、健康管理和拓扑管理提供数据依据。性能管理:对IaaS资源池被管对象性能数据信息(如虚拟机CPU利
30、用率、内存利用率等)进行统一处理(计算与汇总、性能阀值比较等),及时了解被管对象性能指标状况。通过对关键性能点的异常情况预警,及时通告运维人员,有效的保障系统正常运行,并为健康管理和容量监视等分析优化工作提供必要的数据。健康管理:对历史性能数据进行统计分析,采用自学习手段计算出IaaS资源池中的资源区、集群、宿主机、虚拟机在各时间点上的正常动态阀值区间。监控系统通过当前的性能数据与该时间点的阀值区间进行对比,判断发现潜在的健康性问题。由于动态区间由历史数据统计生成,因此不必再对各监控对象手工设定其阀值范围,既保证了监视的准确性又节省了人工成本。容量监视:监视系统当前资源容量及其使用量,形成集中
31、的视图,从而对资源池被管对象容量数据信息(资源区、集群、宿主机、虚拟机的容量情况等)进行统一管理,及时了解被管对象容量状况。在容量将被用尽前通过人性化展现方式及时通告运维人员,为容量规划提供主要的数据支持。告警管理:通过对来自IaaS资源池的告警信息进行统一处理,以便快速确认故障,缩短排障时间,为及时恢复业务运行打下良好基础。IaaS资源池的告警来源主要包括性能阀值告警、容量预警及资源池被管对象的状态故障告警。拓扑管理:通过资源池被管对象的基础信息及其内部关联关系生成不同的拓扑视图,并通过这些拓扑视图完成对被管对象的监测。监视管理域的拓扑管理功能与服务管理域的拓扑管理功能的区别在于:监视管理域
32、的拓扑管理功能不仅需要在各被管对象上展现配置数据,还需要展示关联的健康、容量、性能负载数据。3.3.1 数据采集管理数据采集管理是通过定义采集要求后下发至采集与控制域,并接收采集与控制域反馈的数据采集结果,为容量监视、性能负载管理、健康管理和拓扑管理提供数据依据。数据采集管理包括性能采集管理、告警采集管理和配置采集管理。3.3.1.1 性能采集管理性能采集管理是定义性能采集要求后下发给采集与控制域,并接收采集与控制域反馈的性能数据信息,使用户及时了解资源池性能状况。3.3.1.1.1 采集策略管理【定义】对性能采集要求所涉及的采集内容、采集周期等进行集中配置管理。包括对采集点的采集对象、采集指
33、标、采集周期、采集参数等进行功能配置【功能要求】支持统一的图形化配置页面实现采集配置。支持按被管对象设定不同采集任务,支持采集参数的设定,比如采集周期、采集条件等参数设定。3.3.1.1.2 采集内容【功能要求】数据采集的内容可以分为两大类,虚拟资源和物理资源。1) 虚拟资源的采集内容包括但不限于:来自资源区的性能数据:资源区运行负载情况,如运行中的宿主机、虚拟机数量等。来自集群的性能数据:集群运行负载情况,如运行中的宿主机、虚拟机数量等。来自宿主机的性能数据:CPU性能(如CPU使用率、CPU冲突率、CPU冲突时间)、内存性能(如内存使用率、内存冲突率、内存需求数量、内存需求数量)、存储性能
34、(如磁盘使用率、磁盘I/O速率、命令时延)、网络性能(如网络I/O速率、丢包率)。来自虚拟机的性能数据:CPU性能(如CPU使用率、CPU冲突率、CPU冲突时间)、内存性能(如内存使用率、内存使用数量、内存需求数量)、网络性能(如网络I/O速率、丢包率)、存储性能(如磁盘使用率、磁盘I/O速率、命令时延)、运行性能(如:连续运行时长)。2) 物理资源的采集内容包括但不限于:采集对象范围应该包括主机设备、数据库软件、中间件软件、网络设备(交换机、路由器、防火墙)、存储设备(磁盘阵列、光纤交换机等)、备份设备(磁带库、备份软件等)。对于运行在虚拟机之上的操作系统、数据库和中间件等软件资源的数据采集
35、内容与运行在物理服务器的采集内容相同。采集指标包括主机设备CPU使用率、数据库软件表空间使用率、存储设备磁盘IO速率等。3.3.1.1.3 采集时效要求【功能说明】应能够指定不同对象的性能采集的生效时间和失效时间。应能够指定不同对象的周期性的性能数据采集任务,采集周期和采集时间可配置。应能够指定不同对象的定期性的性能数据采集任务,采集周期和采集时间可配置。3.3.1.2 告警采集管理告警采集管理是定义告警采集要求后下发给采集与控制域,并接收采集与控制域反馈的告警数据信息,以便用户快速确认故障,缩短排障时间,为及时恢复各类资源的正常运行打下良好基础。3.3.1.2.1 采集策略管理【定义】对告警
36、采集要求所涉及的采集内容、采集周期等进行集中配置管理。包括对采集点的采集对象、采集指标、采集周期、采集参数等进行功能配置【功能要求】支持统一的图形化配置页面实现采集配置。支持按被管对象设定不同采集任务,支持采集参数的设定,比如采集周期、采集条件、采集失败补采、数据存储目录等参数设定。3.3.1.2.2 采集内容【功能要求】数据采集的内容可以分为两大类,虚拟资源和物理资源。1) 虚拟资源的告警采集内容包括但不限于:来自集群的告警数据:HA启用、HA禁用、HA主机故障、HA资源不足、HA切换等;来自宿主机的告警数据:宿主机存储丢失、宿主机IP冲突、宿主机进入维护模式、网络冗余降级、配置HA代理、操
37、作超时、HA网络丢失;来自虚拟机的告警数据:虚拟机断开、虚拟机错误、无法启动虚拟机、无法迁移虚拟机、无法关闭虚拟机、迁移错误、移除虚拟机、故障切换失败;来自虚拟存储的告警数据:磁盘容量超限、删除数据存储、增加存储容量、目录移出数据存储、扩容数据存储;来自虚拟网络设备的告警数据:创建端口组、删除端口组、分配端口组。虚拟资源的告警采集内容见附录10.2.2告警采集内容。2) 物理资源的采集内容包括但不限于:采集对象范围应该包括主机设备、数据库软件、中间件软件、网络设备(交换机、路由器、防火墙)、存储设备(磁盘阵列、光纤交换机等)、备份设备(磁带库、备份软件等)对于运行在虚拟机之上的操作系统、数据库
38、和中间件等软件资源的数据采集内容与运行在物理服务器的采集内容相同,采集内容包括主机设备主机状态、数据库软件数据库状态、磁盘阵列状态等。3.3.1.2.3 采集时效要求【功能说明】能够指定不同对象的告警采集的生效时间和失效时间。能够指定不同对象的周期性的告警数据采集任务,采集周期和采集时间可配置。能够指定不同对象的定期性的告警数据采集任务,采集周期和采集时间可配置。3.3.1.3 配置采集管理配置采集管理是定义配置采集要求后下发给采集与控制域,并接收采集与控制域反馈的配置数据信息,为性能分析、容量监视、健康管理、拓扑展示和CMDB提供配置信息。3.3.1.3.1 采集策略管理【定义】对配置采集要
39、求所涉及的采集内容、采集周期等进行集中配置管理。包括对采集点的采集对象、采集指标、采集周期、采集参数等进行功能配置。【功能要求】支持统一的图形化配置页面实现采集参数配置。支持按被管对象设定不同采集任务,支持采集参数的设定,比如采集周期、采集条件、采集失败补采、数据存储目录等参数设定。3.3.1.3.2 采集内容【功能要求】数据采集的内容可以分为两大类,虚拟资源和物理资源。1) 虚拟资源的配置信息采集内容包括但不限于:资源区的采集内容包括:资源区名称、允许运行的最大宿主机数量、允许运行的最大虚拟机数量集群采集内容应该包括:集群名称、是否开启资源动态调配、是否开启HA、是否开启增强型在线迁移、是否
40、支持动态电源管理、是否支持存储动态迁移、自动化模式等信息,以及允许运行的最大宿主机数量、允许运行的最大虚拟机数量等负载能力信息。宿主机采集内容应该包括:主机名、地址、型号、CPU信息、内存信息、磁盘信息、操作系统版本(虚拟化管理软件及版本)、内置盘等信息,以及不可用CPU频率、不可用内存大小、允许运行的最大虚拟机数量等负载能力信息。虚拟机采集内容应该包括:虚拟机名称、IP地址、各类虚拟通道信息、虚拟CPU信息、虚拟内存信息、虚拟硬盘信息、操作系统版本等信息。虚拟存储采集内容包括:存储名称、存储类型、容量、可用大小、存储设备、位置等信息虚拟网络采集内容包括:虚拟交换机名称、网卡类型、VLAN、端
41、口组、端口等信息。2) 物理资源的采集内容包括但不限于:采集对象范围应该包括主机设备、数据库软件、中间件软件、网络设备(交换机、路由器、防火墙)、存储设备(磁盘阵列、光纤交换机等)、备份设备(磁带库、备份软件等)对于运行在虚拟机之上的操作系统、数据库和中间件等软件资源的数据采集内容与运行在物理服务器的采集内容相同采集内容包括主机设备主机型号、数据库软件数据库名、磁盘阵列标识等。3.3.1.3.3 采集时效要求【功能说明】应能够指定不同对象的配置数据采集的生效时间和失效时间。应能够指定周期性的配置数据采集任务,采集周期和采集时间可配置。应能够指定不同对象的定期性的性能数据采集任务,采集周期和采集
42、时间可配置。3.3.2 性能管理性能管理对资源池被管对象性能数据信息(如虚拟机CPU利用率、内存利用率等)进行统一处理(计算与汇总、性能阀值比较等),从而使用户及时了解被管对象性能指标状况。通过对关键性能点的异常情况预警,及时通告运维人员,有效的保障系统正常运行,并为健康管理和容量监视等分析优化工作提供必要的数据依据。3.3.2.1 性能模型建立【定义】性能模型定义了IaaS资源池中的资源区、集群、宿主机、虚拟机等对象的性能指标以及之间的计算关系。【功能要求】能定义资源区、集群、宿主机、虚拟机的性能指标,具体包括以下内容:能定义集群与宿主机之间的指标关系,如集群的内存使用数量是集群内的所有宿主
43、机的内存使用数量之和。能定义资源区与集群、宿主机之间的指标关系,如资源区的的内存使用数量是资源区内所有宿主机的内存使用数量之和。3.3.2.2 性能计算与展示【定义】能根据采集到的原始数据计算出资源区、集群、宿主机、虚拟机的性能数据并图形化展示。【功能要求】能根据性能模型和原始数据计算出资源区、集群、宿主机、虚拟机的性能数据;能支持资源区、集群、宿主机、虚拟机的性能数据的展示;各层次节点的性能数据可细分至CPU、MEM、存储、网络;能支持以曲线图形方式实时展示性能,并对超出阀值采用加亮颜色对比等方式着重展示。支持以图形方式展示历史性能数据。支持历史性能曲线与发生的变更或事件进行关联展示。其中能
44、够支持的节点类型应当包括:资源区、集群、宿主机、虚拟机;与曲线关联变更或事件描述应当包括:类型、发生时间及描述支持虚拟化资源池中各节点(资源区、集群、宿主机、虚拟机)性能数据在同一界面中统一展示,便于集中观测与管理3.3.2.3 性能告警【定义】性能数据绝对值一旦超出预先设定的阀值(固定值或区间)时将触发一个告警,该告警称为性能阀值告警。【功能要求】支持阀值设置的功能,可设多个阀值进行分级告警。支持查询/修改/删除性能阀值。可对性能数据的告警门限(比如连续次数、连续时长)进行定义,避免由于系统在阀值附近的抖动而产生大量重复告警。对性能数据超出阀值且满足告警门限的要能触发生成相应级别的告警。3.
45、3.3 健康管理健康管理是对历史性能数据进行统计分析,采用自学习手段计算出IaaS资源池内资源区、集群、宿主机、虚拟机在各时间点上的正常动态阀值区间。监控系统通过当前的性能数据与该时间点的阀值区间进行对比,判断发现潜在的健康性问题。由于动态区间由历史数据统计生成,因此不必再对各监控对象手工设定其阀值范围,既保证了监视的准确性又节省了人工成本。3.3.3.1 健康模型定义【定义】监控模型定义了IaaS资源池中的资源区、集群、宿主机、虚拟机等对象需监视健康情况的性能指标。【功能要求】n 支持资源区、集群、宿主机和虚拟机的健康指标的定义和维护,包括:对象监控指标资源区物理CPU使用率物理内存使用率集
46、群物理CPU使用率物理内存使用率宿主机物理CPU使用率物理内存使用率网络I/O速率(kbps)磁盘I/O速率(kbps)虚拟机物理CPU使用率物理内存使用率网络I/O速率(kbps)磁盘I/O速率(kbps)3.3.3.2 动态健康阀值的建立【定义】对于上述的健康指标,在不同时间段内的正常范围是不同的,其正常运行曲线通常呈现出周期性的规律特征。动态健康阀值是指性能指标健康区间,不是一个固定的数值,会根据历史数据的变化而动态调整。健康曲线是基于动态阀值的变化而动态生成的曲线。【功能要求】支持对上述已定义的需监视健康情况的性能指标能进行持续的采集工作,汇总其历史数据,并参照历史数据计算出动态健康阀值,用于形成健康曲线。支持动态健康阀值的自动设置工作,不需要对海量的性能数据进行繁杂的手工设置工作。支持对被管对象规定时间段内(如每分钟)的数据采集,通过合并最新数据与历史数据计算出新的动态健康阀值后更