《面向资源弹性调度与运维自动化的云资源池设计与规划30530.pptx》由会员分享,可在线阅读,更多相关《面向资源弹性调度与运维自动化的云资源池设计与规划30530.pptx(70页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、-1-Copyright 2014 Neusoft Corporation面向资源弹性调度与面向资源弹性调度与运维自动化的运维自动化的云资源池设计与规划云资源池设计与规划三月 23东软集团股份有限公司-2-n云计算发展解读p云资源池整体架构设计p面向资源弹性调度的云资源池规划与设计p面向运维自动化的云资源池池规划与设计pQ&A提纲-3-CostUtilizationConsolidationScaleAvailabilityPredictabilityIT agilityIT competitivenessIT as a ServiceBU charge Back Business Drive
2、rsCost/ROIDR/BCOverflow/Burst CapServer VirtualizationHybrid CloudPODse.g.VblockPrivateCloudTransition StagesSimple Application SophisticatedResource ProvisioningOrchestrationSecurity ComplianceAcceptable SLAs24312431Evolving Customer NeedsBusiness Continuity is Critical!3rd-Party IntegrationITSM Wo
3、rkflowCMDBService AssuranceService DeliverySP Services InfrastructureDev/TestR&DApp TestingPre-productionProductionDR/BCDemand DrivenWeb FarmsPortalsInfrastructure ServicesCritical AppsBy FunctionBy DepartmentBy Application Type-4-CostUtilizationConsolidationScaleAvailabilityPredictabilityIT agility
4、IT competitivenessIT as a ServiceBU charge Back Business DriversCost/ROIDR/BCOverflow/Burst CapServer VirtualizationHybrid CloudPODse.g.VblockPrivateCloudTransition StagesSimple Application SophisticatedResource ProvisioningOrchestrationSecurity ComplianceAcceptable SLAs24312431The Automation Thresh
5、old3rd-Party IntegrationITSM WorkflowCMDBService AssuranceService CultureMetering/BillingService CatalogSP Services InfrastructureDev/TestR&DApp TestingPre-productionProductionDR/BCDemand DrivenWeb FarmsPortalsInfrastructure ServicesCritical AppsBy FunctionBy DepartmentBy Application TypeAutomation
6、RequirementManual Delivery AbilityService Complexity/DemandAutomation ThresholdInefficiency Tolerance Zone-5-Elements of Cloud ComputingSelf-Service Interface:Provides ability for users to order and track metered servicesService Delivery Automation:Automates provisioning and meters usage of services
7、Resource Management:Resources are provisioned and managed as per service needsOperational Process Automation:Automates operational processes such as user management,capacity management,service level management,service desk integration,alertingLifecycle ManagementLifecycleManagementofCloudServicesDyn
8、amic resource allocationCapacity management Resource utilization Performance managementMaintenanceStandardized offeringsVery fast provisioning/de-provisioningof resourcesMeteredusageWeb-based front endAutomated fulfillmentBroadNetworkAccessRapidElasticityMeasuredServiceOn-DemandSelf-ServiceResourceP
9、ooling-6-p云计算发展解读n云资源池整体架构设计p面向资源弹性调度的云资源池规划与设计p面向运维自动化的云资源池池规划与设计pQ&A提纲-7-私有云总体架构私有云总体架构7私有云平台由私有云管理平台和一个或多个资源池系统组成。p私有云管理平台:运维管理平台运营管理门户p资源池系统:资源池管理平台计算/储存/网络等资源-8-资源池体系架构p资源池管理平台支持对资源池的管理p资源池系统通过符合私有云标准规范的统一接口,接收资源申请和操作请求。p资源能力由各个不同资源类型的子系统组成,提供不同类型资源服务-9-资源池管理平台功能架构资源池管理平台功能架构资源池管理平台OpenStack接入调
10、度子系统资源管理子系统告警策略管理备份管理资源调度能力调度计算能力调度网络能力调度存储能力调度资源模板管理私有云接口解析消息登录鉴权功能分发资源部署预处理流量控制缓存队列性能告警采集子系统性能告警采集SNMP性能采集性能代理采集告警代理采集硬件设备告警任务管理任务执行任务调度性能处理性能阀值告警性能预处理告警处理告警预处理告警重定义告警过滤OpenStack接口本地资源管理资源项/属性管理资源变更管理资源实例管理资源关联关系管理资源配置信息同步告警接收入库处理其他能力调度资源创建资源变更资源操作资源回收性能后处理告警后处理资源视图管理全局资源的容量历史容量信息分类资源容量监控管理采集任务管理采
11、集设备管理映射配置管理系统管理子系统系统管理系统参数管理运维报表管理日志管理系统监控报表分类报表绘制报表输出报表引擎用户/角色管理软件部署管理告警策略管理虚拟机子系统X86子系统小型机子系统块存储子系统分布式文件子系统日志详单类存储子系统备份子系统网络子系统短信/邮件接口4A/BOMC/网管接口资源分区管理拓扑管理资源分区视图资源状况管理资源容量管理资源计量管理能力子系统-10-p云计算发展解读p云资源池整体架构设计n面向资源弹性调度的云资源池规划与设计p面向运维自动化的云资源池池规划与设计pQ&A提纲-11-资源弹性调度资源弹性调度概述概述资源资源服务服务(纵向弹性调度)(纵向弹性调度)生命
12、周期生命周期管理资源能力高级服务(横向弹性调度)-12-资源弹性调度规划步骤资源弹性调度规划步骤资源类型资源能力生命周期管理服务高级服务-13-资源弹性资源弹性调度调度-资源类型规划资源类型规划根据业务应用类型确定资源选型CEP高可用性,确保响应高吞吐量事件执行自动化决策高可扩展性,支持高吞吐和峰值负载处理低复杂性,支持高吞吐事件处理低数据容量,由于基础事件短生命期而产生的低查询复杂度,支持低延迟查询处理低查询延迟,支持高吞吐事件处理中等成本,基于CEP处理重要度的考虑低易用性/互操作性,基于基础事件可以(经常)被废弃OLTP高可用性,确保执行面向客户的交易高可扩展性,支持业务增长场景和峰值处
13、理中等复杂度,支持中等吞吐交易处理中等数据容量,当BI基础设施存储历史数据时低查询复杂度,支持中等延迟查询处理中等查询延迟,支持中等吞吐交易处理高成本,基于OLTP处理重要度的考虑高易用性/互操作性,基于交易要传输给BI基础设施的考虑BI中等可用性,支持战略决策的制定(复查,如果运行报告是在同一信息系统之外执行的话)高可扩展性,支持数据增长和峰值处理中等复杂度,由于系统规模大高数据容量,支持数据增长高查询复杂度,支持分析查询处理中等查询延迟,由于分析类查询处理高成本,基于数据容量和分析的重要度的考虑高易用性/互操作性,由于频繁使用第三方工具分析交易,以及与其它信息系统的集成/联邦BigData
14、高容量,并不是一个绝对的概念,但是大数据需要用特殊的数据管理技术来存储和处理数据高速度,意味着数据以多快的速度产生就需要以多快的速度来处理才能够满足需求,也与数据保持能力dataretention(影响数据容量)的考虑相关联多样性,包括表数据、层次数据、文档、电子邮件、仪表数据、视频、图像、声音、股票交易数据、金融交易数据等等高复杂度,意味着需要处理不同的标准、领域规则、甚至存储格式-14-CEP类典型物理架构类典型物理架构-15-OLTP类典型物理架构类典型物理架构-16-BI类典型物理架构类典型物理架构-17-Big Data类典型物理架构类典型物理架构-18-资源弹性资源弹性调度调度-资
15、源能力规划与设计资源能力规划与设计虚虚拟计算算资源能力源能力项vmware XenServerHyper-VFushionCompute虚拟机创建1010510虚拟机删除1010510虚拟机配置修改101058虚拟网卡VLAN配置89010创建虚拟硬盘1010010虚拟机添加虚拟硬盘1010510查看虚拟硬盘信息109510卸载虚拟硬盘1010510删除虚拟硬盘1010010获取虚拟机信息91059虚拟机运行控制1010510虚拟机克隆1010010虚拟机模板创建108010获取虚拟机模板信息91009虚拟机模板删除1010010模板批量部署810010虚拟化软件自动分配虚拟网络信息10851
16、0虚虚拟计算算资源能力源能力项vmware XenServer Hyper-VFushionCompute性能监控1010010故障告警107010CPU资源绑定设置910010虚拟CPU资源预留910010内存资源专享设置910010虚拟内存资源预留910010虚拟资源优先级设置99010虚拟CPU在线增加910010虚拟内存在线增加910010虚拟磁盘网卡在线增减910010存储I/O控制107010网络带宽单向控制107010网络带宽双向控制100010虚拟机主机迁移1010010基于本地存储的虚拟机迁移1010010虚拟机快照1010510虚拟防火墙90010虚拟机OS内应用进程监控5
17、000多用户分权管理910010虚拟机备份接口1010010计算能力的比较及虚拟化产品的选型-19-资源弹性调度资源弹性调度-资源资源能力规划与设计能力规划与设计计算能力的设计暨计算资源的纵向弹性调度虚拟化产品选型异构虚拟化的支持抽象层设计(OpenStack等)虚拟化产品的高级特性支持(Proxy/Plug-ins)不属于云计算范畴资源能力的支持(物理机)元数据及数据模型的建立资源能力的全生命周期服务的发布-20-资源弹性调度资源弹性调度-资源能力规划与设计资源能力规划与设计网络能力的规划与设计网络能力规划要素支持的业务/租户规模(VRF/VLAN/VXLAN)稳定的物理网络结构(扩容,网络
18、虚拟化)业务网与管理网分离明确的手工维护与自动运维的分工界面(网络自动化,专网与混网)通用网络服务与业务专用网络服务的分层控制-21-资源弹性调度资源弹性调度-资源能力规划与设计资源能力规划与设计网络能力的规划与设计网络出口采用硬件防火墙,提供基于3、4层的网络通用安全防护虚拟机之间的安全防护使用虚拟化应用防火墙,提供7层的内容及安全防护,有效隔离不同的虚拟机,防止虚拟机之间的安全风险资源池(或主机)的出口部分使用解决入侵防御和负载均衡需求使用VSS/VDS/LS控制虚拟化网络-22-资源弹性调度资源弹性调度-资源能力规划与设计资源能力规划与设计经典KVM网络-23-资源弹性调度资源弹性调度-
19、资源能力规划与设计资源能力规划与设计经典Openstack KVM网络-24-资源弹性调度资源弹性调度-资源能力规划与设计资源能力规划与设计VxLAN-25-资源弹性调度资源弹性调度-资源能力规划与设计资源能力规划与设计存储能力的规划与设计支持主流IPSAN/FCSAN设备支持大云EBS支持IBM SVC等专业存储虚拟化兼容Openstack的Cinder块存储接口支持块分区管理支持存储碎片化管理支持存储设备性能及故障的监控分区1BC-EBSIBMSVCEMCVPLEX分区NBC-EBSIBMSVCEMCVPLEX块操作OpenStack Agent监控采集系统管理存储管理子系统存储管理子系统
20、资源池系统-26-26弹性调度弹性调度自动部署自动部署镜像镜像云云监控监控VLBAPI用户可以将业务使用的镜像上传到资源池镜像管理系统内进行统一管理监控业务应用运行的实时状态,具备业务级弹性调度的基础服务能力。镜像系统对外部开放资源调度API服务接口,支持业务应用调度资源。云监控VLB服务作为业务弹性调度的一种基础服务能力提供,并与业务自定义镜像动态加载相结合,实现业务应用的弹性扩展API系统根据用户提供的脚本自动部署业务所需的应用软件VLB自动部署其它服务其它服务-27-高级服务高级服务(横向资源弹性调度)横向资源弹性调度)Service(自动)API(业务系统判断并执行)Portal(人工
21、判断并执行)展现形式-28-高级服务高级服务案例:案例:VM+VLB+云监控云监控+镜像的资源弹性调度镜像的资源弹性调度云监控镜像选择预警虚拟机对应的业务镜像VM根据模板及镜像创建出新的VMVLB将新VM加入到VLB成员列表中VM启动虚拟机监控到CPU持续超过70%-29-p云计算发展解读p云资源池整体架构设计p面向资源弹性调度的云资源池规划与设计n面向运维自动化的云资源池池规划与设计pQ&A提纲-30-自动化运维的构成自动化运维的构成自动化运维统一资源管理自动化部署运维资源弹性调度统一监控管理(工单,服务流程、告警,性能)大数据运维-31-运运维资源的弹性调度维资源的弹性调度资源能力中规划的
22、能力分为:面向租户的能力面向运维的能力面向运维的资源能力只面向运维人员提供对资源池资源弹性调度。运维资源需要与监控和策略配合使用。运维资源的弹性调度支持半自动和自动两种方式-32-VMware分布式资源调度分布式资源调度(DRS)功能跨资源池动态调整计算资源基于预定义的规则智能分配资源优势使IT和业务优先级对应 动态提高系统管理效率自动化的硬件维护动态负载均衡和连续智能优化,保证所有应用需要的的资源动态负载均衡和连续智能优化,保证所有应用需要的的资源资源池资源池Resource Pool业务需求业务需求Business Demand围绕业务进行组织和规划围绕业务进行组织和规划而不是您的硬件而不
23、是您的硬件!-33-通过通过VMware DRS动态获得硬件资源动态获得硬件资源负载分配规则设定一次,永远有效,自动执行易于添加更多的资源避免业务繁忙时段的过载动态添加硬件动态添加硬件资源池资源池CPU 36GHz,Mem 58GB优先级:优先级:高高资源池资源池CPU 50 GHz,Mem 70GB优先级:高优先级:高-34-分布式电源管理分布式电源管理(DPM)资源池资源池业务需求业务需求下电当整个群集需要资源减少时,整合所当整个群集需要资源减少时,整合所有负载到少数几台服务器上有负载到少数几台服务器上将不需要的服务器置于备用模式将不需要的服务器置于备用模式当负载增加时,当负载增加时,DP
24、M自动将处于备用自动将处于备用状态的服务器唤醒状态的服务器唤醒在确保服务级别的同时,最大限度降低在确保服务级别的同时,最大限度降低了数据中心服务器的耗电量了数据中心服务器的耗电量虚拟机没有中断或停机虚拟机没有中断或停机-35-利用利用 Update Manager 和和 DRS 无中断地升无中断地升级 ESXVMotionVMotionUpdate Manager server大批量地升级 ESX 并且不影响任何应用的运行,虽然 ESX 会重启,但确保虚拟机永不停机Update Manager 升级整升级整个个 DRS 群集群集DRS 群集中的每个群集中的每个 ESX 主机依次进入维护模式主机
25、依次进入维护模式虚拟机被虚拟机被 VMotion 到其到其他他ESXESX 升级并重启升级并重启虚拟机重新虚拟机重新 VMotion 回回来来下一台下一台 ESX 重复以上步重复以上步骤骤-36-统一资源管理统一资源管理虚拟主机虚拟存储 虚拟网络虚拟资源域实体资源域实体主机实体存储实体网络CMDB-37-VMware HA功能当服务器故障时,自动重新启动虚拟机优势经济有效的适用于所有应用的高可用不需要独占的stand-by 硬件没有集群软件的成本和复杂性经济有效的适用于所有应用的高可用解决方案经济有效的适用于所有应用的高可用解决方案X-38-统一资源管理统一资源管理-特性特性满足云计算发展要求
26、对于实体资源包括:物理机、存储设备、网络设备等进行资产管理。对于包括虚拟机、操作系统、应用软件、业务软件等进行资产管理。实体与虚实体与虚拟资源统拟资源统一管理一管理根据资产的数据模型,支持资产间的关联关系管理。例如某物理机上安装了操作系统、版本及补丁号等。资产管理关系管理资源管理系统与自动部署系统对接,自动识别物理机配置信息、安装的操作系统/应用系统/业务系统版本、补丁等信息,以及物理上创建的虚拟机等信息。资产自动发现与更新资产管理支持资源视图、业务视图、CI项视图等查询和展示资源,并支持资源关联关系钻取展示,全方位的了解资产情况多维度资产展示-39-计算资源CMNET带宽FC-SAN存储分布
27、式存储公网IPn私有云各类资源分配情况展示,为扩容提供数据依据。n固定时间段内月均发生故障统计。n各类资源故障以厂商和类型进行统计厂家更换备件数量各类硬件更换数量统一资源管理统一资源管理-辅助决策辅助决策-40-统一资源管理统一资源管理-辅助决策(辅助决策(续续)资源池整体扩容的辅助决策业务系统资源扩容的申请辅助决策业务系统资源过剩收回资源的辅助决策备品备件的辅助决策资源池扩容厂商及型号选择的辅助决策一一二二三三四四-41-自动化部署自动化部署41现象本质小李,明天需要安装好50台安装好的物理机给业务部门使用?集团公司要求8号前所有的Windows7操作系统都需要打上SP3的补丁昨晚10台BO
28、SS的业务系统升级,有一台漏掉了,导致BOSS业务故障小王,明天给我提交一份报表,包括所有的物理机的配置,操作系统版本,补丁号,安装的应用软件版,业务软件版本10.10.127.100的资产管理中显示的信息怎么跟实际的不一致,谁又没有按照流程处理,动了这台机器?这批HPDL380的太老了,需要升级微码,才能安装我们的系统小张,这批机器10号前需要全部安装操作系统/Tomcat/监控代理/计费采集模块人工已经难以满足业务本身对机器及业务上线速度的要求?有了完善IT运维制度还不够,如何保障制度被有效的执行?运维人员忙于各种系统安装配置、没有更多经历关注业务如何发展需要具备能真实反应生产环境的资产清
29、单,并且他不仅仅只包括物理机的配置人工操作难免出错,如何避免/减少错误的发生,降低故障率?-42-42 统一资源管理能够真实反映生产环境的资产及动态配置资产管理能够涵盖设备配置/操作系统/应用系统/业务系统/补丁等多层面精细化管理资产管理与云平台无缝对接目标 自动部署大批量自动化部署操作系统的自动部署应用/业务软件的自动部署补丁自动升级软件仓库及版本的管理应用调度流程管理 监控与管理自动部署任务监控资产配置一致性扫描与检查版本的一致性扫描与检查设备/应用/业务软件监控自动化部署自动化部署-目标目标-43-操作系统安装软件部署软件调度管理应用软件监控管理员物理机监控资产库物理机应用软件监控age
30、nt软件仓库管理员11、软件发布2、资产录入3、制定操作系统 自动部署任务2344、提取操作系统版本5、部署操作系统6、更新资产库7、返回安装结果并通知568、性能/告警/开关机9、制定软件自动部署任务10、提取软件版本11、部署软件712、更新资产库13、返回安装结果并通知14、运行状态/启停15、软件关联关系管理及调度81091112131415自动化部署自动化部署-业务场景业务场景-44-自动部署自动部署-操作系统自动部署操作系统自动部署软件库Windows镜像Redhat镜像Suse镜像OS InstallServerDHCP广播FTP下载DHCP广播FTP下载DHCP广播FTP下载D
31、HCP广播FTP下载OS部署总控ServerOS模板以以PXE(网(网络启启动)方式)方式启启动新增机器,从管理新增机器,从管理节点点获取取IPOS InstallServerOS InstallServerOS InstallServer-45-自动部署自动部署-软件自动部署特性软件自动部署特性批量部批量部署署批量:支持物理机和虚批量:支持物理机和虚拟机的机的软件批量部署件批量部署自自动化:支持化:支持标准化的准化的软件安装框架(件安装框架(标准打包、准打包、安装接口,卸安装接口,卸载接口,启停接口,接口,启停接口,监控接口)自控接口)自动安装安装定制化定制化安装安装定制化:支持用定制化:支
32、持用户自定自定义的的应用用软件的安装件的安装动态监控控动态监控:支持控:支持软件安装任件安装任务管理,管理,查看任看任务进度度及及结果,及自果,及自动消息通知机制消息通知机制多多软件件类型型多多软件件类型:支持主流中型:支持主流中间件的安装部署,包括件的安装部署,包括Oracle,Weblogic,Tomcat,MySQL,Glassfish,Jboss,Hadoop。支持各支持各类操作系操作系统支持支持补丁的安装丁的安装-46-设备告警详情拓扑网管告警性能自动部署自动部署-监控管理监控管理监控agent/应用软件实时监控告警标准化处理告警级别重定义应用软件监控采集确认通知工程中设备关联信息清
33、除告警监控重复告警实时展示监控上报拓扑管理拓扑展示分组与钻取拓扑过滤拓扑导出拓扑编辑设备主动上报告警性能阀值告警SNMPSNMP告警拓扑应用监控性能-47-自动部署自动部署-监控监控与管理特性与管理特性大规模:支持上万台服务器监控采集,通过分布式部署大规模:支持上万台服务器监控采集,通过分布式部署方式,提高采集效率方式,提高采集效率大规模大规模监控监控采采集集指标定义:支持用户自定义采集指标,用户可以根据业指标定义:支持用户自定义采集指标,用户可以根据业务需求灵活定义采集指标,不受操作系统限制务需求灵活定义采集指标,不受操作系统限制监控指监控指标可定标可定义义展示丰富:支持告警、性能和应用监控
34、等独立功能的展展示丰富:支持告警、性能和应用监控等独立功能的展示,并支持网络的拓扑展示,可以将告警实时在拓扑图示,并支持网络的拓扑展示,可以将告警实时在拓扑图上反映出来上反映出来监控展监控展示丰富示丰富多样化通知手段:支持短信、邮件等通知手段,方便运维人多样化通知手段:支持短信、邮件等通知手段,方便运维人员及时了解系统情况员及时了解系统情况通知手通知手段多样段多样-48-自动部署自动部署-版本版本管理关键因素管理关键因素对业务、系统、软件、补丁等信息进行建模,针对版本管理要求完善版本基本信息、校验信息、部署依赖关系、补丁关系等进行建模,保证版本的可管理性。完善的版完善的版本本数据数据模模型型软
35、件如池时,需输入完整版本信息,上传安装包后系统会进行版本信息比对,只有版本信息及安装包一致的情况下才生效。版本输入一致性软件部署作业批量部署软件后,安装脚本在安装目录生成软本信息,系统比对所有安装版本信息,保证批量部署的软件版本一致。版本部署版本部署一致性一致性定时或手动触发软件版本核对功能,系统通过部署的软件版本信息以及其他关键信息与系统中版本信息比对,出现不一致的情况则触发告警。版本信息核对-49-自动部署自动部署-版本版本一致性一致性检查检查/巡检巡检版本信息元数据文件自动生成软件管理系统版本一致性检查判断条件:1、版本信息元数据文件是否存在;2、版本信息元数据文件信息与配置库信息是否一
36、致;3、检查指纹数据是否与初始值一致安装完成后的指纹数据(类svn)-50-大数据运维大数据运维50大数据运维监控指标数据对接获取指标数据自学习和建模单指标历史基线分析多指标相关性分析指标异常预警多数据源数据采集-51-指标数据自学习功能指标数据自学习功能51随时间推移和指标随时间推移和指标采样数据采样数据的的变化动态刷新变化动态刷新可灵活设定模型可灵活设定模型建立建立自学习自学习时间周期。时间周期。历史归档数据和持续采集历史归档数据和持续采集的的指标指标数据自学习完成数据自学习完成相关指标采样数据进行相关指标采样数据进行自学习自学习,无需无需人工编写分析规则。人工编写分析规则。-52-单指标
37、历史基线分析功能单指标历史基线分析功能基于数理统计算法对任意指标采样数据做变动基线分析。对周期性变化指标可自学习和展现其周期变化规律基线。可搜索和查看任意被分析指标的时间序列变化曲线和趋势。52-53-指标行为轨迹的自学习和阀值自动判定单KPI的自学习和分析围绕其变动基线展开阀值基于指标采样数据的波动规律自动判定TimeKPIUpper thresholdLower thresholdValue-54-KPI周期曲线TimeValueWeek 0Week 1Week 2Week 3upper thresholdlower thresholdTimeValueWeek 0Week 1Week 2
38、Week 3upper thresholdlower threshold现有模型引入自学习后模型-55-多指标相关性分析功能多指标相关性分析功能基于大数据分析和相关算法可自学习指标间(多变量)因果关系。对于被关注的指标数据,系统会自学习并识别各指标之间是否有相关性。如果有相关性,系统能自学习其数据变化,识别出这些指标 之间“正常”的相关行为模式,并持续对其行为进行跟踪并提供图形化的展现。系统可搜索、选择任意数个指标并放在同一个时间序列图中查看这些指标的变化曲线和趋势,包括选择任意指标的历史基线进行比对。-56-指标异常预警功能指标异常预警功能KPI指标自学习动态生成合理区间范围异常发生形成告警
39、信息-57-KPI指标监控策略指标监控策略资源池业务全景监控环境指指标分分类基基线容忍容忍线KPI样例例策略策略类别一有容量限制静态对于容量类(如最大并发用户数等)告警,可以只设定高容忍线进程数可设置多个超出时限,逐级升级告警连接数session总数类别二随时间单向递增或递减静态对于资源使用量类指标(如磁盘利用率、磁盘空间、数据库表空间等),可以在指标变化趋势的方向上设置单侧容忍线(上容忍线或下容忍线)磁盘使用率设置上容忍线-可设置多个超出时限,逐级升级告警磁盘剩余空间设置下容忍线-可设置多个超出时限,逐级升级告警磁盘可使用天数根据历史使用数据,采用线性回归算法,计算使用速率,从而估算空间的剩
40、余可使用天数。表空间使用率设置上容忍线-可设置多个超出时限,逐级升级告警类别三周期性变化很小 动态对于命中率、部分使用率、或者响应类的通用指标,可以只设定上容忍线或者下容忍线数据字典缓冲区命中率(%)根据历史数据,采用正态分布算法,设置合理的超出时限库高速缓冲区命中率(%)SGA命中率(%)读请求磁盘命中率(%)写请求磁盘命中率(%)响应时间堆内存使用率线程个数类别四指标波动与时间相关,随时间变化呈规律性波动动态对于大部分周期性的指标,可同时设置上容忍线和下容忍线CPU使用率根据正态分布算法,设置周期变化的阈值内存使用率网卡接收速率网卡发送率类别五纳入KPI考核并给出达标值要求静态对于KPI类
41、指标,设置单侧容忍线(高容忍线或低容忍线)根据实际需要调整可设置固定值,超出固定值则产生告警-58-案例案例1:单:单KPI分析分析-预测资源的消耗时间预测资源的消耗时间历史数据分析对历史剩余磁盘空间分析采用线性回归算法计算磁盘的消 耗速率p数据库表空间监控时,能看到剩余的表空间大小,可是每天用多少呢?剩余的空间究竟能用多久呢?预测基于实时的剩余表空间大小、计算的消耗速率p,来预测可使用的天数D根据实际使用情况精确预测出使用天数,更有指导意义。我再也不用自己估算了-59-案例案例2:单单KPI分析分析-周期性数据的动态阈值设定周期性数据的动态阈值设定历史数据分析对历史CPU使用率进行分析利用正
42、态分布法计算某时刻的上下阈值自动识别周期性数据和非周期性数据能够在周期性和非周期性间切换CPU的使用率是周期性,阈值该设定多少呢?多少才是最符合实际业务运行需要呢?-60-案例案例2:单单KPI分析分析-周期性数据的动态阈值设定周期性数据的动态阈值设定60决策辅助显示相关的信息数据,辅助用户做后续的处理决策显示过去N个周期内,该时间段的CPU数据显示该设备最近的N条故障信息显示该时刻内存、进程CPU使用数据等监控&预测基于KPI的基线自学习跟踪和预警,过滤掉噪音预警更安全实用了,告警更可靠了连问题分析处理时间也大大缩减了!-61-案例案例3:多多KPI分析分析-单设备单设备KPI关联分析关联分
43、析历史数据分析定义检测问题相关KPI的关联性基于历史运行数据分析相关KPI的检测临界值Tomcat的堆内存使用率高,到底是什么原因造成呢?是内存泄露了么?堆内存使用率:高垃圾回收时间:长垃圾回收时间间隔:短内存泄露-62-案例案例3:多多KPI分析分析-单设备单设备KPI关联分析关联分析62决策辅助显示关联指标的实际运行情况显示该tomcat的运行数据,辅助运维人员定位运行在该tomcat的异常应用监控监控内存泄露相关的3项指标,根据实际运行数据分析是否是内存泄露直接精准定位了问题,并且提供了有效的数据辅助排查问题。-63-案例案例4:多多KPI分析分析-多多设备设备KPI关联分析关联分析监控
44、相关KPI的实时运行数据根据不同的KPI组合数据变化,判断问题,发出告警并给出详细的告警信息Tomcat的池中空闲连接少,什么原因引起的呢?都有什么影响呢?数据分析识别KPI中间的关系,按照统计分析进行分组分析相关的KPI数据设备关机策略Tomcat池中连接数少设备关机策略检查主机磁盘的读/写率设备关机策略高低Lsof手动排查设备关机策略检查数据库主机的性能IO读写高CPU使用率高排查数据库主机磁盘高读写问题排查CPU高负荷问题-64-案例案例4:多多KPI分析分析-多多设备设备KPI关联分析关联分析64决策辅助根据不同设备间的KPI指标关联分析,更精准地定位问题针对具体的问题,给出更有指导意义的分析太强大了!多层次联合分析,更精准地定位问题并且给出更有针对性地建议-65-p云计算发展解读p云资源池整体架构设计p面向资源弹性调度的云资源池规划与设计p面向运维自动化的云资源池池规划与设计nQ&A提纲-66-Copyright 2014 by Neusoft CorporationQ&A-70-演讲完毕,谢谢观看!