《管理高可用性.ppt》由会员分享,可在线阅读,更多相关《管理高可用性.ppt(17页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Oracle Database 10g基础教程基础教程 清华大学出版社清华大学出版社第第17章章 管理高可用性管理高可用性 Oracle Database 10g基础教程基础教程 清华大学出版社清华大学出版社教学目标 教学难点和重点教学过程12/30/20221Oracle Database 10g基础教程基础教程 清华大学出版社清华大学出版社教学目标教学目标l理解系统可用性的概念理解系统可用性的概念l了解系统停机的主要原因了解系统停机的主要原因l掌握如何进行计算故障保护掌握如何进行计算故障保护l掌握如何进行数据故障保护掌握如何进行数据故障保护l掌握如何进行数据改变保护掌握如何进行数据改变保护
2、l掌握如何进行系统改变保护掌握如何进行系统改变保护12/30/20222Oracle Database 10g基础教程基础教程 清华大学出版社清华大学出版社教学难点和重点教学难点和重点l系统可用性的概念系统可用性的概念l系统停机的主要原因系统停机的主要原因l如何进行计算故障保护如何进行计算故障保护l如何进行数据故障保护如何进行数据故障保护l如何进行数据改变保护如何进行数据改变保护l如何进行系统改变保护如何进行系统改变保护12/30/20223Oracle Database 10g基础教程基础教程 清华大学出版社清华大学出版社教学过程教学过程17.1 概述概述 17.2 计算机故障保护计算机故障
3、保护 17.3 防止数据故障防止数据故障 17.4 避免计划内停机避免计划内停机 12/30/20224Oracle Database 10g基础教程基础教程 清华大学出版社清华大学出版社17.1 概述概述l可用性是一项度量计算机系统正常运行时间的指可用性是一项度量计算机系统正常运行时间的指标。这项指标无论系统处于何种状态,例如系统标。这项指标无论系统处于何种状态,例如系统维护或系统升级,都应该保证系统正常使用。可维护或系统升级,都应该保证系统正常使用。可用性是解决应用程序可以正常使用的时间的问题,用性是解决应用程序可以正常使用的时间的问题,可伸缩性描述应用程序可以接受的并发用户访问可伸缩性描
4、述应用程序可以接受的并发用户访问的数量问题。的数量问题。l在设计高度可用的在设计高度可用的IT网格基础架构时,所面临的网格基础架构时,所面临的一大挑战是检查和解决所有可能的停机原因。图一大挑战是检查和解决所有可能的停机原因。图17-1显示了一系列停机原因,这些原因可以归为显示了一系列停机原因,这些原因可以归为两大类:意外停机和计划停机。两大类:意外停机和计划停机。12/30/20225Oracle Database 10g基础教程基础教程 清华大学出版社清华大学出版社17.2 计算机故障保护计算机故障保护 l当计算机系统或数据库服务器意外故障并当计算机系统或数据库服务器意外故障并导致服务中断时
5、,计算机就会发生故障,导致服务中断时,计算机就会发生故障,如图如图17-2所示。在大多数情况下,这是由所示。在大多数情况下,这是由于硬件故障。于硬件故障。l这些类型的故障可利用快速数据库故障恢这些类型的故障可利用快速数据库故障恢复和集群技术来解决。复和集群技术来解决。12/30/20226Oracle Database 10g基础教程基础教程 清华大学出版社清华大学出版社带有真正应用集群的企业网格带有真正应用集群的企业网格 l真正应用集群真正应用集群(real application cluster,RAC)使得企业可以构建支持多个操作系统的服务器,使得企业可以构建支持多个操作系统的服务器,并
6、可提供出色的可用性和可伸缩性。在真正应用并可提供出色的可用性和可伸缩性。在真正应用集群环境中,集群环境中,Oracle可在一个集群中运行于两个可在一个集群中运行于两个或更多个系统之上,并可以同时访问一个共享数或更多个系统之上,并可以同时访问一个共享数据库。这使得一个数据库系统可以跨越多个硬件据库。这使得一个数据库系统可以跨越多个硬件系统,同时对应用程序而言仍是一个统一的数据系统,同时对应用程序而言仍是一个统一的数据库系统,从而为用户的应用程序带来出色的可用库系统,从而为用户的应用程序带来出色的可用性和可伸缩性优势,包括:性和可伸缩性优势,包括:容量规划的灵活性和经济高效性,进而使得企业可以容量
7、规划的灵活性和经济高效性,进而使得企业可以随着业务的扩展根据需求进行扩展。随着业务的扩展根据需求进行扩展。集群故障容错,特别是计算机故障。集群故障容错,特别是计算机故障。12/30/20227Oracle Database 10g基础教程基础教程 清华大学出版社清华大学出版社绑定数据库崩溃恢复绑定数据库崩溃恢复 l造成意外停机的一个最常见的原因是系统故障或崩溃。系造成意外停机的一个最常见的原因是系统故障或崩溃。系统故障是由于硬件故障、电源故障和操作系统或服务器崩统故障是由于硬件故障、电源故障和操作系统或服务器崩溃造成的。这些故障导致的中断次数取决于受影响的用户溃造成的。这些故障导致的中断次数取
8、决于受影响的用户数量,以及服务恢复的速度。数量,以及服务恢复的速度。l高可用性系统设计用于在故障发生后,自动快速进行故障高可用性系统设计用于在故障发生后,自动快速进行故障恢复。关键系统的用户希望恢复。关键系统的用户希望IT部门能够承诺快速实现故障部门能够承诺快速实现故障恢复,并可以预测故障时间。停机时间如果比承诺时间长,恢复,并可以预测故障时间。停机时间如果比承诺时间长,就会对运营造成直接的影响,导致收入损失,生产效率降就会对运营造成直接的影响,导致收入损失,生产效率降低。低。lOracle数据库提供了非常快速的系统故障和崩溃恢复。数据库提供了非常快速的系统故障和崩溃恢复。12/30/2022
9、8Oracle Database 10g基础教程基础教程 清华大学出版社清华大学出版社17.3 防止数据故障防止数据故障 l数据故障是指丢失、损坏或破坏关键企业数据,数据故障是指丢失、损坏或破坏关键企业数据,如图如图17-3所示。数据故障的原因比计算机故障更所示。数据故障的原因比计算机故障更加错综复杂,可能由于存储硬件、人为错误、损加错综复杂,可能由于存储硬件、人为错误、损坏或站点故障而引起。坏或站点故障而引起。l非常重要的一点是,要设计一款解决方案来防止非常重要的一点是,要设计一款解决方案来防止数据故障并提供故障恢复。系统或网络故障可能数据故障并提供故障恢复。系统或网络故障可能会妨碍用户访问
10、数据,但发生数据故障后,如果会妨碍用户访问数据,但发生数据故障后,如果没有正确的备份或恢复技术,则会导致需要数小没有正确的备份或恢复技术,则会导致需要数小时的恢复时间,甚至丢失数据。时的恢复时间,甚至丢失数据。l在在Oracle Database10g中,极大地增强了数据保中,极大地增强了数据保护能力。护能力。12/30/20229Oracle Database 10g基础教程基础教程 清华大学出版社清华大学出版社防止存储故障防止存储故障 l利用利用Oracle数据库的自动存储管理数据库的自动存储管理(ASM)特性。特性。ASM在在Oracle内核中提供了一个垂直集成的文件系统和数据卷管内核中
11、提供了一个垂直集成的文件系统和数据卷管理器,大大减少了提供数据库存储的工作,提高了可用性,理器,大大减少了提供数据库存储的工作,提高了可用性,而无需购买、安装和维护专用存储产品,并且为数据库应而无需购买、安装和维护专用存储产品,并且为数据库应用提供了独有的能力。用提供了独有的能力。ASM将其文件分布在所有可用存储将其文件分布在所有可用存储器上,以实现最佳性能,而且它还可以镜像,防止数据丢器上,以实现最佳性能,而且它还可以镜像,防止数据丢失。失。ASM扩展了扩展了SAME(全部条带化和镜像全部条带化和镜像)概念,并提高概念,并提高了灵活性,从而可以在数据库文件级进行镜像,而无需在了灵活性,从而可
12、以在数据库文件级进行镜像,而无需在整修磁盘级进行镜像。整修磁盘级进行镜像。l更重要的是,更重要的是,ASM消除了与管理数据和磁盘相关的复杂性;消除了与管理数据和磁盘相关的复杂性;它大大简化了设置镜像、添加磁盘和拆卸磁盘的过程。它大大简化了设置镜像、添加磁盘和拆卸磁盘的过程。12/30/202210Oracle Database 10g基础教程基础教程 清华大学出版社清华大学出版社防止人为错误防止人为错误 l几乎所有关于停机原因的研究都发现,人几乎所有关于停机原因的研究都发现,人为错误是导致停机的最大原因。人为错误为错误是导致停机的最大原因。人为错误包括:误删除重要数据;或包括:误删除重要数据;
13、或update语句中语句中不正确的不正确的where子句更新了比预定更多的行。子句更新了比预定更多的行。要尽可能防止人为错误,当预防措施失败要尽可能防止人为错误,当预防措施失败后,需要撤消以前的操作。后,需要撤消以前的操作。lOracle数据库提供了易用且强大的工具,数据库提供了易用且强大的工具,有助于管理员快速诊断发生的错误,并从有助于管理员快速诊断发生的错误,并从错误中得以恢复。错误中得以恢复。12/30/202211Oracle Database 10g基础教程基础教程 清华大学出版社清华大学出版社 Oracle的闪回技术的闪回技术 l当授权用户犯错,需要使用工具来更正这些错误。当授权用
14、户犯错,需要使用工具来更正这些错误。Oracle Database 10g提供了一系列人为错误更正技术,这些技提供了一系列人为错误更正技术,这些技术称为闪回技术。闪回技术从根本上改变了数据恢复方式。术称为闪回技术。闪回技术从根本上改变了数据恢复方式。l过去,数据库在几分钟内就可能损坏,但需要几小时才能过去,数据库在几分钟内就可能损坏,但需要几小时才能恢复。利用闪回技术,更正错误的时间与错误发生时间几恢复。利用闪回技术,更正错误的时间与错误发生时间几乎相同。而且它非常易用,使用一条短命令便可恢复整个乎相同。而且它非常易用,使用一条短命令便可恢复整个数据库,而不必执行复杂的程序。闪回技术提供了一个
15、数据库,而不必执行复杂的程序。闪回技术提供了一个SQL界面,能够快速分析和修复人为错误。闪回技术为本界面,能够快速分析和修复人为错误。闪回技术为本地数据损坏提供了细粒度的外部分析和修复,如当错误删地数据损坏提供了细粒度的外部分析和修复,如当错误删除客户订单时。闪回技术还支持修复更广泛的损坏,同时除客户订单时。闪回技术还支持修复更广泛的损坏,同时快速避免长时间停机。快速避免长时间停机。12/30/202212Oracle Database 10g基础教程基础教程 清华大学出版社清华大学出版社基于基于SQL的的Log Miner日志分析程序日志分析程序 lOracle日志文件包含有关日志文件包含有
16、关Oracle数据库活动和历数据库活动和历史的大量实用信息。日志文件包含执行数据库恢史的大量实用信息。日志文件包含执行数据库恢复所需的全部数据。它们还记录了数据库中的数复所需的全部数据。它们还记录了数据库中的数据和元数据的所有变化。据和元数据的所有变化。lLog Miner是一个关系工具,支持使用是一个关系工具,支持使用SQL来阅来阅读、分析和翻译重做的日志文件。利用读、分析和翻译重做的日志文件。利用Log Miner分析日志文件,可以跟踪或审核数据变化、分析日志文件,可以跟踪或审核数据变化、提供调整和容量规划的补充信息、检索复杂应用提供调整和容量规划的补充信息、检索复杂应用调试的关键信息,或
17、恢复被删除的数据等调试的关键信息,或恢复被删除的数据等 12/30/202213Oracle Database 10g基础教程基础教程 清华大学出版社清华大学出版社防止数据损坏防止数据损坏 l数据损坏通常由数据损坏通常由IO系列中的故障组件导致。例如,系列中的故障组件导致。例如,数据库将数据库将IO作为更新交易的结果。该数据库作为更新交易的结果。该数据库IO将将在各个组件中进行传输,包括:操作系统的在各个组件中进行传输,包括:操作系统的IO代代码、文件系统、卷管理器、设备驱动程序、主机码、文件系统、卷管理器、设备驱动程序、主机总线适配器、存储控制器和磁盘驱动器,直至最总线适配器、存储控制器和磁
18、盘驱动器,直至最后被写入。后被写入。IO堆栈中任何组件发生错误或硬件故堆栈中任何组件发生错误或硬件故障,都可能障,都可能“变换变换”数据中的一些位,进而导致数据中的一些位,进而导致错误数据被写入数据库中。这一损坏可能是数据错误数据被写入数据库中。这一损坏可能是数据库控制信息或用户数据,它们对于数据库的正常库控制信息或用户数据,它们对于数据库的正常工作至关重要。同样,磁盘故障也可能损坏数据工作至关重要。同样,磁盘故障也可能损坏数据库,而需要使用备份文件来恢复数据库。库,而需要使用备份文件来恢复数据库。12/30/202214Oracle Database 10g基础教程基础教程 清华大学出版社清
19、华大学出版社17.4 避免计划内停机避免计划内停机 l计划内停机同样会对业务运营造成破坏,特别是对于需要计划内停机同样会对业务运营造成破坏,特别是对于需要支持多个时区的用户的全球而言,情况尤为严重。在这种支持多个时区的用户的全球而言,情况尤为严重。在这种情况下,设计一种可最大限度地减少中断的系统至关重要。情况下,设计一种可最大限度地减少中断的系统至关重要。计划内停机包括例行操作、定期维护和部署新设备等。计划内停机包括例行操作、定期维护和部署新设备等。l例行操作指频繁进行的维护任务,包括备份、性能管理、例行操作指频繁进行的维护任务,包括备份、性能管理、用户管理和批处理。定期维护,如安装补丁和重新
20、配置系用户管理和批处理。定期维护,如安装补丁和重新配置系统,只是偶尔进行,以更新数据库、应用程序、操作系统、统,只是偶尔进行,以更新数据库、应用程序、操作系统、中间件或网络。部署新设备包括硬件、操作系统、数据库、中间件或网络。部署新设备包括硬件、操作系统、数据库、应用程序、中间件或网络的重大升级。在这里,不仅需要应用程序、中间件或网络的重大升级。在这里,不仅需要考虑升级所需的时间,同时还需要考虑变化可能对整体应考虑升级所需的时间,同时还需要考虑变化可能对整体应用产生的影响。用产生的影响。12/30/202215Oracle Database 10g基础教程基础教程 清华大学出版社清华大学出版社避免数据改变导致的停机避免数据改变导致的停机 12/30/202216Oracle Database 10g基础教程基础教程 清华大学出版社清华大学出版社避免系统改变导致的停机避免系统改变导致的停机 l系统改变也是影响系统可用性的一个重要系统改变也是影响系统可用性的一个重要原因,如图原因,如图17-6所示。所示。l避免系统变化导致的停机的方法包括滚动避免系统变化导致的停机的方法包括滚动补丁更新、滚动版本升级等。补丁更新、滚动版本升级等。12/30/202217