《第5章数据仓库的管理和应用.ppt》由会员分享,可在线阅读,更多相关《第5章数据仓库的管理和应用.ppt(65页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第5章数据仓库的管理和应用 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望内容提要内容提要5.1 数据仓库管理5.2 数据仓库的决策支持与决策支持系统5.3 数据仓库应用实例5.1 数据仓库管理5.1.1 用户使用数据仓库的管理5.1.2 数据管理为什么需要对数据仓库进行管理?为什么需要对数据仓库进行管理?n数据仓库中的数据也会随时间的延伸迅速数据仓库中的数据也会随时间的延伸迅速的增长。的增长。(1)数据仓库收集历史数据。)数据仓库收集历史数据。(2)数据仓库包含
2、满足未知需求的数据集。)数据仓库包含满足未知需求的数据集。(3)数据仓库既包括了详细数据也包括了)数据仓库既包括了详细数据也包括了汇总数据。汇总数据。(4)数据仓库还包含外部数据。)数据仓库还包含外部数据。5.1.1用户使用数据仓库的管理用户使用数据仓库的管理1.信息使用者使用数据仓库的性能优化信息使用者使用数据仓库的性能优化2.探索者使用数据仓库的性能优化探索者使用数据仓库的性能优化1.信息使用者使用数据仓库的性能优化信息使用者使用数据仓库的性能优化n非规格化n创建数据阵列n预连接表格n预聚集数据n聚类数据n压缩数据n定期净化数据n合并查询2.探索者使用数据仓库的性能优化探索者使用数据仓库的
3、性能优化(1)概括分析)概括分析分析数据的完整性和准确性(数据质量)。分析数据的完整性和准确性(数据质量)。(2)抽取)抽取数据抽取的任务就是从数据仓库中抽取指定的数数据抽取的任务就是从数据仓库中抽取指定的数据,并组织起来,送入支持探索者分析的探索仓据,并组织起来,送入支持探索者分析的探索仓库中。库中。(3)建模)建模通过概括分析来理解数据,通过抽取来准备数通过概括分析来理解数据,通过抽取来准备数据,通过建模来分析数据。据,通过建模来分析数据。5.1.2数据管理数据管理5.1.2.1休眠数据休眠数据5.1.2.2脏数据的产生和清理脏数据的产生和清理5.1.2.3监视数据监视数据5.1.2.4元
4、数据管理元数据管理5.1.2.1休眠数据休眠数据1休眠数据概念休眠数据概念n休眠数据是那些存在于数据仓库中当前休眠数据是那些存在于数据仓库中当前不使用,将来也很少使用或不使用的数不使用,将来也很少使用或不使用的数据。据。n数据仓库中的数据随着时间的延续,数数据仓库中的数据随着时间的延续,数据被使用的情况会减少,休眠数据随之据被使用的情况会减少,休眠数据随之逐年增加。逐年增加。一些事实:一些事实:国外的统计表明:国外的统计表明:第第1年内,数据仓库近期数据和综合数据几年内,数据仓库近期数据和综合数据几乎被全部使用。乎被全部使用。第第2年内,休眠数据开始出现,数据仓库中年内,休眠数据开始出现,数据
5、仓库中的数据不少未被使用。的数据不少未被使用。第第3年内,休眠数据在增长。年内,休眠数据在增长。第第4年内,休眠数据迅速增长。年内,休眠数据迅速增长。n设数据仓库的数据量为设数据仓库的数据量为D,数据处理次数为,数据处理次数为n,平均每次处理数据的字节数为,平均每次处理数据的字节数为d,则一,则一年中数据处理的总数据量为:年中数据处理的总数据量为:n d。n在各次数据处理过程中,可能会出现数据在各次数据处理过程中,可能会出现数据的重复使用,我们用系数的重复使用,我们用系数a表示为:表示为:2休眠数据的产生与查找休眠数据的产生与查找(1)休眠数据的产生)休眠数据的产生在数据仓库中输入了过多的近期
6、基本数在数据仓库中输入了过多的近期基本数据。据。过多的增加了不必要的综合数据。过多的增加了不必要的综合数据。超过预测需求的历史数据均是休眠数据超过预测需求的历史数据均是休眠数据(2)查找休眠数据)查找休眠数据查找休眠数据的最好方法是监视用户查询查找休眠数据的最好方法是监视用户查询数据仓库的活动。数据仓库的活动。监视用户查询的监视用户查询的SQL语句。语句。监视返回给用户的查询结果数据集。数监视返回给用户的查询结果数据集。数据仓库管理员能知道哪些数据没有被使用,据仓库管理员能知道哪些数据没有被使用,它们很可能就是休眠数据。它们很可能就是休眠数据。3删除休眠数据删除休眠数据(1)直接删除休眠数据)
7、直接删除休眠数据删除用户不访问的数据。删除用户不访问的数据。通过数据访问模型来删除休眠数据。通过数据访问模型来删除休眠数据。(2)对休眠数据归档存储)对休眠数据归档存储(3)邻线()邻线(NearLine)存储)存储“邻线邻线”存储是一种二级数据存储方式。存储是一种二级数据存储方式。“邻线邻线”介于介于“在线(在线(OnLine)”和和“离线(离线(OffLine)”之间,将休眠数据之间,将休眠数据从数据仓库的在线存储中转移到邻线存储从数据仓库的在线存储中转移到邻线存储中,平时不参与数据仓库的运行。中,平时不参与数据仓库的运行。5.1.2.2脏数据的产生和清理脏数据的产生和清理脏数据是指在数据
8、源中抽取、转换和装载到数据仓库的过程脏数据是指在数据源中抽取、转换和装载到数据仓库的过程中出现的多余数据和无用数据。中出现的多余数据和无用数据。1产生脏数据的途径产生脏数据的途径(1)开始时定义了一些多余的数据或由于一些不合适的转)开始时定义了一些多余的数据或由于一些不合适的转换规则在转换过程中产生的无用数据。换规则在转换过程中产生的无用数据。(2)来自不同数据源的数据在数据结构、数据编码、数据)来自不同数据源的数据在数据结构、数据编码、数据定义等方面是不兼容的,在集成这些数据时未对所有不同情定义等方面是不兼容的,在集成这些数据时未对所有不同情况的数据都转换成统一形式,产生遗漏或用了不匹配的转
9、换况的数据都转换成统一形式,产生遗漏或用了不匹配的转换方法而产生脏数据。方法而产生脏数据。(3)输入的数据已经过期。)输入的数据已经过期。(4)用户需求的改变或数据质量有了新的要求时,那些没)用户需求的改变或数据质量有了新的要求时,那些没有适应改变要求的数据成了无用的脏数据。有适应改变要求的数据成了无用的脏数据。2清理脏数据清理脏数据(1)检查抽取数据的定义和数据转换规则的)检查抽取数据的定义和数据转换规则的正确性,对那些不合适的定义与规则所造成正确性,对那些不合适的定义与规则所造成的脏数据进行清理。的脏数据进行清理。(2)在对多个数据源进行集成时,清除那些)在对多个数据源进行集成时,清除那些
10、遗漏或不匹配方法而产生的脏数据。遗漏或不匹配方法而产生的脏数据。(3)对过期数据,对数据量较少时进行重新)对过期数据,对数据量较少时进行重新整理;对数据量大时,增加一些时间限制的整理;对数据量大时,增加一些时间限制的规则来帮助对数据的使用。规则来帮助对数据的使用。5.1.2.3监视数据监视数据n1.监视休眠数据监视休眠数据n2.监视脏数据监视脏数据5.1.2.4元数据管理元数据管理1评估元数据的价值评估元数据的价值(1)在应用程序中:描述应用程序的操在应用程序中:描述应用程序的操作数据的机制和控制运行机制的元数据,作数据的机制和控制运行机制的元数据,使系统开发人员就能够理解应用程序内使系统开发
11、人员就能够理解应用程序内部结构和数据之间相互关系。部结构和数据之间相互关系。1评估元数据的价值评估元数据的价值(1)在应用程序中:描述应用程序的操作数据的机在应用程序中:描述应用程序的操作数据的机制和控制运行机制的元数据,使系统开发人员就能制和控制运行机制的元数据,使系统开发人员就能够理解应用程序内部结构和数据之间相互关系。够理解应用程序内部结构和数据之间相互关系。(2)在数据仓库环境中元数据通过三种方式发挥作在数据仓库环境中元数据通过三种方式发挥作用。用。描述源数据和目标的数据模型描述源数据和目标的数据模型在填充数据时描述转换集成的数据流在填充数据时描述转换集成的数据流允许终端用户使用有意义
12、的导航数据允许终端用户使用有意义的导航数据(3)获取数据和使用数据的元数据是元数据价值最获取数据和使用数据的元数据是元数据价值最大的用途。大的用途。5.1.2.4元数据管理元数据管理2管理元数据管理元数据(1)支持企业范围内的体系结构理解各种元数据目)支持企业范围内的体系结构理解各种元数据目录,以及它们在企业范围内的体系结构的作用。录,以及它们在企业范围内的体系结构的作用。(2)基于知识库的方法)基于知识库的方法元数据一般存储在属性知识库中。转移到一个共享元数据一般存储在属性知识库中。转移到一个共享的、公共的元数据知识库中。的、公共的元数据知识库中。(3)配置管理)配置管理元数据知识库必须提供
13、标准的管理能力,如注册、退元数据知识库必须提供标准的管理能力,如注册、退出、版本控制等。出、版本控制等。(4)支持开放的元数据交换标准)支持开放的元数据交换标准企业元数据应该支持企业元数据应该支持MDIS(元数据交换标准)。(元数据交换标准)。(5)动态交换和同步)动态交换和同步企业应该采用企业应该采用MDIS标准,实现动态交换或同步,否标准,实现动态交换或同步,否则需要一个开放的元数据交换工具。则需要一个开放的元数据交换工具。5.25.2数据仓的决策支持与决策支持系统数据仓的决策支持与决策支持系统5.2.1查询与报表查询与报表5.2.2多维分析与原因分析多维分析与原因分析5.2.3预测未来预
14、测未来5.2.4实时决策实时决策5.2.5自动决策自动决策5.2.6决策支持系统决策支持系统n数据仓库是一种能够提供重要战略信息,并数据仓库是一种能够提供重要战略信息,并获得竞争优势的新技术,从而得到迅速的发获得竞争优势的新技术,从而得到迅速的发展。展。n具体的战略信息有:具体的战略信息有:n给出销售量最好的产品名单n找出出现问题的地区n追踪查找出现问题原因(向下钻取)n对比其他的数据(横向钻取)n显示最大的利润n当一个地区的销售低于目标值时,提出警告信息。数据提供的决策支持的作用数据提供的决策支持的作用n建立数据仓库的目的不只是为了存储更多的数建立数据仓库的目的不只是为了存储更多的数据,而是
15、要对这些数据进行处理并转换成商业据,而是要对这些数据进行处理并转换成商业信息和知识,利用这些信息和知识来支持企业信息和知识,利用这些信息和知识来支持企业进行正确的商业行动,并最终获得效益。进行正确的商业行动,并最终获得效益。n数据仓库的功能是在恰当的时间,把准确的信数据仓库的功能是在恰当的时间,把准确的信息传递给决策者,使他能作出正确的商业决策。息传递给决策者,使他能作出正确的商业决策。5.2.1查询与报表查询与报表1.查询查询(1)能向用户提供查询的初始化,公式表示和结)能向用户提供查询的初始化,公式表示和结果显示等功能。果显示等功能。(2)由元数据来引导查询过程)由元数据来引导查询过程(3
16、)用户能够轻松地浏览数据结构)用户能够轻松地浏览数据结构(4)信息是用户自己主动索取的,而不是数据仓)信息是用户自己主动索取的,而不是数据仓库强加给他们的库强加给他们的(5)查询环境必须要灵活地适应不同类型的用户)查询环境必须要灵活地适应不同类型的用户2.报表报表n(1)预格式化报表。)预格式化报表。n(2)参数驱动的预定义报表。)参数驱动的预定义报表。n(3)简单的报表开发。)简单的报表开发。n(4)公布和订阅。)公布和订阅。n(5)传递选项。)传递选项。n(6)多数据操作选项。)多数据操作选项。n(7)多种展现方式选项。)多种展现方式选项。5.2.2多维分析与原因分析多维分析与原因分析1、
17、多维分析、多维分析n通过多维分析将获得在各种不同维度下的通过多维分析将获得在各种不同维度下的实际商业活动值(如销售量等),特别是实际商业活动值(如销售量等),特别是他们的变化值和差值,达到辅助决策效果。他们的变化值和差值,达到辅助决策效果。n例如通过多维分析得到如下信息:例如通过多维分析得到如下信息:n今年以来,公司的哪些产品量是最有利润的?n最有利润的产品是不是和去年一样的?2、原因分析、原因分析n查找问题出现的原因是一项很重要的决策查找问题出现的原因是一项很重要的决策支持任务,一般通过多维数据分析的钻取支持任务,一般通过多维数据分析的钻取操作来完成。操作来完成。n某公司从分析报表中得知最近
18、几个月来整某公司从分析报表中得知最近几个月来整个企业的利润在急速下滑,通过人机交互个企业的利润在急速下滑,通过人机交互找出该企业利润下滑的原因。找出该企业利润下滑的原因。举例:举例:(1)查询整个公司最近)查询整个公司最近3个月来各个月份的销售额和利润,个月来各个月份的销售额和利润,显示销售额正常,但利润下降。显示销售额正常,但利润下降。(2)查询全世界各个区域每个月的销售额和利润,显示欧)查询全世界各个区域每个月的销售额和利润,显示欧洲地区销售额下降,利润急剧下降。洲地区销售额下降,利润急剧下降。(3)查询欧洲各国销售额和利润。显示一些国家利润率上)查询欧洲各国销售额和利润。显示一些国家利润
19、率上升,一些国家持平,欧盟国家利润率急剧下降。升,一些国家持平,欧盟国家利润率急剧下降。(4)查询欧盟国家中的直接和间接成本。得到直接成本没)查询欧盟国家中的直接和间接成本。得到直接成本没有问题,但间接成本提高了。有问题,但间接成本提高了。(5)查询间接成本的详细情况。得出企业征收了额外附加)查询间接成本的详细情况。得出企业征收了额外附加税,使利润下降。税,使利润下降。n通过原因分析,得到企业利润下滑的真正原因是欧盟国家通过原因分析,得到企业利润下滑的真正原因是欧盟国家征收了额外附加税造成。征收了额外附加税造成。5.2.3预测未来预测未来n预测未来使决策者了解预测未来使决策者了解“将要发生什么
20、将要发生什么”。n数据仓库中存放了大量的历史数据,从历史数据中找数据仓库中存放了大量的历史数据,从历史数据中找出变化规律,将可以用来预测未来。在进行预测的时出变化规律,将可以用来预测未来。在进行预测的时候需要用到一些预测模型。最常用的预测方法是采用候需要用到一些预测模型。最常用的预测方法是采用回归模型,包括线性回归或非线性回归。回归模型,包括线性回归或非线性回归。n采用聚类模型或分类模型也能达到一定的预测效果。采用聚类模型或分类模型也能达到一定的预测效果。5.2.4实时决策实时决策n企业需要准确了解企业需要准确了解“正在发生什么正在发生什么”,从而需要建立动态数据仓库(实时数据从而需要建立动态
21、数据仓库(实时数据库),用于支持战术型决策,即实时决库),用于支持战术型决策,即实时决策。策。n战术性决策支持的重点则在企业外部,战术性决策支持的重点则在企业外部,支持的是执行公司战略的员工。第四种支持的是执行公司战略的员工。第四种侧重在战术性决策支持。侧重在战术性决策支持。以货运为例以货运为例n卡车上的货物常常需要把某些货物从一辆车转移到另一卡车上的货物常常需要把某些货物从一辆车转移到另一辆车上,以便最终送抵各自的目的地。辆车上,以便最终送抵各自的目的地。n当某些卡车晚点时,就要做出艰难的决定:是让后继的运当某些卡车晚点时,就要做出艰难的决定:是让后继的运输车等待迟到的货物,还是让其按时出发
22、。输车等待迟到的货物,还是让其按时出发。n如果后继车辆按时出发而未等待迟到的包裹,那么迟到包如果后继车辆按时出发而未等待迟到的包裹,那么迟到包裹的服务等级就会大打折扣。裹的服务等级就会大打折扣。n反过来说,等待迟到的包裹则将损害在后继的运输车上的反过来说,等待迟到的包裹则将损害在后继的运输车上的其他待运包裹的服务等级。其他待运包裹的服务等级。n运输车究竟等待多长时间,取决于需卸装到该车辆的所有运输车究竟等待多长时间,取决于需卸装到该车辆的所有延迟货物的服务等级和已经装载到该车辆的货物的服务等延迟货物的服务等级和已经装载到该车辆的货物的服务等级。级。5.2.5自动决策自动决策n利用动态数据库自动
23、决策,达到利用动态数据库自动决策,达到“希望发生什么希望发生什么”。为了寻求决策的有效性和连续性,企业就会。为了寻求决策的有效性和连续性,企业就会趋向于采取自动决策。趋向于采取自动决策。n动态数据仓库可以为整个企业提供战略决策支持,动态数据仓库可以为整个企业提供战略决策支持,也可提供战术决策支持。确切地说,动态数据仓也可提供战术决策支持。确切地说,动态数据仓库同时支持这两种方式。库同时支持这两种方式。n随着技术的进步,越来越多的决策由事件触发,随着技术的进步,越来越多的决策由事件触发,自动发生。自动发生。5.2.6决策支持系统决策支持系统n数据仓库整合了企业的各种信息来源,能确保一致与正确数据
24、仓库整合了企业的各种信息来源,能确保一致与正确详细的数据。它是一个庞大的数据资源。要将数据转换成详细的数据。它是一个庞大的数据资源。要将数据转换成商业智能,就需要利用数据仓库来建立决策支持系统。商业智能,就需要利用数据仓库来建立决策支持系统。n基于数据仓库的决策支持系统是针对实际问题,利用分析基于数据仓库的决策支持系统是针对实际问题,利用分析工具或者编制程序,采用一种或多种组合的决策支持能力,工具或者编制程序,采用一种或多种组合的决策支持能力,对数据仓库中的数据进行多维分析,从而掌握企业的经营对数据仓库中的数据进行多维分析,从而掌握企业的经营现状,找出现状的原因,并预测未来发展趋势,协助企业现
25、状,找出现状的原因,并预测未来发展趋势,协助企业制定决策增强竞争优势。制定决策增强竞争优势。5.3数据仓库应用实例数据仓库应用实例5.3.1航空公司数据仓库决策支持系统简例航空公司数据仓库决策支持系统简例5.3.2统计业数据仓库解决方案统计业数据仓库解决方案5.3.3沃尔玛数据仓库系统沃尔玛数据仓库系统5.3.1航空公司数据仓库决策支持系统简例航空公司数据仓库决策支持系统简例1.航空公司数据仓库系统的功能航空公司数据仓库系统的功能2.数据仓库系统的决策支持数据仓库系统的决策支持3.决策支持系统简例决策支持系统简例1.1.航空公司数据仓库系统的功能航空公司数据仓库系统的功能航空公司数据仓库功能模
26、块有:航空公司数据仓库功能模块有:市场分析市场分析:分析国内、国际、地区航线上的各项生产指标;:分析国内、国际、地区航线上的各项生产指标;航班分析航班分析:分析某个特定市场上所有航班的生产情况;:分析某个特定市场上所有航班的生产情况;班期分析班期分析:分析某个特定市场上各班期的旅客、货运分布:分析某个特定市场上各班期的旅客、货运分布 情况;情况;2.2.数据仓库系统的决策支持数据仓库系统的决策支持 利用数据仓库系统提供的决策支持有:利用数据仓库系统提供的决策支持有:l l一段时间内某特定市场占有率、同期比较、增长趋势;一段时间内某特定市场占有率、同期比较、增长趋势;l l各条航线的收益分析;各
27、条航线的收益分析;l l计划完成情况;计划完成情况;l l流量、流向分析;流量、流向分析;l l航线上各项生产指标变化趋势的分析;航线上各项生产指标变化趋势的分析;通通过过查查询询“北北京京到到各各地地区区的的航航空空市市场场情情况况”,发发现现西西南南地地区区总总周周转转量量出出现现了了最最大大负负增增长长量量。该该决决策策支支持持系系统统简简例例就就是是完完成成对对此此问问题题进进行行多多维维分分析析和和原原因因分分析析,找找出出出现原因。出现原因。决策支持系统运行结构图如下:决策支持系统运行结构图如下:3.3.决策支持系统简例决策支持系统简例数据仓库服务器数据仓库服务器客户端客户端查询:
28、查询:全国各地区航空总周转量并比较去年同期状况全国各地区航空总周转量并比较去年同期状况显示:图显示:图1查询:查询:全国各地区航空客运周转量并比较去年同期状况全国各地区航空客运周转量并比较去年同期状况查询:查询:全国各地区航空货运周转量并比较去年同期状况全国各地区航空货运周转量并比较去年同期状况显示:图显示:图3查查询询:全全国国各各地地区区客客运运、货货运运、总总周周转转量量并并比比较较去去年年同期状况具体数据同期状况具体数据显示:显示:表表1查查询询:西西南南地地区区昆昆明明、重重庆庆两两地地航航空空总总周周转转量量并并比比较较去年同期状况去年同期状况显示:图显示:图4查查询询:昆昆明明航
29、航线线按按不不同同机机型型的的总总周周转转量量,并并比比较较去去年同期状况年同期状况显示:图显示:图5查查询询:昆昆明明航航线线按按不不同同机机型型的的周周转转量量,并并比比较较去去年年同同期周转量的具体数据期周转量的具体数据显示:显示:表表2显示:图显示:图2结束结束检检索索:数数据据仓仓库库中中今今年年、去去年年两两年年总总周周转转量量综合数据,并比较。绘制直方图综合数据,并比较。绘制直方图下下钻钻:从从总总周周转转量量下下钻钻到到今今年年、去去年年两两年年客客运周转量,并比较。绘制直方图运周转量,并比较。绘制直方图下下钻钻:从从总总周周转转量量下下钻钻到到今今年年、去去年年两两年年货货运
30、周转量,并比较。绘制直方图运周转量,并比较。绘制直方图制表:制表:从数据仓库中取数据并制表从数据仓库中取数据并制表下下钻钻:从从西西南南地地区区总总周周转转量量下下钻钻,取取昆昆明明、重重庆庆两两地地的的今今年年、去去年年两两年年数数据据并并比比较较。绘绘制直方图制直方图下下钻钻:从从昆昆明明航航线线总总周周转转量量下下钻钻,取取各各机机型型今年、去年两年数据并比较。绘制直方图今年、去年两年数据并比较。绘制直方图制表:制表:从数据仓库中取数据并制表从数据仓库中取数据并制表图图1 全国各地区航空周转量与去年对比状况全国各地区航空周转量与去年对比状况返回(其中,(其中,1:东北地区;:东北地区;2
31、:华北地区;:华北地区;3:华东地区;:华东地区;4:西北地区;:西北地区;5:西南地区;:西南地区;6:新疆地区;:新疆地区;7:中南地区):中南地区)从图从图1中看到从北京到国内各地区的总周转量以及与去年同期的比较情况,发现中看到从北京到国内各地区的总周转量以及与去年同期的比较情况,发现“北京西南地区北京西南地区”出现的负增长最大。出现的负增长最大。图图2 全国各地区航空客运周转量及与去年同期比较全国各地区航空客运周转量及与去年同期比较返回从从图图2中中看看到到客客运运周周转转量量及及与与去去年年同同期期比比较较,西西南南地地区区负负增增长长在在全全国国是是最大的,其次是东北地区。最大的,
32、其次是东北地区。图图3 北京到国内各地区货运周转量及与去年同期比较北京到国内各地区货运周转量及与去年同期比较返回 从图从图3中看到货运周转量及与去年同期比较,华东地区负增长在全国是中看到货运周转量及与去年同期比较,华东地区负增长在全国是最大的,西南地区也有负增长。最大的,西南地区也有负增长。表表1 客运、客运、货货运、运、总总周周转转量及其去年同期比量及其去年同期比较较客运周转量对比去年增长量货运周转量对比去年增长量总周转量对比去年增长量东北地区11.86-5.11.29-1.513.15-6.6华北地区34.8815.031.110.753615.78华东地区479.30126.5236.1
33、6-25.59515.46100.93西北地区51.6018.059.07.260.625.25西南地区15.43-19.353.29-0.5618.72-19.91新疆地区29.0205.85034.870中南地区643.43295.86116.8560.70760.28356.56返回 从从表表1中中,可可以以看看出出航航空空客客运运、货货运运、总总周周转转量量以以及及与与去去年年同同期期比比较较的的具具体体数数据。西南地区总周转量的负增长主要是客运负增长为主体。据。西南地区总周转量的负增长主要是客运负增长为主体。图图4 西南地区昆明、重西南地区昆明、重庆庆两地航空两地航空总总周周转转量及
34、与去年同期比量及与去年同期比较较返回从图从图4中看出,西南地区航空总周转量下降最多的是昆明航线。中看出,西南地区航空总周转量下降最多的是昆明航线。(其中,(其中,A:150座座级级;B:200座座级级;C:300座座级级以上;以上;D:200300座座级级)图图5 昆明航昆明航线线各机型各机型总总周周转转量以及与去年同期比量以及与去年同期比较较的柱形的柱形图图返回 从图从图5可以看出昆明航线中可以看出昆明航线中200300座级机型座级机型负增长最大,其次是负增长最大,其次是150座座级机型级机型也有较大的负增长,而也有较大的负增长,而200座级以及座级以及300座级以上机型座级以上机型保持同去
35、年相同保持同去年相同航运水平。航运水平。表表2 昆明航昆明航线线各机型各机型总总周周转转量以及与去年同期比量以及与去年同期比较较的数据的数据从表从表2中可以看出,不同机型的周中可以看出,不同机型的周转转量以及量以及对对比去年同期增比去年同期增长长的具体数据。的具体数据。总周转量对比去年增长量150座级12.99-16.83200座级10.070300座级以上10.070200-300座级2.91-26.9返回 以以上上决决策策支支持持系系统统过过程程完完成成了了对对航航空空公公司司全全国国各各地地区区总总周周转转量量对对比比去去年年同同期期出出现现负负增增长长量量最最大大的的西西南南地地区区,
36、经经过过多多维维分分析析和和原原因因分分析析,找找出出其其原原因因发发生生在在昆昆明明航航线线上。上。主主要要是是200300座座级级机机型型的的总总周周转转量量负负增增长长以以及及150座级机型负增长量造成的。座级机型负增长量造成的。其中,其中,200300座级负增长最严重。座级负增长最严重。这这为为决决策策者者提提供供了了解解决决西西南南地地区区负负增增长长问问题题辅辅助助决决策的信息。策的信息。数据仓库决策支持系统应用说明数据仓库决策支持系统应用说明n以上决策支持系统只是找出了西南地区以上决策支持系统只是找出了西南地区航运负增长问题的原因。航运负增长问题的原因。n还可以昆明航线上航班时间
37、以及其他方还可以昆明航线上航班时间以及其他方面进行原因分析,找出其他原因,为决面进行原因分析,找出其他原因,为决策者提供更多的辅助决策信息。策者提供更多的辅助决策信息。n同样,可以从国内各地区航空市场状况中对比同样,可以从国内各地区航空市场状况中对比去年同期去年同期增长显著的中南地区增长显著的中南地区,找出总周转量找出总周转量大幅提高的原因。大幅提高的原因。n从从正反两方面正反两方面来进行多维分析和原因分析,将来进行多维分析和原因分析,将可以得到更多的辅助决策信息,减少负增长,可以得到更多的辅助决策信息,减少负增长,增大正增长,提高更大利润。增大正增长,提高更大利润。n进行多方面分析的大型决策
38、支持系统,将可以进行多方面分析的大型决策支持系统,将可以发挥更大的辅助决策效果。发挥更大的辅助决策效果。5.3.2统计业数据仓库系统统计业数据仓库系统n1.统计业数据仓库解决方案统计业数据仓库解决方案n2.某市统计局企业微观数据仓库系统某市统计局企业微观数据仓库系统1.统计业数据仓库解决方案统计业数据仓库解决方案n统计业面临以下三方面的需求:统计业面临以下三方面的需求:(1)数据的集中存储与管理)数据的集中存储与管理n统计行业掌握着大量的、各历史年度的原始调查资料,这些资料大都还保留在纸介质、脱机的磁带和软盘上。n这些宝贵的原始资料不能为统计业务人员随机查询和充分共享,不能进行有效的统计分析、
39、预测评估和使用。(2)查询方式和分析手段的更新)查询方式和分析手段的更新n统计报表和统计分析需要从大量各种各统计报表和统计分析需要从大量各种各样的原始材料中汇总整理各种不同需求,样的原始材料中汇总整理各种不同需求,反映不同侧面的综合分析数据,传统的反映不同侧面的综合分析数据,传统的处理手段主要通过编写程序来实现。开处理手段主要通过编写程序来实现。开发周期长。发周期长。n(3)与)与Web技术的有机结合技术的有机结合n采用目前流行的三层应用体系结构对系统进行采用目前流行的三层应用体系结构对系统进行应用开发。后台是数据仓库,前台是应用开发。后台是数据仓库,前台是Web服务服务器,客户端是浏览器的应
40、用模式。器,客户端是浏览器的应用模式。n利用这种技术,可以做到网上动态信息发布、利用这种技术,可以做到网上动态信息发布、网上随机查询和网上联机分析处理等功能。网上随机查询和网上联机分析处理等功能。2.某市统计局企业微观数据仓库系统某市统计局企业微观数据仓库系统企业微观数据仓库设计成以下主题:企业微观数据仓库设计成以下主题:(1)企业基本情况)企业基本情况:各年度、各专业统计调查单位基本情:各年度、各专业统计调查单位基本情况名录的主要内容及全部标识性内容。况名录的主要内容及全部标识性内容。(2)企业财务状况)企业财务状况:各年度、各专业企业的资产、经营投:各年度、各专业企业的资产、经营投入、产出
41、效益等财务经营状况。入、产出效益等财务经营状况。(3)企业劳动状况)企业劳动状况:各年度、各专业企业的就业人数及工:各年度、各专业企业的就业人数及工资收入情况。资收入情况。(4)企业消耗状况)企业消耗状况:各年度、各专业企业生产所需的原材:各年度、各专业企业生产所需的原材料及能源消耗情况,包括价值量和实物量消耗情况。料及能源消耗情况,包括价值量和实物量消耗情况。(5)企业生产状况)企业生产状况:各年度、各专业企业的主营生产情况。:各年度、各专业企业的主营生产情况。n企业微观数据仓库系统的前端应用都是基于企业微观数据仓库系统的前端应用都是基于Web方式开发。方式开发。n它具有:网上随机查询、网上
42、多维分析、网上它具有:网上随机查询、网上多维分析、网上数据钻取、网上图形分析、网上表格旋转透视、数据钻取、网上图形分析、网上表格旋转透视、网上多维报表等功能,并且操作方式都是拖拉网上多维报表等功能,并且操作方式都是拖拉方式。方式。n今后统计业务人员的月报、年报等数据处理都今后统计业务人员的月报、年报等数据处理都可以在网上进行。可以在网上进行。5.3.3沃尔玛数据仓库系统沃尔玛数据仓库系统n美国的沃尔玛(美国的沃尔玛(Wal*Mart)是世界最大的零售商,)是世界最大的零售商,nWal*Mart建立了基于建立了基于NCRTeradata数据仓库的决策数据仓库的决策支持系统,它是世界上第二大的数据
43、仓库系统,总容量支持系统,它是世界上第二大的数据仓库系统,总容量达到达到170TB以上。以上。n强大的数据仓库系统将世界强大的数据仓库系统将世界4000多家分店的每一笔业多家分店的每一笔业务数据汇总到一起,让决策者能够在很短的时间里获得务数据汇总到一起,让决策者能够在很短的时间里获得准确和及时的信息,并做出正确和有效的经营决策。准确和及时的信息,并做出正确和有效的经营决策。n沃尔玛的创始人萨姆沃尔顿:沃尔玛的创始人萨姆沃尔顿:“我总是喜欢尽快得到我总是喜欢尽快得到那些数据、我们越快得到那些信息、我们就能越快据此那些数据、我们越快得到那些信息、我们就能越快据此采取行动,这个系统已经成为我们的一个
44、重要工具采取行动,这个系统已经成为我们的一个重要工具”。n利用数据仓库,沃尔玛对商品进行市场类组分析,利用数据仓库,沃尔玛对商品进行市场类组分析,即分析哪些商品顾客最有希望一起购买。即分析哪些商品顾客最有希望一起购买。n一个意外的发现就是:跟尿布一起购买最多的商一个意外的发现就是:跟尿布一起购买最多的商品竟是啤酒!按常规思维,尿布与啤酒风马牛不品竟是啤酒!按常规思维,尿布与啤酒风马牛不相及,若不是借助于数据仓库系统,商家决不可相及,若不是借助于数据仓库系统,商家决不可能发现隐藏在背后的事实。能发现隐藏在背后的事实。n沃尔玛就在它的一个个商店里将它们并排摆放在沃尔玛就在它的一个个商店里将它们并排
45、摆放在一起,结果是尿布与啤酒的销量双双增长。一起,结果是尿布与啤酒的销量双双增长。n每天要处理并更新每天要处理并更新2亿条记录,要对来自亿条记录,要对来自6000多个用户的多个用户的48,000条查询语句进条查询语句进行处理。销售数据、库存数据每天夜间行处理。销售数据、库存数据每天夜间从从4,000多个商店自动采集过来,并通多个商店自动采集过来,并通过卫星线路传到总部的数据仓库里。过卫星线路传到总部的数据仓库里。n利用数据仓库,进行决策支持分析,具利用数据仓库,进行决策支持分析,具体表现为:体表现为:1.商品分组布局商品分组布局n合理的商品布局能节省顾客的购买时间,能刺合理的商品布局能节省顾客
46、的购买时间,能刺激顾客的购买欲望。激顾客的购买欲望。n分析顾客的购买习惯,掌握不同商品一起购买分析顾客的购买习惯,掌握不同商品一起购买的概率,甚至考虑购买者在商店里所穿行的路的概率,甚至考虑购买者在商店里所穿行的路线、购买时间和地点,从而确定商品的最佳布线、购买时间和地点,从而确定商品的最佳布局。局。2.降低库存成本降低库存成本n沃尔玛通过数据仓库系统,决定对各个商店各沃尔玛通过数据仓库系统,决定对各个商店各色货物进行增减,确保正确的库存。色货物进行增减,确保正确的库存。n沃尔玛的经营哲学是沃尔玛的经营哲学是“代销代销”供应商的商品,供应商的商品,也就是说,在顾客付款之前,供应商是不会拿也就是
47、说,在顾客付款之前,供应商是不会拿到它的货款的。到它的货款的。n数据仓库系统不仅使沃尔玛省去了商业中介,数据仓库系统不仅使沃尔玛省去了商业中介,还把定期补充库存的担子转嫁到供应商身上。还把定期补充库存的担子转嫁到供应商身上。3.了解销售全局了解销售全局n各个商店在传送数据之前,先对数据进行如下各个商店在传送数据之前,先对数据进行如下分组:商品种类、销售数量、商店地点、价格分组:商品种类、销售数量、商店地点、价格和日期等。通过这些分类信息,沃尔玛能对每和日期等。通过这些分类信息,沃尔玛能对每个商店的情况有个细致的了解。个商店的情况有个细致的了解。n在最后一家商店关门后一个半小时,沃尔玛已在最后一
48、家商店关门后一个半小时,沃尔玛已确切知道当天的运营和财政情况。确切知道当天的运营和财政情况。4、市场分析、市场分析n沃尔玛利用数据挖掘工具和统计模型分析顾客沃尔玛利用数据挖掘工具和统计模型分析顾客的购买习惯、广告成功率和其他战略性的信息。的购买习惯、广告成功率和其他战略性的信息。n每周六要对世界范围内销售量最大的每周六要对世界范围内销售量最大的15种商品种商品进行分析,然后确保在准确的时间、合适的地进行分析,然后确保在准确的时间、合适的地点有所需要的库存。点有所需要的库存。5、趋势分析、趋势分析n对商品品种和库存的趋势进行分析,以选定需对商品品种和库存的趋势进行分析,以选定需要补充的商品,研究
49、顾客购买趋势,分析季节要补充的商品,研究顾客购买趋势,分析季节性购买模式,确定降价商品,并对其数量和运性购买模式,确定降价商品,并对其数量和运作作出反应。作作出反应。n为了能够预测出季节性销售量,它要检索数据为了能够预测出季节性销售量,它要检索数据仓库拥有仓库拥有100,000种商品一年多来的销售数种商品一年多来的销售数据,并在此基础上作分析和知识挖掘。据,并在此基础上作分析和知识挖掘。n沃尔顿在他的自传中写道:沃尔顿在他的自传中写道:“我能顷刻之间把我能顷刻之间把信息提取出来,而且是所有的数据。我能拿出信息提取出来,而且是所有的数据。我能拿出我想要的任何东西,并确切地讲出我们卖了多我想要的任
50、何东西,并确切地讲出我们卖了多少。少。”这感觉就象在信息的海洋里,这感觉就象在信息的海洋里,“轻舟已轻舟已过万重山过万重山”。n他还写到:他还写到:”我想我们总是知道那些信息赋予我想我们总是知道那些信息赋予你一定的力量,而我们能在计算机内取出这些你一定的力量,而我们能在计算机内取出这些数据的程度会使我们具有强大的竞争优势。数据的程度会使我们具有强大的竞争优势。”n数据仓库改变了沃尔玛,而沃尔玛改变了零售数据仓库改变了沃尔玛,而沃尔玛改变了零售业。业。n沃尔玛的成功给人以启示:唯有站在信息巨人沃尔玛的成功给人以启示:唯有站在信息巨人的肩头,才能掌握无限,创造辉煌。的肩头,才能掌握无限,创造辉煌。