《SAS 数据仓库方法论7864.docx》由会员分享,可在线阅读,更多相关《SAS 数据仓库方法论7864.docx(13页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、SAS 数据仓库方法论目 录 A. 快速建库方法论浏览 o 1什么是数据据仓库 o 2建立数据仓仓库的业务理理由 o 3建立数数据仓库的技技术理由 o 4数据仓库的的技术特征 o 5确认业务需需要和数据仓仓库的目标 o 6关键成成功因素 B. SAS快快速建立数据据仓库方法论论的细节 o 1业务驱动 o 2收集需求的的研讨会 o 3快速应用开开发 (RAAD) C方法论的框框架 A. 快速建库库方法论浏览览 一个企企业在开发和和实施数据仓仓库时,使用用一个高效和和经验证的方方法论是关键键的,这一点点已是十分清清楚的了。考考虑到这一点点,多年来SSAS研究、发发展和改进了了经验证的实实施数据仓库
2、库的方法论,我我们称之为快快速建库方法法论。本文件件的这一节将将描述这个方方法论。1什么是数据据仓库? 一个数数据仓库通常常是一个分散散的数据存储储,在其中信信息是存为这这样的一种形形式,它适合合于业务智能能化和决策支支持系统。数数据可能是以以不同形式存存储的,它并并不影响OLLTP系统的的运作。 数据仓仓库的建立是是用一种循环环的逐步完善善的过程而不不是一步完善善的。数据仓仓库通常是与与解决企业不不断改变的组组织问题的全全过程有关。 数据仓库通常是围绕主题建立的。主题就是企业感兴趣的论题,比如部门、活动和操作结果。数据仓库的结构是由数据仓库应满足的应用决定的。快速提交信息是成功实施数据仓库的
3、关键。由于这一点,就引入了象数据集市和信息集市这些概念。数据集市是数据仓库的一个子集,它通常更为概括,以满足对关心数据的查询有比数据仓库本身更快的速度。信息集市存储可用视窗器(viewer)显示的预处理的信息。 在信息息集市中常包包含以下几类类信息: 报告输出(打印印的文本、图图形等) 多媒体介质 (录象和录音音)内容的记记录 电子表单 2建立数据仓仓库的业务理理由 数据仓仓库为管理者者和业务用户户提供真正决决策支持的基基础。企业为为这些业务用用户存储了多多年的信息,但但是数据仓库库提供专为他他们设计的有有构架的信息息。数据仓库库实施的最初初阶段往往要要解决现成的的业务问题(即较为被动动的),
4、而以以后的实施常常是更为主动动的。数据仓仓库的一个强强项是它支持持对数据的随随时需要的查查询和进行未未计划的数据据探索的需要要。就是说,数数据仓库给业业务用户以不不同方法分析析数据的能力力和自由度,而而不受预先设设定的一组报报告的限制。3建立数据仓仓库的技术理理由 建建立数据仓库库最共同的技技术理由是企企业现用的信信息技术结构构不能满意地地满足业务需需要。过去,信信息技术集中中于运作系统统,它保证业业务过程运行行所必须的任任务的自动化化。但是,运运作系统一般般不能很好地地满足决策支支持的需要。一一个运作系统统典型的有多多个事务处理理(trannsactiion)的应应用构成,每每个应用使部部门
5、的一个过过程和功能自自动化。在运运作系统中,每每个事务和每每一分钟的业业务细节都记记录在与事务务应用关联的的数据库中。 事务系统的设计要考虑将部门运作需要的细节信息有效地进入系统。有效性的要求导致应用开发者实现高度规范的数据和在存档发生之前就必须决定作为应用的一部分有多少数据可存储。虽然运作系统对日常业务活的支持是非常有效的,但他们对于运用常规的软件技术支持报表制作、决策和行政信息系统并不是很好的。他们的侧重点是在数据的存储,很少提供访问数据和将数据变为有用决策信息的工具。 运作系统和数据仓库是完全不同的。内容是不同的,结构是不同的,硬件和软件的需求是不同的,管理是不同的和用户是不同的。数据仓
6、库的存储是设计得能提供决策支持信息的。它由业务应用数据来构建,但数据要先经过提取,再进行过滤、校验并组织到反映单位需要的主题中去。 数据仓库的数据是经过一段时间的收集,并用于比较、趋势分析和预测的。 若用运运作系统存储储的数据做决决策支持,将将会遇到以下下的一些问题题: 决策要求对历史史数据进行比比较、趋势分分析和预测。这这些信息通常常在运作系统统中是无法得得到的。 数据必须从运作作数据存区中中提取。随着着时间推移,这这些提取也增增长和扩大。数数据的可靠性性、有效性和和通用性都是是无法确定的的,因为创建建各种分析需需要的复本时时已生成了原原始数据源的的多个复本和和多个不同水水平的数据子子集。
7、在运作系统中的的数据是按一一个特殊的活活动而格式化化的,它并不不考虑单位决决策的需要。从从多个运作数数据库中得到到的数据需要要提取和处理理,这使得很很难顾及单位位的要求。为为了作出可靠靠的业务决策策或者回答简简单的业务问问题,分析工工作者必须花花费大量的时时间从不同的的数据源中局局部化或整合合有关的信息息。 运作系统是经常常更新的。当当数据经常改改变时,就难难于对企业的的问题作出一一致的回答。而而回答的经常常改变会混淆淆决策过程。 运作系统对大量量细小的事务务进行优化。常常常一个查询询导致另一个个查询。业务务用户活动的的重复本质以以及处理大量量数据的需要要与运作数据据库的设计、目目的是冲突的的
8、。 很多企企业试图用访访问数据和提提取数据的软软件工具从运运作系统获得得决策支持的的数据,有成成功的也有不不成功的。无无论如何,即即便使用这些些工具,运作作系统和决策策支持设计固固有的矛盾总总是存在的。数数据仓库按其其定义消除了了上述的问题题。事实上,这这些问题帮助助我们确定数数据仓库的技技术特征。4数据仓库的的技术特征 数据仓仓库的技术特特征如下: 数据仓库的数据据不是多变的的。这意味着着不同人员对对同一信息的的需求将获得得相同的回答答。这也意味味着在您分析析的过程中数数据不会改变变。 数据仓库的的数据装载是是适时和可用用于预测的。 数据仓库反映企企业机构组织织的需要。数数据仓库的构构件是直
9、接反反映您们单位位的主题。这这些主题规定定得可满足企企业的需要而而不管运作系系统的要求。 数据仓库是整合合的。所有业业务系统的有有价值信息都都要整合到数数据仓库的主主题中去。多多个业务数据据源数据的差差别应该在装装载到数据仓仓库之前进行行协调。 数据仓库提供企企业的历史回回顾。多年的的数据常以汇汇总的方式加加以存储。与与此对照的,典典型的业务应应用只存储一一个较短时段段的数据。 数据仓库对查询询功能是优化化的。优化通通常需要对数数据预汇总,预预索引和预取取子集。将数数据分隔和组组合为许多可可能的组合(分片和切块块)的能力和和有效地反复复查询大量数数据的能力是是数据仓库的的基本要求。 最后,数据
10、仓库库必须与分析析工具项匹配配。装载和维维护数据仓库库只是过程的的一部分。一一个数据仓库库只有具备了了辅助的决策策支持工具时时才是完善的的,这一决策策支持工具应应反映和利用用数据仓库的的结构。 5确认业务需需要和数据仓仓库的目标 如同已已经看到的,使使用数据仓库库技术有清楚楚的技术理由由。但是,清清晰地设定数数据仓库要实实现的业务需需要和用以评评价数据仓库库成功的标准准这两者同样样是十分重要要的。在大部部分情形,数数据仓库是为为业务部门建建立的。所以以数据仓库的的成功依赖于于对业务部门门需求的了解解。由于这一一点,由业务务部门确定数数据仓库的内内容是必须的的。 SAS快速速建库方法论论也提供问
11、卷卷和过程,它它帮助企业确确定数据仓库库内容和构架架。它也帮助助企业确定评评价准则和清清楚地界定数数据仓库项目目。清楚地明明白企业的需需要和目标也也将帮助说明明数据仓库项项目与企业的的关系以及数数据仓库的作作用和企业成成功的关系。6关键成功因因素 除了对对企业的业务务需求和数据据仓库目的有有一个清晰的的了解外,还还需要采取下下列步骤确保保数据仓库项项目满足这些些需要和目标标: 选择公司可能的的最高人员负负责数据仓库库项目。他对对项目成功负负有全职。组组成包括业务务决策者和IIT专家的跨跨部门项目组组。数据仓库库成功的一个个关键是业务务专家和ITT专家的密切切合作,它将将保证数据仓仓库项目的各各
12、个方面都被被顾及到。 获取项目成功所所需要的资源源投资的承诺诺。 项目拥有权的一一致意见。 项目评价标准的的一致意见。 确保业务部门与与IT部门一一致地为项目目成功进行努努力。 选择可以提供数数据仓库完整整解决方案的的可靠和有能能力的伙伴。 若实施一个企业业的数据仓库库,应该在完完成第一循环环或项目的模模块后,让单单位的其他成成员知道其成成功。若这一一循环正确地地实现了,其其成功应该让让有关的每个个人员清楚地地看到,因为为它是可见的的且直接关系系到企业的目目标。回到列列举企业任务务和处理的清清单并从新确确定其优先程程度。再选择择扩展数据仓仓库的下一个个项目。 B. SAS快快速建立数据据仓库方
13、法论论的细节 数据仓仓库建立的过过程一直还是是比较新的,还还缺少实践经经验,并不为为IT业界广广泛了解。此此外,数据仓仓库常是这样样的一个项目目,它与单位位的许多部门门交叉,要求求额外的计划划,交流和管管理。在这些些情况下,最最好汲取其它它方面的经验验并遵循一个个合理、经验验证的方法论论。 至此,SAAS研究所开开发的SASS快速建库方方法论帮助企企业开发一个个高质量数据据仓库,它可可以在预算的的范围内按时时地满足甚至至超过用户的的需要和期望望。它提供一一个检验数据据仓库开发和和实施是否成成功的测试框框架。它是基基于SAS研研究所的咨询询专家、合作作伙伴和用户户的最佳实践践和经验教训训,这些专
14、家家成功地实施施了数据仓库库。这一方法法论提供了经经验证的建库库框架,包括括过程、问卷卷、工作表单单和模板。若若企业自己开开发这些,将将是耗时和难难于管理的。运运用SAS的的快速建库方方法论,在实实施数据仓库库的往复循环环的各阶段会会快速地递交交结果,使得得在一个很短短的时间段内内达到一个可可量化的结果果。方法轮是是运用快速应应用开发和SSAS系统原原型技术的一一个分段式的的处理。这是是一个整合的的,业务驱动动的处理:各各用户部门在在实施的各阶阶段都有重要要的输入,为为报告和分析析目的而逐步步但快速增长长地使用数据据仓库,对此此IT部门应应当有准备。 SAS系统提供的工具(例智能化的客户机/服
15、务器,多厂商构架等)可以帮助企业实现一个灵活和低风险的处理。相对于数据仓库对企业的潜在回报,过程的每一步的投入(过程资源、开发人员和工作人员等)是非常低的。 使得SSAS快速建建库方法论成成功的三个主主要因素是: 业务或用户的关关注; 细致的收集用户户需求和项目目界定的研讨讨会; 使用快速应用开开发(RADD)处理。 这些特特点在下一节节讨论。1业务驱动 SASS 快速建库库的方法论是是一个高度地地以业务为驱驱动的过程: 了解数据仓库的的需要和将从从数据仓库中中获益的业务务管理者必须须参加。 业务用户都是项项目组的成员员。使用有用用的技术收集集、建立文档档和改善关于于项目参加者者需求的信息息。
16、 度量项目业务得得益的信息应应在项目的早早期阶段就加加以收集。 重点是放在评估估由数据仓库库得到的业务务效益和投资资回报。 2收集需求的的研讨会 研讨会会确立象目标标、范围和优优先这样一些些项目的高水水平要素。这这些是重要的的,因为数据据仓库项目要要影响许多不不同的业务领领域,这些领领域会有不同同的优先程度度。研讨会也也可以缩短完完成项目所需需要的时间,因因为它使人们们聚集在一起起,可减少个个别交谈收集集信息的反复复次数。3快速应用开开发 (RAAD) 一个 RAD循环环是对SASS 快速建库方方法论本质的的一个写照,因因为需要尽快快第看到他们们努力的结果果。快速应用用开发基于反反复发展的循循
17、环。即将一一个大项目分分为小项目,或或构件,在在此每个构件件服务于单个个操作单元或或功能区域的的信息需要。每每个构件是一一个功能的可可管理的单元元,是易于理理解和可以快快速向企业显显示价值的。 运用 RAD 可以使项目开发组为企业用户设定项目的优先,为每个构件设定主题以及为每个子项目清楚地划定范围。当每个局部任务完成后,会提出和明确进一步的需求。 循环式的处理有如下的好处: 有利于应用维护护。 改进适应需求改改变的能力。 减小无法管理项项目的风险。 及早提供用户的的反馈。 及早提交用户的的可度量的好好处。 提交高质量的解解决方案。 及早提供结果。 C方法论的框框架 SASS快速建库的的方法论典
18、型型地分为概括括如下的6步步。这些步骤骤提供工作的的逻辑分段和和检验项目是是否建立在一一个坚实的基基础上。评估估、需求调查查和总结阶段段着眼于确认认、理解和回回顾项目目标标和单位的目目标。设计、构构建和部署阶阶段基于使用用RAD 手段设计、开开发和配置数数据仓库环境境。以下的流流程图提供了了方法论各个个阶段的一个个总貌和流程程。SAS 快速建建库方法论的的各个阶段在在以下各节描描述。1评估阶段 在评估估阶段,对影影响要求解决决方案的用户户的现有情况况和条件进行行了解。了解解的目的是分分析用户的问问题和解决它它的办法。最最初的评估要要确认和澄清清目标,确认认为澄清目标标所做的研究究的任何需要要,
19、这一评估估将导致建议议开始、延迟迟或取消这个个项目。确定定初始阶段项项目组的成员员和项目范围围、作用和主主要的提交结结果。2需求调查阶阶段 在需求求调查阶段,项项目组收集业业务和IT方方面的高水平平要求。对部部门目标和信信息需求的信信息进行收集集。本阶段的的结果为提交交一个报告,这这个报告识别别业务的目的的、意义、信信息要求和用用户界面。这这些需求也将将用于数据仓仓库设计和项项目的其它阶阶段。而且,这这个阶段完成成企业级的主主题数据模型型和数据仓库库主题的选取取。与收集业业务需求的同同时,IT需需求的调研也也同步地进行行。并对主题题驱动数据仓仓库的IT要要求进行分析析。3设计阶段 在选取取主题
20、方面,项项目组集中于于收集详细的的信息要求和和设计数据仓仓库构架,包包括数据,过过程和应用模模型。在这一一阶段,使用用各种信息收收集和验证的的手段,包括括数据建模、过过程建模、座座谈和原型展展示。项目组组评价技术构构架,业务需需求和信息需需求。现有IIT构架和要要求的IT构构架之间的差差别是突出的的,建议采用用合适的数据据仓库设计和和构架。4构建阶段 在构建建阶段,包括括构建物理的的数据仓库并并组装,应用用和处理的编编码以及验收收测试。在这这一阶段数据据仓库的管理理者和终端用用户的指导者者应熟悉应用用。当测试成成功完成后,数数据仓库就交交付用户使用用和维护。5部署阶段 在部署署阶段,数据据仓库展示给给其他业务用用户并开始进进行使用应用用的训练。在在部署后,数数据仓库管理理者维护数据据仓库。对提提出的意见进进行必要的修修改。6总结阶段 在总结结阶段,对项项目的成功及及其对企业的的作用进行评评价。总结分分三步进行。第第一步总结早早期项目实施施成功和失败败的经验和公公布以后努力力的结果。第第二步是应用用配置是否如如期望的实现现了,如有必必要须调整计计划。第三步步评估项目对对单位的影响响和得益。