《sas数据仓库与数据挖掘.docx》由会员分享,可在线阅读,更多相关《sas数据仓库与数据挖掘.docx(49页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、SAS数据仓库与数据挖掘-从业务数据中提炼决策支持信息的解决方案目 录SAS研究所和SAS系统1利用SAS技术建立你的数据仓库2SAS数据仓库的组成4SAS数据仓库的体系结构6SAS数据仓库的开发9SAS的数据仓库产品-SAS/WA12SAS帮助你进行数据挖掘15SAS的数据挖掘的方法论-SEMMA17SAS数据挖掘的集成软件工具-SAS/EM(Enterprise Miner)21决策支持智能化24企业级的报表制作工具-SAS/ER+SAS/MDDB+SAS/IntrNet27在网上展开SAS功能31SAS研究所和SAS系统SAS系统是用于严肃数据分析和决策支持的大型集成式模块化软件包。六十
2、年代末到八十年代初以统计分析及线性数学模型为主,并以此闻名于世。故其早期名为“Statistical Analysis System”。“SAS”即成为SAS软件研究所(SAS Institute Inc.)产品的总商标。SAS软件研究所跨国公司成立于1976年,总部设在美国北卡州凯瑞市(Cary North Carolina)。SAS保持了20年连续不断的两位数的业务收入增长率,现已是全球最大的私人软件公司和全球排名第九位的独立软件商。缘其是私人独立软件商,免受股市和公众股东资本的操纵和影响,按自主意志把收益的很大部分再投入于研究和发展,使其研发投资比重一直保持了全球软件业的领先地位。凭借这
3、一技术优势,遍布世界的4500多名SAS员工为120多个国家的三百五十多万SAS用户提供了行业公誉的高质量技术服务和支持。面对当今竞争日趋激烈、瞬息万变的世界市场经济,从国家机关到企业界的各类人员都要面对各种机遇迅速作出抉择。计算机系统支持人们能做出迅即反应业务处理的能力已满足不了当今的需求,要信息技术对各个层次和各种类型决策进行支持已是IT行业发展必然趋势。SAS以其具有前瞻性的技术开拓,在决策支持工具数据仓库和数据挖掘(Data Warehouse与Data Mining)方面已连年被评为“年度最佳产品”、“最佳决策支持工具”。公司卓著的业绩使之被评为“全美国人们最乐意为之工作的100家公
4、司”之一及“最佳决策支持工具的供应商”。Internet已成为世界信息的通衢大道,Intranet也已成为先进企业的信息经脉。SAS技术也与之有着同步的发展。SAS的IntrNet产品使全部的SAS技术最大限度的实现了Web-Enable。这使得SAS原来跨多平台应用的开放机制扩展到了网络计算环境和网际应用。这不仅使SAS使用更加方便,而且使那些以Thin-client运行的系统在使用SAS时节省了投资,并减少了系统维护的工作量。在这里将按下面五个脉络向你系统的介绍SAS技术:l SAS世界领先的数据仓库技术l SAS获最佳决策支持工具褒奖的数据挖掘技术l SAS的业务智能化技术l SAS的企
5、业级报表制作工具l SAS的Web-Enablement你可以通过利用SAS技术建立你的数据仓库由于使用SAS系统成功地建立了许多卓有成效的数据仓库,SAS系统的数据仓库产品已连续两年(1996-1997)被美国著名的“Datamation”评为“当年度最佳产品”。销售额也占据了SAS产品的首位。98年又在DCI全球数据仓库大会荣获“Excellence in Business Information”大奖。正象数据仓库虽然是个较新的词语,但它是计算机技术发展的必然结果一样;SAS获此殊荣也非一日之功,正是它顺合计算机技术发展规律的渊源所致。为什么在有了这么多数据库产品之后,人们又要用数据仓库
6、技术。业界的各路诸侯又如此趋之若骛。这正是计算机技术应用需求的推动。当年数据库技术大发展的过程是伴随着OLTP(On Line Transaction Process联机业务处理)应用需求的推动。联机业务处理最迫切的技术要求就是快速响应。数据库技术,特别是基于E. F. Codd提出的关系理论的数据库的技术,将数据集分成了甚少冗余的实体(Entity),然后又将它们按一定的关系(Relationship)编织成一个有机的整体,比较完美地满足了OLTP的应用需求。对于每个业务处理最好只须涉及一个实体,业务处理对于实体的Add或Update也只涉及数据媒体的可能最小的空间(如记录级封锁技术),对于
7、其它实体的相关更新通过关系保持了一致性和完整性。这个切合当时OLTP应用实际需求的理论和技术的成功,推动了关系数据库产品风靡世界。象计算机技术的迅速发展一样,激烈竞争的市场也激发了各行各业对计算机应用的更多样的需求。计算机用户早已不满足于计算机能帮助他迅速地处理具体业务,他们要从这大量业务数据中探索业务活动的规律性,市场的运作趋势,并从中为他们参与市场竞争作出重要的决策。由此而来产生了对DSS(Decision Support System)决策支持系统的需求。支持决策就要进行数据,信息的分析,这就产生了OLAP(On Line Analysis Process)联机数据分析处理的需要。决策支
8、持所依据的数据从哪里来,当然是成功运行着的业务处理数据库中的数据。所以最早的决策支持所进行的数据处理就是直接使用数据库中的数据。可称之为ROLAP,即利用关系数据库的数据进行联机分析处理。SAS系统早就具有最强有力的数据分析处理能力,再加上SAS的SAS/ACCESS对几乎所有数据库和数据文件的强大的读取能力,以及SAS跨多平台的运作能力,SAS系统就成了最完善的ROLAP工具。当ROLAP只使用很少的关系数据库表时,这一操作是可行的。这种操作往往是针对局部性问题进行的决策支持数据分析。但面对市场的决策往往是涉及整个企业范畴的数据和信息。这就要同时启动大量的数据库表,并且要将众多表中的数据按一
9、定的规律拟合起来,形成恰好针对所支持决策问题的数据内容。这样一个过程或许是十分复杂,且耗费大量资源。或许企业的数据是分布在若干个系统中的,这样的数据整合过程几乎是难以完成的。除此之外,在一个数据库表中的每一条记录也并不是某项决策都需要的,这要按决策支持的需要编制专用的数据筛选程序。再者,联机业务处理系统中的数据有一个特性:即每一条记录都有产生,反复的变更、修改,直至数据记录不再变化的过程,称之为“数据到位”。例如:一个物料在一个工厂中产生了,联机业务处理系统中就要添加一条相应的记录;这个物料不断地进行加工,就要在它的记录中记入加工的参数;当这个物料加工成产品,被发货出厂,就要再登录这些出厂信息
10、,此后,记录其生产过程的数据就再也不能修改了。如果要进行产品生产周期的分析,就只使用发货出厂后的那些物料的数据,而不能使用同一表中的正在加工的物料的数据。由此可见,直接使用联机业务处理系统中的数据进行决策支持数据的分析处理是会产生许多麻烦的,甚至是实现不了的。这时候,人们就会问为什么系统中有我需要的数据,而我却无法运用呢!这不是说关系数据库不好,而是老产品遇到了新任务。E-R型的数据结构能完美地执行联机业务处理,但不适应较大规模的决策支持数据分析,尤其不适应企业级的决策支持数据分析处理的需要。适应这一需求,应运而生的就是数据仓库技术。在W.H.Inmon所著“Building the Data
11、 Warehouse”一书中给出了数据仓库的定义:“数据仓库是面向主题的、整合的、稳定的,并且时变的收集数据以支持管理决策的一种数据结构形式。”这一定义指出了数据仓库和事务处理系统之间的主要差异。数据仓库的目标是为了制定管理的决策提供支持信息,这显著的与OLTP系统的快速响应需要不同。正象企业为了发展要进行业务重组一样,为了支持管理决策需要也要按决策业务科目的要求重组OLTP系统中的数据,并要按不同决策,分析内容分别组织使之方便使用。这种基于主题的模式从用户角度来看就是多重的数据重组结构。在把数据装载到数据结构重组后的数据仓库之前,先要进行数据转换,或称“整合”处理。这一处理包括几个必不可少的
12、操作步骤,做到使数据完整、统一,这就确保了在使用数据仓库时其中的数据是有质量保证的,对此后文有详述。简而言之,整合就是保证数据准确,到位,没有超出应有的数值范围,没有重复等。数据仓库中的数据不象事务处理系统中的数据那样频繁的修改,所以它是比较稳定的(不必实时修改)。在一次数据分析的执行过程中使用的数据不得变更,这才能保证两次在使用同一组信息进行分析时不会得出不同的答案。数据仓库一般是按周、月或隔月从OLTP系统周期性的批次更新数据。由于具有数据的时段稳定性,对数据仓库来说就可以减少许多传统RDBMS必须的资源消耗,如:记录的锁机制、参照完整性的检查、数据操作的日志、以及检查点/回退(Roll
13、back)等。和OLTP的“实际事件”相比,SAS数据仓库的数据组织可呈多维时间段结构(时变的例如:1997年各个月份的销售数据),这一数据结构供进行某一时间段众多事件的定量分析用,并产生相应的结论。从本质上说,数据仓库的目标是从联机业务处理系统中筛选出某项决策所需的支持数据,再在分析处理过程中得出进行决策时有用的信息。供分析使用的这种时变数据亦可预先归纳出若干层次的汇总数据以利决策支持使用,这样,在常规决策操作时就不必临时进行基础数据的汇总处理了。SAS系统提供的数据仓库模型是包括了数据仓库管理、组织和信息展现的整体解决方案。这是由一族有机组合产品构成的阵容强大的模型。在下图中表示了SAS数
14、据仓库的模型。总之,数据仓库是当今社会的人们参与市场竞争等各项活动,要进行决策时的最适合的数据结构形式。是适应企业重组(Re-Engineering)时,进行企业数据、信息重组的工具。SAS在数据仓库技术上的成功例证和经验也必然能帮助中国的企业更卓有成效的走向市场经济的大潮。SAS数据仓库的组成提醒您:在购买数据仓库产品时注意其必不可少的技术环节数据仓库是适应决策支持系统的需要而产生的,所以人们希望所采用的软件产品能支持决策过程的全部工作内容。SAS的数据仓库技术就是可以支持决策全过程的整体解决方案。包括:l 从任何业务处理系统或数据源中取出决策所需数据l 对源数据进行清理和整合l 按计划或规
15、则进行数据仓库的装载和更新l 按支持决策的需要,以多种形式进行数据和信息的组织l 最丰富的决策数据分析处理能力l 灵活多样的结果展现方式如果您想建立决策支持系统的话,您就应当检查您所采用的软件工具是否具备上述全面的能力。SAS系统的数据存取能力从早期的SAS技术来看,它就是一个十分通用,且又十分开放的软件产品。唯有这样SAS才会在如此广泛的各种不同类型计算机系统平台和各种各样的环境中得到充分的运用。SAS有一个SAS/ACCESS产品,利用它可对众多不同格式的数据进行查询、访问和分析。SAS/ACCESS提供了与目前许多流行数据库软件和老的数据文件的接口,用SAS/ACCESS可建立对应外部异
16、构数据的一个统一的共用数据界面。所提供的与外部数据的接口是透明和动态的。用户可不必将数据真的读到SAS系统中来,而只需在SAS系统中建立对外部数据的描述(亦即所谓View),便可把这些外部数据当作真正存储在SAS系统中的数据集一样使用。这时,用户即可使用这些数据进行所谓ROLAP式的数据分析和决策工作。对一些经常反复使用的外部数据,亦可利用SAS/ACCESS将其真正提取放入SAS系统中,并进一步经过整理放进数据仓库。SAS/ACCESS提供的接口是双向的,既可将数据读入SAS系统,亦可在SAS系统中更新外部数据,或将数据加载到外部数据载体中去。这使数据仓库系统和原有的运行数据体系更加沟通。目
17、前SAS/ACCESS支持的数据库主要有:DB2,Oracle,Sybase,Rdb,CA-Ingres,CA-Datacom,Informix,ADABAS,NCR-Teradata,AS/400.等数据库。SAS/ACCESS还能支持一些老的数据文件系统,如有名的IBM/VSAM等。通过ODBC使SAS系统和更广泛的开放型数据库建立了沟通。另外,通过SAS编程中的DATA STEP可与任何知道其结构的数据进行联结。在数据仓库的宣传中曾报道用一个数据库产品作数据仓库使用。但这个数据库对原有数据载体没有存取能力,就又买了第三方的软件作为它们取出数据的工具。这种选择显然是不妥当的。SAS与众多软
18、/硬件厂商长期友好合作所形成的跨平台的数据存取能力决非一日之功。数据的清理和整合在SAS的数据仓库系统中有专门的机制进行引入数据的检查、核对和将不同来源数据进行整合的技术环节。在一个企业或其它大型的组织中,各种数据可能有不同的类型,格式可能也不尽统一,在原来不同的应用场合亦可能采用了不同的单位、制式,要想将它们放在一起进行有效的处理,首先的要求就是统一。从业务操作系统中引入的数据必须进行其完整性的检查。在一条记录中的各个数据项应保持完整的存在关系。若有缺项,且又没有检查,这必然导致统计的错误,决策也会产生偏差。数值的有效性也是必须进行核对的。防止将数据源中的错误带入决策过程之中。这些必要的清理
19、工作保障了决策支持所使用数据的质量。此外,还可以加入用户自己认为需要加强的环节。系统允许在数据整理的各个层次加上用户自行强化的环节。数据仓库的加载和更新从数据源抓取数据不仅有质量问题,还有有计划的按一定时间节奏从数据源取出和装入、更新数据仓库的问题。因为SAS系统有主动去取外部数据的能力,所以按时间节奏从数据源取出数据的操作在和其它系统管理人员协调好的基础上,就可完全在SAS系统内制定从各系统取用数据的计划了。在此基础上,数据仓库按照数据和信息使用的时间要求,准时的加载、更新,就是完全有保障的了。从数据源到数据仓库一气呵成的集成式的操作,这是SAS数据仓库技术的重要特点。按决策需要重组数据和信
20、息清理好的数据还要进行重组。按照决策的需要组织成不同的主题的数据仓库表。这是十分关键性的操作。在再小的企业或组织中,也总是有许多业务和技术环节的。一般来说,原来运行系统数据库的设计也总是针对这些业务和技术环节设置“实体”,即数据库的表。这样的设计使OLTP系统在线运行时,发挥了最大限度的工作效率。但在开拓决策支持的OLAP时,特别是对于全企业范围的数据进行操作时,这种数据结构效率极低。这是因为可能要从许多表中取出所需数据,而且还要进行数据的筛选,对不同表中的数据进行拟合等操作,这是极费时间和资源的。企业范围的决策是对各个环节分别进行业务处理的业务重组,这就需要有相应数据结构的重组,即按决策的需
21、要组织成不同主题的数据仓库表,以及相应的数据视图,汇总表等。SAS为此设置了交互式操作的界面,以最大的主动性帮你完成决策支持所需的数据重组。丰富的决策数据处理能力在有的所谓数据仓库产品的宣传中说:为了处理数据他们有各种函数功能供编程使用。这显然是极其不够的。为了更有效地支持决策,可能需要进行广泛、深入的数据挖掘(Data Mining)工作。SAS在这方面有世界领先的丰富的决策支持数据分析、处理软件。首先SAS/MDDB可帮你构造最适宜OLAP操作的多维数据结构。SAS/STAT覆盖了所有的实用数理统计分析方法,是国际上统计分析领域的标准软件。它提供了十多个过程可进行各种不同模型或不同特点的回
22、归分析;为多种试验设计模型提供了方差分析工具;在多变量统计分析方面,为主成分分析,相关分析,判别分析和因子分析提供了许多专用过程;还包括多种聚类准则的聚类分析方法.等。SAS/ETS提供了丰富的计量经济学和时间序列分析方法,是研究复杂系统和进行预测的有力工具。SAS/OR提供了全面的运筹学方法。SAS/IML提供了功能强大的面向矩阵运算的编程语言,帮助你研究新算法或解决SAS系统中没有现成算法的专门问题。SAS/INSIGHT是一个可视化的数据探索工具。它将统计方法与交互式图形显示融合在一起,为你展现了一种全新的使用统计分析方法的环境。还有SAS的人工神经元网络和SAS/ASSIST.等,具有
23、很大伸缩性的,适合各个层次,各种类型人员使用的工具。灵活多样的结果展现方式分析结果的展现方式对决策时人的判别有重大的影响。SAS也有众多的方式,方法供你选择:在Base SAS中就有从简单列表到比较复杂的统计报表和用户自定义的式样复杂的报表的能力;SAS/ER(Enterprise Report)更是为企业级的决策过程提供了报告的制作能力;SAS/GRAPH是一个强有力的图形软件包,可将数据及其包含着的深层信息以多种图形生动的呈现出来.。从各种数据源主动的取出数据;经过清理、整合;再按决策支持的需要分别主题,重组数据;按照时序节奏不断地自动装载、更新数据仓库;用世界权威的,丰富的数据处理工具进
24、行决策分析;最后以多种形式将决策支持的意见呈现给你。这就是完整的决策支持数据仓库解决方案。再次提醒您:在购买数据仓库产品时注意其必不可少的技术环节!SAS数据仓库的体系结构数据库技术对计算机应用的推动发挥了巨大的作用,特别是建立在E.F.Codd提出的E-R理论基础上的关系型数据库更是对OLTP(联机业务处理)应用开拓了广阔天地。1994年E.F.Codd曾回答一个提问:为什么对一个运行十分良好的基于E-R理论的关系数据库进行查询,以制作一个较大型的报告时,其响应速度特别慢。他说:运行数据库是基于OLTP需求环境设计的,这已有太多的成功事例。但现在是OLAP(联机分析处理,这个概念述语E.F.
25、Codd在此第一次提出)类型的需求。要实现OLAP就要有适应它的,整合的,快速的,多维的信息架构和查询机制。SAS数据仓库就是一个适应于对企业级的数据、信息进行重新整合,适合多维、快速查询;进行OLAP操作和决策支持的数据、信息的采集、管理、处理和展现的架构体系。可用下图表示:环境SAS数据仓库的体系结构数据仓库1主题1主题表系统主题表1 .主题表n汇总表组1SAS或DBMS汇总层次1 .SAS或DBMS汇总层次6MDDB1 .MDDBn .汇总表组n .信息市场1信息市场项目1.信息市场项目n.信息市场n .主题n数据市场组1数据市场1 .数据市场n信息市场1 .信息市场n .数据市场组n
26、.数据仓库n .运行数据定义组1运行数据定义1数据文件1 .数据文件n外部文件1 .外部文件n .运行数据定义n .运行数据定义组n环境(Enviroment)环境是SAS数据仓库的体系结构的总根,它由两大部分组成。一部分是分别含有不同主题内容的若干个数据仓库;另一部分是对数据源的定义。这构成了从数据采集到直接应用的完整的支持体系。数据仓库(Data Warehouse)可以存在多个数据仓库,这是为了使用的方便。在一个大的企业或组织中不同部门在进行决策分析时可能使用的是徊然不同的数据,重新整合后就没有必要将它们放在一起了。在体系结构层次中的数据仓库主要是管理性的作用,其中有对数据仓库所有组成单
27、元的解释性数据-Metadata。在每个数据仓库中还可以设置若干个主题,这一般是同一部门中支持不同决策内容对应的数据。主题是较大的数据载体,相对精简或汇总一些的是所谓数据市场,在一个数据仓库中亦可存在若干个数据市场。主题(Subject)在每个主题中有一个主题表系统,其中放置与此主题相关的各种数据。为了支持决策方便还设置了若干个数据的汇总表组。进一步为了支持决策的方便还有若干个信息市场组,其中放置的是对数据处理后产生的决策支持信息。主题表系统(Detail)这里放置的就是从各个数据源取出,经过清理、整合的原始数据。为了使用和管理的方便,这些数据可放在多个表中。主题表(Detail Table)
28、从运行系统数据源取出的数据,分别组成这里的若干表。它们可能是实际的表,也可以是一些逻辑视图(View)。从本质上讲,它们和原来各个运行系统数据源的数据内容是一致的。但是为了支持决策数据处理的使用方便,而对数据的结构进行了重组。为了决策支持数据处理工作的方便,和提高了工作的效率,在数据重组过程中,可能还要增加一些数据冗余。汇总表组(Summary Groups)在汇总表组中定义进行数据汇总处理时的层次维数和所分析的变量。当汇总表组是按SAS数据集和DBMS格式存放时可有六个层次,若是采用SAS的多维数据库产品MDDB时则可有任意多个层次。实际上数据汇总就是最常用的决策支持数据处理手段,或有时是在
29、汇总数据的基础上再进行进一步的决策支持数据处理。汇总表组可以有若干个,也就是说可以对多种变量分别进行不同方式的汇总处理。汇总层次(Summary Levels)汇总一般是按时间进程而执行的。汇总层次就是表示你所选择的数据汇总处理的时间维,如:日、周、月等。信息市场(Information Marts)这是信息市场的分组,在一项主题中可以有若干组信息市场。一般来说是按不同的决策支持内容需要进行分组的。之所以要称之为“信息市场”,这正是体现了设置这样一个机制的目的:要让决策者象到了一个信息市场一样,能最方便,最快捷的取得决策支持所需要的信息。信息市场项目(Information Mart Item
30、s)这是信息市场中一项项具体的信息,它是对数据仓库中的数据处理后产生的结果。在一个企业或组织中决策目标并不总是随机的,相反总是有一些要经常反复进行的决策工作,但是随着时间的进程,支持决策的依据在不断发展、变化。利用数据仓库架构就可以对这样的决策支持数据处理工作自动的及时执行。当人们需要决策支持时,马上就可以得到这些信息的支持。信息市场项目可以是一些报表、图形或分析的结果。它也可以是一项应用功能的输出。你在调用这样的项目时,可以是即时启动此项应用功能,也可以将它们设定成在数据仓库更新时作为系统运行的一部分。这样,就在可能的最早时间形成了决策支持的信息,为支持决策创造最大限度的快捷和方便。数据市场
31、组(Data Mart Groups)这是对数据市场项目的分组,在一个数据仓库中可以有多组数据市场。这也是按内容的不同进行分组的。和“信息市场”一样“数据市场”也是一个形象化的表达词汇:要让决策者能最方便的取得决策支持所需要的数据。数据市场(Data Marts)有时决策就是依据某些数据,但让决策者在浩如烟海的企业信息系统中找出这些数据可能并非易事。正是为了这样地目的设置了数据市场。它实际上就是为了各种特殊需要专门设计的数据表。特别是对一些要紧急查询的内容设置这样的数据表,就更有必要。你可以注意到数据市场不是设置在每个主题内,而是设置在数据仓库的范畴内,这也就是说,你可在以分主题的方式对原来运
32、行数据重组的基础上,为了某种支持决策的需要,再跨主题进行数据的重组。可以想象,这给你随着企业管理的发展,在要求你为了业务重组而进行数据重组时,SAS数据仓库技术为你创造了可持续增长的、无限的数据重组的广阔天地。运行数据定义组(Operational Data Definition Group)这是对要从数据源取出的数据进行定义的分组。企业可能有许多数据源,比如说,它们是放在不同的计算机系统中的,你就可以分系统设置数据定义组。这从运行、管理上看,或者说从开发文档上看都是比较清楚的。运行数据定义(Operational Data Definition)在这里定义你要取出的数据。前面已述SAS不仅有
33、多种方式可从各种环境中取出数据,而且可以通过SAS/ACCESS在SAS系统中启动这些操作。所以这里就是你在SAS/ACCESS中设定的逻辑视图(View)的描述。由于取用对象的不同,它亦可能是SAS语句PROC SQL的逻辑视图(View)的描述,或是DATE STEP逻辑视图(View)的描述。由上述内容可以看出SAS数据仓库有一个十分完善的体系结构。不仅为你建立决策支持系统提供了完整的解决方案,而且为今后的持续发展留下了广阔的天地。这也正是SAS获得数据仓库最佳产品奖的原因所在。SAS数据仓库的开发利用SAS技术建立数据仓库,在全世界已有数以千计的成功先例,从而也积累了开发的经验。SAS
34、研究所愿与你分享这些经验:亦即在提供SAS数据仓库软件产品时,还可向你提供建立数据仓库的方法学,咨询服务,以至建立数据仓库的服务。数据仓库并不等同于数据库,数据仓库也有其开发的特点。根据SAS的经验建立一个数据仓库会有以下五方面的工作:l 任务和环境的评估l 需求的收集和分析l 构造数据仓库l 数据仓库技术的培训l 回顾、总结再发展任务和环境的评估数据仓库是建立在原有的运行系统之上的。因此要结合单位的现状来明确数据仓库的目标任务。除了业务现状外,特别要搞清任务所面对的数据源所在系统和其中的数据的状况。通过对这些情况的评估,看建立数据仓库的这个任务是否是可行的;所能建立的数据仓库是不是用户所期望
35、的;在此有没有不可逾越的障碍。最好能确定评定将来数据仓库系统成功与否的基本原则。开展评估工作一定要有高层负责人参加,最好他就是将来使用数据仓库部门的负责人。这样从他这里就可以了解到全部的业务工作状况。他也最清楚今后的工作目标及对任务的期望,以及和竞争对手比较有什么差距。在评估工作开展过程中,他应当及时的提出问题,并检查、回顾工作的进展。在他的领导下要组成一个项目组,并有以下人员参加:项目总负责人,与数据仓库相关的所有业务单位的负责人,计算机软/硬件负责人,向数据仓库提供数据的数据库管理员以及网络方面的人员。项目组要进行项目定义,并首先按要达到的目标初步确定数据仓库的主题。进一步说明这个主题的层
36、次结构,及所涉及的相关业务处理。最好还能设立几个可量化的工作指标。除了业务工作外,还要对相关的信息技术状况进行评估:数据源的数据库类型,工作平台,数据量,数据的质量等;将要建立数据仓库的环境状况,以及所利用的网络技术状况。全部评估工作应有正规的文档记载,并交数据仓库负责人审定。需求的收集和分析数据仓库是为支持决策服务的。故首先要看决策者(亦即领导)的需求,即:现在最重要的工作目标是什么;怎样衡量这个目标是成功的达到了;现在是怎样获得决策支持信息的;和竞争对手比差距是什么。领导的决策总是由一批具体工作人员支持的,所以还应当从他们这里收集具体的需求,并加以分析:对应前面所定的主题,现在利用什么信息
37、或报表(最好有实例);这报表中还缺什么信息;这报表是如何制作出来的;有没有紧急、突发的决策信息要求,其内容是什么;还希望数据仓库为他们做些什么等。在此基础上确定:当前共同的业务问题是什么;希望开发怎样的功能来解决这些问题;由此定义好业务处理的规则;初步估计功能的规模和数据量;与此同时还要定义、理清业务和编程需要的代码。基于上述业务需求和分析即可开始制定系统的逻辑模型。此外,还要对实现这些业务需求时,对信息技术的需求加以分析:每一个数据源的物理存储状况、运行平台、数据质量如何;确认硬件、网络和软件的限制条件;数据装载和更新的策略和问题;数据量和占用空间的估计;从信息技术看数据的质量有什么问题等。
38、最后,还是制作文档。其内容应包括:l 项目概述l 差距分析l 系统基本架构图示l 逻辑模型l 物理模型l 数据仓库初始装载和更新的策略l 数据仓库的运行计划l 决策信息展现的希望和需求l 数据仓库建成的时限构造数据仓库构造数据仓库包括了数据仓库的管理,数据仓库的组织和决策支持信息的展现三部分。数据仓库的管理通过建立以下诸项内容实现之:设置和编写取用数据的程序;设置和编写数据转换程序;设置和编写数据更新程序;设置和编写运行的接口程序;建立这一阶段的所有管理用数据Metadata;此阶段所有程序统一标准命名和建档。数据仓库的组织包括了:规划数据仓库的初始装载;在数据仓库中建立所需的索引;除了数据表
39、外,建立数据视窗(View);进行数据仓库及工作平台的安全检查;装入数据和应用功能;建立这一阶段的所有管理用数据Metadata。决策支持信息的展现SAS有强大的工具软件可供使用:SAS/STAT是国际上统计分析领域的标准软件,涵盖了所有实用数理统计分析方法;SAS/EIS是一个成熟的决策支持表现工具,也是快速开发工具并采用了面向对象的开发方式;SAS/AF也是一个应用开发工具,并含有众多现成功能的SAS软件作为方法库;SAS/ETS提供了丰富的计量经济学和时间序列分析方法,是研究复杂系统和进行预测的有力工具;SAS/GIS是集地理信息系统与空间数据显示分析于一体的软件;SAS还提供了人工神经
40、元网络的功能;SAS/ASSIST采用了面向菜单的驱动界面,借助它可使用许多其它SAS软件;SAS/INSIGHT是一个可视化的数据探索工具;SAS/OR提供了全面的运筹学方法;通过ODBC,OLE等还可集成许多现有的桌面工具。利用这些工具可预先制作好许多常规的信息市场项目(Infomart)供支持决策使用,亦可利用这些工具直接操作主题数据以得出新的决策支持信息。数据仓库技术的培训数据仓库是支持其使用者进行决策的,即使是建成了非常好的数据仓库,人对系统的运作仍是决定性的因素。人利用数据仓库决策的成功才是数据仓库的成功,所以建成数据仓库后要认真进行最终用户的培训。首先要向用户介绍数据仓库全部的情
41、况,用户掌握的越深入,将来运用的就更好;数据是向用户介绍的重点,不仅要介绍详尽的数据内容,而且要介绍系统如何保障数据的质量、完整性和可靠性,并且让他们在今后使用中进一步注意这些问题,很可能这就是以后维护,改进的地方;Metadata是数据仓库的管理性数据,要告诉用户什么是Metadata,在何处,如何使用它;图形化的界面和各项功能当然是培训的主要内容;还要介绍数据的更新计划和此后数据的可用性;汇总层次的增加,可能是用户新需求的内容,要让他们知道如何和开发人员一起完成这件事;最后,不要忘记安全规范的培训。假如数据仓库的管理员不是系统的开发者,那末该员亦属培训范围。培训内容是:数据仓库的逻辑和物理
42、模型;从OLTP系统到数据仓库的数据流;全部的数据转换操作;所有Metadata的所在和内容,管理员对Metadata要有相当的熟悉程度才能胜任工作;数据装载和更新的策略;所有安全性问题及其测度;所有程序文档资料的管理;等等。回顾、总结再发展在数据仓库的开发过程中要不断的回顾哪些地方可以做的更好;业务部门对开发的支持是否到位;双方如何合作的更好;什么是业务部门最立竿见影的效益,知道了就要抓住它;什么是开发部门最立竿见影的效益,就要利用它更好地为用户服务。开发有了一定进展,就要慎重地看看:主题的范围选择是否恰当;是否应参与的部门都积极主动地参与了工作;有什么阶段成果;发布这些成果的反映如何;业务
43、和开发部门分别有什么反映;公司层的领导是否看到了初步成果;若有问题及时改进。在数据仓库开发完成后要检查:数据仓库的采用是否对公司有所推进;数据仓库的采用是否提高了公司的竞争优势;投资的回报率是否达到了预计的水平;是否有公司的其它部门可利用数据仓库获得效益;有没有得到未曾期望过的效益。数据仓库的开发往往是从一个简明的急需主题开始,从中积累经验,并由此也可能会激发用户的新需求,然后不断扩大数据仓库的内容和规模。只要你稳扎稳打,循序渐进,SAS一定能帮你建立好你们的数据仓库,并使您的部门利用它获得更大的效益。SAS的数据仓库产品SAS/WASAS的数据仓库是一个非常成熟的软件。它有一个顺应需求的发展
44、历史,在发展中不断完善,实际上已是本领域的权威产品。连续两年的获奖更说明了业界的拥戴。SAS的数据仓库产品SAS系统,多年来就以它的数据的存取,管理,分析和展现能力供用户作为决策支持的工具来使用。SAS的数据仓库产品SAS/Warehouse Administrator(简称SAS/WA)一方面将原有的这些工具整合在一起;另外,为了更规范地建立,维护数据仓库和更方便地对数据仓库和数据市场进行存取,又添加了新的功能和工具:l 定义数据仓库及其主题l 传送和汇总整理数据l 更新汇总数据l 建立,管理和取用查看metadatal 设置数据市场定义数据仓库及其主题在SAS/WA中设置了友好的用户界面供
45、用户定义自己数据仓库的构成。在前文中已介绍过SAS数据仓库的体系结构。在SAS/WA导引的定义过程中保证了数据仓库的规范化和体系中诸元素的内在的应有联系。在进行这些定义后,按照这些联系就形成了一个规范化的数据仓库体系。SAS/WA在每一步的操作中都提供了缺省的元素特性,但是根据你的特殊需要,也可以对它进行更改。在这里特别要指出的是:你所定义的数据仓库,可以建立在SAS数据库中;可建立在一般的DBMS中;还可以建立在SAS的多维数据库产品SAS/MDDB中。在SAS/MDDB中可形成E.F.Codd所指出的运作OLAP的最佳数据结构多维数据结构。这将大大提高数据查询、访问的速度和方便程度。传送和汇总整理数据这是通过SAS/WA的Process的Editor来进行的,它可以定义四种处理过程:l 运行数据的映射(Mapping)在此定义从输入数据源中取出哪些数据,这些数据如何转换,然后将它们装载到哪个主题数