2022年数据仓库课后习题答案 .pdf

上传人:C****o 文档编号:38682119 上传时间:2022-09-04 格式:PDF 页数:10 大小:191.17KB
返回 下载 相关 举报
2022年数据仓库课后习题答案 .pdf_第1页
第1页 / 共10页
2022年数据仓库课后习题答案 .pdf_第2页
第2页 / 共10页
点击查看更多>>
资源描述

《2022年数据仓库课后习题答案 .pdf》由会员分享,可在线阅读,更多相关《2022年数据仓库课后习题答案 .pdf(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、1 第一章作业1 数据库与数据仓库的本质差别是什么?书P2 (1)数据库用于事务处理,数据仓库用于决策分析。(2)数据库保持事物处理的当前状态,数据仓库即保存过去的数据又保存当前的数据。(3)数据仓库的数据是大量数据库的集成。(4)对数据库的操作比较明确,操作数量较小。对数据仓库操作不明确,操作数据量大。6. OLTP OLAP 细节性数据综合性数据当前数据历史数据经常更新不更新,但周期性刷新一次性处理的数据量小一次处理的数据量大对响应时间要求高响应时间合理面向应用,事务驱动面向分析,分析驱动8 定义为关于数据的数据,描述数据仓库中数据及其环境的数据。9 元数据不仅仅是数据仓库的字典,而且还是

2、数据仓库本身功能的说明数据,是整个数据仓库的核心。数据字典是关于数据库中数据的描述,而不是数据本身,数据字典是数据库的元数据。18、统计学与数据挖掘的不同。统计学主要是对数量数据或连续值数据进行数值计算的定量分析,得到数量信息。 数据挖掘主要对离散数据进行定性分析,得到规则知识。在统计学中有聚类分析和判别分析,它们与数据挖掘中的聚类和分类相似。但是,采用的标准不一样,统计学的聚类采用的“距离”是欧式距离,即两点间的坐标( 数值 ) 距离。而数据挖掘的聚类采用的“距离”是海明距离,即属性取值是否相同,相同者距离为0,不相同者距离为1。总之, 统计学与数据挖掘是有区别的,但是, 它们之间是相互补充

3、的。不少数据挖掘的著作中均把统计学的不少方法引入到数据挖掘中,与将机器学习中不少方法引入到数据挖掘中一样,作为从数据获取知识的一大类方法。19、说明数据仓库与数据挖掘的不同。数据仓库是在数据库的基础上发展起来的。它将大量的数据库的数据按决策需求进行重新组织,以数据仓库的形式进行存储,将为用户提供辅助决策的随机查询、综合信息以及随时间变化的趋势分析信息等。数据仓库是一种存储技术,其数据存储量是一般数据库的100 倍,包含大量的历史数据、当前的详细数据以及综合数据。它能适应不同用户对不同决策需要提供所需的数据和信息。数据挖掘是从人工智能机器学习中发展起来的。它研究各种方法和技术,从大量的数据中挖掘

4、出有用的信息和知识。最常用的数据挖掘方法是统计分析方法、神经网络方法和机器学习中研究的方法。数据挖掘中采用机器学习的方法有归纳学习方法( 如覆盖正例排斥反例方法,如 AQ系列算法、决策树方法等) 、遗传算法、发现学习算法( 如公式发现系统BACON) 等。利用数据挖掘的方法和技术从数据仓库中挖掘的信息和知识,反映了数据仓库中数据的规律性。用户利用这些信息和知识来指导和帮助决策。例如,利用分类规则来预测未知实体的类别。23:数据仓库与联机分析出口里、数据挖掘在决策支持方面有什么不同?精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 1 页,共 10 页

5、2 答:数据仓库视为辅助决策而建立的,单依靠数据仓库达到辅助决策的能力是有限的,综合信息和预测信息是数据仓库所获得的辅助决策信息。数据仓库中增加联机分析处理和数据挖掘等分析工具,能较大的提高辅助决策能力。数据仓库和联机分析处理几数据挖掘结合的决策支持系统,是以数据仓库为基础的,称为基于数据仓库的决策支持系统。概括地说:基于数据仓库的决策支持系统是从数据仓库的数据中获取辅助决策信息和知识,为决策提供支持。25 画出基于数据仓库的决策支持系统结构图。如图:28 如何理解商业智能与基于数据仓库的决策支持系统的区别于联系?答:可以认为,商业智能是对商业信息的搜集、管理和分析过程,目的是使企业的各级决策

6、者获得知识或洞察力(insight) ,促使他们做出对企业更有利的决策。商业智能一般由数据仓库、联机分析处理、 数据挖掘、 数据备份和恢复等部分组成。商业智能的实现涉及到软件、硬件、咨询服务及应用,其基本体系结构包括数据仓库、联机分析处理和数据挖掘三个部分。第二章作业1.画出数据仓库的结构图,说明各部分内容。P18 答:当前基本数据是最近时期的业务数据,是数据仓库用户最感兴趣的部分数据量大。随着时间的推移,有数据仓库的时间控制机制转为历史数据,轻度综合数据是从当前基本数据中提取出来的,最高一层是高度综合数据层,这一层的数据十分精炼,是一种准决策数据。2.说明数据仓库结构图中包含轻度综合层与高度

7、综合数据层的作用。这些数据为什么不是临时计算出来的。P18-19 数据仓库除了存储按主题组织起来的当前详细数据外,还需要存储综合数据,这是为了适应决策需求而增加的。在数据库中需要得到综合数据时, 采用数据立方体的方法对详细数据进行综合。在数据仓库中并不采取临时计算的方式得到综合数据,而在用户提出需要综合数据之前, 就预先将可能的综合数据利用数据立方体计算好,存入综合数据层中,这种综合数据层在用户查询时,能迅速提供给用户。3.说明数据集市与数据仓库的区别和联系。P20 6. 画出数据仓库系统结构图,说明把仓库管理和分析工具作为数据仓库系统的两个独立组成部分的原因。图:P22 原因:仓库管理:安全

8、和特权管理;跟踪数据的更新;数据质量检查;管理和更新元数据;审计和报告数据仓库的使用和状态;删除数据;复制、分割和分发数据;备份和恢复;存储管理。访问工具:为用户访问数据仓库提供手段9. 画出数据仓库的运行结构图,说明三层C/S 结构和两层C/S 结构的不同点。二层 C/S 结构三层 C/S 结构客户端数 据 仓 库 服务器客户端OLAP服务器数 据 仓 库 服务器精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 2 页,共 10 页3 OLAP服务器将加强和规范化决策支持的服务工作,集中和简化了数据仓库服务器的部分工作,即OLAP服务器从数据仓库服

9、务器中抽取数据,在OLAP服务器中转换成客户端要求的多维视图,并进行多维数据分析,将分析结果传送给客户端,这种结构形式工作效率更高。11. 数据模型与数学模型有什么区别?答:数据模型是数据特征的抽象,数据管理教学的形式框架,数据库系统中用以提高信息表示和操作手段的形势构架。数据模型包括数据库的数据的结构部分、数据库数据的操作部分和数据库数据的约束条件。数学模型是根据对研究对象所观察到的现象及实践经验,归结成的一套反映其内部因素数量关系的数学公式、逻辑准则和具体算法。用以描述和研究客观现象的运动规律。15第三范式数据模型与星型模型有什么不同?第三范式不同于星型模型之处在于,把事实表和维表的属性作

10、为一个实体都集中在同一数据库表中,或分成多个实体用多个表来表示,每个表按第三范式组织数据。它减少了为表中的键和不必要的属性。17简单说明ETL过程的主要步骤。ETL过程的主要步骤概括为: (1)决定数据仓库中需要的所有的目标数据(2)决定所有的数据源,包括内部和外部的数据源(3)准备从源数据到目标数据的数据映射关系(4)建立全面的数据抽取规则(5)决定数据转换和清洗规则(6)为综合表制定计划(7)组织数据缓冲区域和检测工具(8)为所有的数据装载编写规程(9)维度表的抽取、转换和装载(10)事实表的抽取、转换和装载18、说明数据抽取工作的内容。P28 21数据装载方式与类型有哪些?答:数据仓库中

11、最基本的元数据相当于数据库系统中的数据字典。由于数据仓库和数据库有很大的不同,因此元数据的作用远不是数据字典所能相比的。元数据在数据仓库中有着举足轻重的作用,它不仅仅定义了数据仓库有什么,指明了数据仓库中数据的内容和位置,刻画了数据的抽取和转换规则,存储了与数据仓库有关的各种商业信息,而且整个数据仓库的运行都是基于元数据的,如数据的修改,跟踪,抽取,装入,综合等。23什么是关于数据源的元数据?答:关于数据模型的元数据描述了数据仓库中有什么数据以及数据之间的关系,是用户管理数据仓库的基础。这种元数据可以支持从数据仓库中获取数据。用户可以提出需要哪些表,系统从中选一个表,并得到表之间的关系。重复该

12、过程,用户希望能够得到希望的数据。24什么是关于数据模型的元数据?答:关于数据模型的元数据描述了数据仓库中有什么数据以及数据间的关系,支持用户从数据仓库中获取数据。25什么是关于数据仓库映射的元数据?答:关于数据仓库映射的元数据,反映了数据源与数据仓库数据之间的映射,以及数据项是从哪个特定的数据源抽取的,经过了哪些转换、变换和装载。第三章作业1.联机分析处理( OLAP )的简单定义是什么?它体现的特征是什么。P40 2.OLAP准则中的主要准则有哪些?P41 3. 什么是维?关系数据库是二维数据吗?如何理解多维数据?P43 维是人们观察数据的特定角度。关系数据库不是二维数据,只是通过二维关系

13、表示了数据的多维概念。多维数据就是从多个特定角度来观察特定的变量。4. MDDB (Multi Dimensional Database, 多维数据库)是以多维的方式组织数据,即以维作为坐标系,采用类似于数组的形式存储数据。RDBMS(relational database management system,关系型数据库管理系统)通过数据、关系和对数据的约束三者组成的数据模型来存放和管理数据MDDB 特点:1.数据库中的元素具有相同的数值2.多维数据库表达清晰,3.占用存储少RDBMS 的特点:1. 数据以表格的形式出现2. 每行为各种记录名称精选学习资料 - - - - - - - - -

14、 名师归纳总结 - - - - - - -第 3 页,共 10 页4 3. 每列为记录名称所对应的数据域4. 许多的行和列组成一张表单5. 若干的表单组成database 5. 1. 数据存取速度ROLAP 服务器需要将SQL语句转化为多维存储语句,临时“拼合”出多维数据立方体。因此,ROLAP 的响应时间较长。MOLAP 在数据存储速度上性能好,响应速度快。2. 数据存储的容量ROLAP 使用的传统关系数据库的存储方法,在存储容量上基本没有限制。MOLAP 通常采用多平面叠加成立体的方式存放数据。当数据量超过操作系统最大文件长度时,需要进行数据分割。多维数据库的数据量级难以达到太大的字节级。

15、3. 多维计算的能力MOLAP 能够支持高性能的决策支持计算。ROLAP 无法完成多行的计算和维之间的计算。4. 维度变化的适应性MOLAP 增加新的维度,则多维数据库通常需要重新建立。ROLAP 对于维表的变更有很好的适应性。5. 数据变化的适应性当数据频繁的变化时,MOLAP 需要进行大量的重新计算,甚至重新建立索引乃至重构多维数据库。在ROLAP 中灵活性较好,对于数据变化的适应性高。6. 软硬件平台的适应性ROLAP 对软硬件平台的适应性很好,而MOLAP 相对较差。7. 元数据管理目前在元数据的管理,MOLAP 和 ROLAP 都没有成形的标准。6. 在 HOLAP 中,对最常用的维

16、度和维层次,使用多维数据表来存储,对于用户不常用的维度和数据,采用ROLAP 星型结构来存储。7多维数据显示的两种方法:关系数据库方式和多维数据库方式。关系数据库可以显示更多维的数据,但用事实表显示多维数据时,重复数据很多, 也很繁琐; 多维数据库虽然不能同时显示三维以上数据,但显示的数据很精炼。11、多维数据显示的经验规则是什么?答:多维数据的显示只能在平面上展现出来,用多维数据库显示时,不能同时显示三维以上数据,但可以固定一些维成员,重点显示两维维数据。最有效表示多维数据使用多维类型结构(MTS ) ,即每一维用一条线段表示,维度中每一个成员都用线段上的一个区间表示。还可以使用行、列和页表

17、三个显示组来表示。经验规则:1.将维度尽量放在页中,除非确定需要同时看到一个维度的多个成员;2.当维度嵌套在行货列中时,考虑到垂直空间比水平空间更有用,所以讲维度嵌套在列中比嵌套在行中要好;3.在决定数据的屏幕显示方式前,应首先弄清楚需要查找和分析比较的内容;12、举例说明OLAP的多维数据分析的切片操作。答:切片就是在某两个维上取一定区间的维成员或全部维成员。如用三维数组表示为(地区,时间,产品,销售额),如果在地区维度上选定一个维成员,就可以得到在该地区的一个切片(关于时间和产品的切片)。13 比如部门销售数据表中部门1 的销售额为900元,对时间维进行下钻操作,可以得到各个季度分别的销售

18、额为多少。14 (1)切片:切片就是在某两个维上取一定区间的为成员或全部维成员,而在其余的维上选定一个维成员的操作。切片的作用就是舍弃一些观察角度,使人们能在两个维上集中观察数据。(2)切块:切块分两种情况: (1)在多维数据的某一个维上选定某一区间的维成员的操作。(2)选定多维数组的一个三维子集的操作。切块可以看成是在切片的基础上确定某一个维成员的区间得到的片段,也即由多个切片叠合起来的。(3)钻取:向下钻取是使用户在多层数据中能通过导航信息而获得更多的细节性数据,向上钻取获取概括性信息。(4)旋转:通过旋转可以得到不同视角的数据,旋转操作相当于平面数据将坐标轴旋转。15、广义 OLAP 功

19、能如何提高多维数据分析能力。广义 OLAP功能主要是通过四个模型逐层深入从而提高多维数据分析能力。这四个模型分别是:精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 4 页,共 10 页5 (1) 绝对模型:它属于静态数据分析,通过比较历史数据值或行为来描述过去发生的事实。该模型查询比较简单,综合路径是预先定义好的,用户交互少。(2) 解释模型:它也属于静态数据分析,分析人员利用系统已有的多层次的综合路径层层细化,找出事实发生的原因。(3) 思考模型 : 它属于动态数据分析,旨在说明在一维或多维上引入一组具体变量或参数后将会发生什么。分析人员在引入确

20、定的变量或公式关系时,必须创建大量的综合路径。(4) 公式模型 : 它的动态数据分析能力更高,该模型表示在多个维上,需要引入哪些变量或参数,以及引入后所产生的结果。16、说明数据立方体的概念数据立方体的概念是1996 年, Jim Gray 等首次提出的。数据立方体是实现多维数据查询与分析的一种重要手段。实质上,数据立方体就是数据仓库结构图中的综合数据层。从此,基于数据立方体的生成方法一直是OLAP 和数据仓库领域研究者所关注的热点问题。多数据集的属性分为维属性和度量属性。维数性是观察数据对象的角度,而度量属相则反映数据对象的特征。对于多维数据分析而言,本质上是沿着不同的维度进行数据获取的过程

21、。在数据立方体中,不同维度组合构成了不同的子立方体,不同维值的组合机器对应的度量值构成相应的对于不同的查询和分析。因此,数据立方体的构建和维护等计算方法成为了多维数据分析研究的关键问题。17 答: OLAP的逻辑结构由OLAP 视图和数据存储两部分组成。OLAP 视图:对于用户来说它是数据仓库或数据集市中数据的多维逻辑表示,不管数据怎么存储和存储在何处。数据存储:要求选择数据实际存储方式和实际存储位置,两种常用的选择是多维数据存储和关系数据存储。18 答: OLAP的物理结构包括基于数据存储的两种方式:多维数据存储和关系数据存储。多维数据存储主要有两种选择:多维数据存储于客户端或 OLAP服务

22、器。在第一种情况,多维数据存储于客户端,数据分析也在客户端,这样形成了“胖”客户端,这是一种两层客户/ 服务器的物理结构。在第二种情况,多维数据存储放在OLAP服务器中,抽取数据仓库中的数据,然后将其转换成多维数据结构,并把OLAP服务器传给客户端,这时客户端就变成了“瘦”客户端,这是一种经典的三层客户/ 服务器物理结构。19说明浓缩立方体的压缩方法和效果。答:浓缩立方体计算方法的基本原理是,在某些属性或组合下的一个元组相对于其他元组具有唯一性,则称为基本单一组(BST),当它的超集也是 BST ,且都是取同一度量值,在聚集运算时,可以把这些属性的度量值对应的元组压缩成一条元组存储。一般来说,

23、浓缩立方体的压缩率可以达到30%-70% 。20. 多维数据分析的MDX 语言与数据库的SQL语言有什么不同?答:MDX 语言结合了多维数据集,指定“维度”(ON子句 ) 和“创建表达式计算的新成员”(MEMBER 子句 ) ,这样就可以来从多维数据集中挖掘出指定的数据。21MDX 提供的函数children来完成这个操作。 Children 函数返回一个自然排序的集,该集包含指定成员的子成员。如果指定的成员没有子成员,则此函数返回一个空集。示例下例将返回 Geography 维度中 Geography 层次结构的 United States 成员的子成员。SELECT Geography.G

24、eography.Country.&United States.Children ON 0 FROM Adventure Works第四章作业1.数据仓库的需求分析的任务是什么?P67 需求分析的任务是通过详细调查现实世界要处理的对象(企业、部门用户等),充分了解源系统工作概况,明确用户的各种需求,为设计数据仓库服务。概括地说,需求分析要明确用那些数据经过分析来实现用户的决策支持需求。2.数据仓库系统需要确定的问题有哪些?P67 3.实现决策支持所需要的数据包括哪些内容?P68 (1)源数据( 2)数据转换( 3)数据存储( 4)决策分析4概念:将需求分析过程中得到的用户需求抽象为计算机表示的

25、信息结构,叫做概念模型。特点: (1)能真实反映现实世界,能满足用户对数据的分析,达到决策支持的要求,它是现实世界的一个真实模型。(2)易于理解,便利和用户交换意见,在用户的参与下,能有效地完成对数据仓库的成功设计。(3)易于更改,当用户需求发生变化时,容易对概念模型修改和扩充。(4)易于向数据仓库的数据模型(星型模型)转换。5用长方形表示实体,在数据仓库中就表示主题,椭圆形表示主题的属性,并用无向边把主题与其属性连接起来;用菱形表示主题之间的联系,用无向边把菱形分别与有关的主题连接;若主题之间的联系也具有属性,则把属性和菱形也用无向边连接上。精选学习资料 - - - - - - - - -

26、名师归纳总结 - - - - - - -第 5 页,共 10 页6 6数据库的概念模型设计主要采用E-R 概念模型的设计方法。数据仓库的概念模型设计主要采用E-R 概念模型和面向对象的分析方法。7 . 图 4.1 所示的概念模型:商品和客户是两个主题,商品的销售信息等同于客户的购物信息,而每个商品具有本身的商品固有信息和商品号,还有就是商品的库存信息;客户具有自己的固有信息,还有就是客户号。8. 逻辑模型:计算机所支持的有E-R图转换成的数据模型,数据的逻辑结构数据仓库的逻辑模型:星型模型9. 数据仓库的逻辑模型:用来构建数据仓库的数据库逻辑模型。在数据库中,逻辑模型有关系、网状、层次,可以清

27、晰的表示各个关系。10. 举例说明从数据仓库的概念模型到逻辑模型的转换? 概念模型是对每个决策与属性及主体之间的关系用E-R 图来表示的, E-R 图能有效的将现实的世界表示成信息世界,他利于向计算机的表示形式进行转化。而逻辑模型设计是需求分析主题域,将概念模型E-R 图转化为逻辑模型,即计算机表示的数据模型,数据仓库的数据模型一般采用星型模型。例如概念模型设计时,确定了商品和客户两个主题。其中商品对于商场来说是更基本的业务对象,商品的业务有销售、采购、库存。其中商品销售时最重要的业务。它是进行决策分析的重要方面。星型模型的设计如下:确定决策分析需求,数据仓库是面向决策分析的,决策需求是建立多

28、维数据模型的依据。例如分析销售额趋势,对商品的销售量,促销手段对销售的影响。从需求中识别出事实,从决策主题确定的情况下,选择或设计反映决策主体业务表。例如在商品主题中,以销售数据为事实表。确定维,确定影响事实的各种因素,对销售业务的维一般的包括商店,地区,部门,城市,时间,商品等。确定数据汇总的水平,存在于数据仓库中的数据包括汇总的数据。数据仓库中对数据不同粒度的综合形成了多层次的数据结构。例如对于时间维,可以用年月 日 不同水平进行汇总。设计事实表和维表,设计事实表和维表的属性,再事实表中应该记录哪些属性是有维表的数量来决定的,一般来说,与事实表相关的维表的数量应该适中,太少的维表会影响查询

29、的质量,用户得不到需要的数据,太多的数据会影响查询的速度。11. 在数据仓库中为什么考虑数据的粒度层次划分?答: 所谓的粒度是指数据仓库宗数据单元的详细程度和级别,数据越详细,粒度越小,层次级别九月低;数据综合度越高,粒度越大,层次级别就越高。在传统事务处理系统中,对数据的处理,操作都是再详细数据级别上的,即最低的粒度。但是数据仓库环境中主要是分析处理,粒度的划分键直接影响数据仓库中数据量以及所适合的查询类型。一般需要将数据划分为详细数据,轻度综合,高度综合三级或更多及粒度。不同粒度级别的数据用于不同类型的分析处理。力度的划分是数据仓库设计工作的一项重要内容,粒度划分是否适当影响数据仓库性能的

30、一个重要方面。12. 数据仓库的记录系统包括什么内容,举例说明?答:数据仓库中的数据来源与多个已经存在的事务处理系统外部系统,由于各个原系统的数据是面向应用的,不能完整地描述企业中的主题域,并且多个数据源的数据存在者许多不一致,因此要从数据仓库的概念模型出发,结合主题的多个表的关系模式,需要确定现有系统的哪些数据能较好地适应数据的需求。这就要求选择最完整的、最及时的、最准确的、最接近外部实体源的数据作为记录系统,同时这些数据所在的表的关系模式接近于构成主体的多个标的关系模式。记录系统的定义要记入数据仓库的元数据。13、什么是物理模型?数据仓库的物理模型设计包括哪些工作?答:物理模型就是逻辑模型

31、在计算机中的物理结构,其中包括存储结构和存取方法;数据仓库的物理模型设计的工作包括:估计存储容量、确定数据的存储计划、确定索引策略、确定数据存放位置和确定存储分配。14、为什么数据仓库物理模型设计中要建立汇总计划和确定数据分区方案?答:如果数据仓库只存储最小粒度的数据,每次查询遍历所有的明细记录,然后生成汇总信息,这会造成很大的开销,因此要建立汇总计划;分区可以将表分解成易于管理的小表,对事实表的分区医保采用垂直分区或水平分区,这样使得大表被分成小表,因此要建立分区方案。16. 概念模型: E-R 图;逻辑模型:星型模型物理模型:存储结构、索引、数据存放位置、存储分配。17. (1)位索引技术

32、:Bit-Wise索引技术; B-Tree 索引技术(2)表示技术(3)广义索引18. 答: 1、 B-Tree 只适合于高基数字段,但对于低基数字段毫无价值。2、B-Tree 索引需占一定的空间和时间,增加了在数据仓库中构造和维护索引的代价。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 6 页,共 10 页7 3、数据仓库应用中常常是复杂的查询,并经常带有分组及聚合条件,此时B-Tree 索引往往无能为力。19、数据仓库中采用标识技术有什么好处。答:使用标准的数据库技术来储存数据仓库是非常昂贵的。较好的替代方法是用基于标识的技术来储存数据仓库。

33、一旦将基于标识的数据库存放在内存中,处理速度会得到很大的提高。数据越多,标识数据比标准的、基于记录的数据更有利。因为数据被大量压缩,所以整个数据库可以存放在内存中。可以索引所有的行和所有的列。21、说明数据仓库开发的四个阶段和12 个步骤答:如下图所示发:分为分析设计阶段;数据获取阶段;决策支持阶段;维护与评估阶段。22. 数据获取阶段包括数据抽取,数据转换,数据装载3 个步骤。数据抽取:数据抽取主要进行数据源的确认,确定数据抽取技术,确认数据抽取频率,按照时间要求抽取数据。数据转换:数据抽取得到的数据不能直接存入数据仓库的。数据转换工作包括:数据格式的修改,字段的解码,单个字段的分离,信息的

34、合并,变量单位的转化,时间的转化,数据汇总等。数据装载:数据装载包括初始装载,增量装载,完全刷新。23. 数据仓库的简历就是要达到决策支持的目的。决策支持阶段包括信息查询和知识探索两个步骤。信息查询:信息查询者使用数据仓库发现目前存在的问题。为适应信息查询者的要求,数据仓库一般采用如下的方法提高信息查询效率:创建数据陈列,预连接表格,预聚集数据,聚类数据。知识探索:只是探索者使用数据仓库能对发现的问题找出原因。24. 维护与评估阶段包括数据仓库增长,数据仓库维护,数据仓库评价。数据仓库增长:数据仓库建立以后,随着数据用户的不断增加,时间的曾增长,用户查询需求更多,数据会迅速增长。数据仓库维护:

35、数据仓库维护包括适应数据仓库增长的维护和正常系统维护两类。数据仓库评估:数据仓库评估包括系统性能评定,投资回报分析,数据质量评估。25. 概括说明“概念模型、逻辑模型、物理模型”分别是什么样的数据模型?答:将需求分析过程中得到的用户需求抽象为计算机表示的信息结构,即概念模型。逻辑模型是由概念模型进一步转化成计算机支持的数据模型。物理模型是逻辑模型设计的数据模型适应应用要求在计算机中的存储结构和存取方法。28. 当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时,其图解就像多个雪花连接在一起,故称雪花模型。雪花模型是对星型模型的扩展。它对星型模型的维表进一步层次化,原有的

36、各维表可能被扩展为小的事实表,形成一些局部的 层次 区域,这些被分解的表都连接到主维度表而不是事实表。管理大量数据,数据的高效装入和数据压缩,存储介质的管理,元数据的管理,数据仓库语言,高效索引,多维数据仓库和数据管理第五章作业1 数据仓库的两类用户有什么本质的不同?P96 数据仓库的用户有两类:信息使用者和探索者。信息使用者是使用数据仓库的大量用户,信息使用者以一种可以预测的、重复性的方式使用数据仓库平台。探索者完全不同于信息使用者,他们有一个完全不可预测的、非重复性的数据使用模式。2 数据仓库的信息使用者与数据库的信息使用者有什么不同?数据库的信息使用者主要关心当前某一个时间段内的数据,而

37、数据仓库的信息使用者关心企业从过去某一时点( 如开始应用数据仓库的时点 ) 到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。3. 1 非规格化规范化的作用是产生一种完全没有数据冗余的设计方法。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 7 页,共 10 页8 但是,有时在数据仓库设计中引入一些有限的数据冗余来提高数据访问效果。2 创建数据阵列创建数据阵列,将相关类型的数据( 如: 1 月、2 月、 3 月等月份中的数据) 存储在一起,提高访问效果。3 预连接表格一个公用键和共同使用的数据将表格合并在一起。

38、共享一个公用键,可以将多个表格合并到一个物理表格中。这样做可以很大程度的提高数据访问效率。4 预聚集数据根据“滚动概括”结构来组织数据。当数据被输入到数据仓库中时,以每小时为基础存储数据。在这一天结束时,以每天为基础存储累加每小时的数据。在一周结束时,以每周为基础存储累加每天的数据。月末时,则以每月为基础存储累加每周的数据。5 聚类数据将不同类型的数据记录放置在相同的物理位置。这为用户查看这些记录,可以在同一地点找到它们,提高查询效率。6 压缩数据压缩可以使可读取的数据量极大。定期净化数据定期删除数据仓库中不需要的数据,可以为每个用户提高性能。7 合并查询如果查询定期发生,那么可以通过把这些查

39、询合并到同一个表格中,从而节省大量资源。4. 增加一些数据冗余,相当于增加了某些相同的数据,这些数据往往是我们很需要的或者是经常被使用的,由于这些数据所占总量的比例增加,所以被访问的概率增加,从而减少了查询时间,提高了查询速度。5. 聚类数据:基于产生共同信息,将不同类型的数据记录放置在相同的物理位置。聚集数据:即概括数据,相同的商业维度和指标存储数据。6. 合并查询:把定期的一些查询合并到同一个表格中,来节省大量资源,达到扫描数据仓库表格的次数最小化。7. 探索者所作的工作有哪些?答:探索者查看治疗和历史记录,在多数情况下,探索者考虑数据不同类型和数据具值之间的关系。探索者要做的工作概括分析

40、,抽取、建模和分类。8. 数据仓库的探索者的工作与数据库的数据挖掘者的工作有什么不同?答:数据仓库的探索者是寻找不平常的且有用的商业运作模型的用户群,探索者查看详细的资料和历史记录,他们要做的的工作有概括分析、抽取、建模和分类;而数据库的数据挖掘者是那些对数据库中数据做出归纳和分析的专业人士,他们从数据库的数据中提炼出有用的信息和一些数据的客观规律。9. 说明企业需要哪些战略信息与实现方法。答:企业需要的战略信息有:销量最好的产品名单、出现问题的地区、查找出现问题的原因、对比其他的数据(横向钻取)、显示最大利润以及一些警告信息。实现方法有:查询与报表决策支持、多维分析和原因分析和预测未来。11

41、. 数据库是面向事务的设计,数据仓库是面向主题设计的。数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。12. 说明如何利用数据仓库发现问题并找出产生问题的原因答:主要是通过三个步骤来完成的:概括分析,抽取,建模。概括分析是第一步。分析数据的完整性和准确性。抽取是通过概括分析,所学数据的轮廓已经基本显示出来。数据抽取就是将数据仓库中抽取制定的数据并组织起来,进一步分析而不影响数据仓库的正常工作。最后一步是建模,通过以上两步的得到的数据信息进行建模从而进一步分析数据,达到发现问题及其问题的原因。13.

42、 说明如何利用数据仓库来进行预测答:就是建立相应的预测模型,利用历史数据建立回归方程。一般的预测模型有多元回归模型、三次平滑预测模型、生长曲线预测模型。除了预测模型外,采用聚类模型或分类模型也能达到一定的预测效果。14. 脏数据是指在数据源中抽取、转换和装载到数据仓库的过程中出现的多余数据和无用数据。产生脏数据的途径:1,开始时定义了一些精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 8 页,共 10 页9 多余的数据或由于一些不合适的转换规则在转换过程中产生的无用数据。2,来自不同数据源的数据在数据结构、数据编码、数据定义等方面是不兼容的,在集成

43、这些数据时,未对所有不同情况的数据都转成同意形式,产生遗漏或用了不匹配的转化方法而产生的数据。3,输入的数据已经过期。由于工作业务的改变,某些前期业务的数据已经过期,仍遗留在数据仓库中而造成的过期无用数据。4,用户需求的改变或数据质量有了新的要求时,那些没有适应改变要求的数据成了无用的数据。15. 清理脏数据的方法有:1,检查抽取数据的定义和数据转换规则的正确性,对那些不合适的定义和规则所造成的脏数据进行清理。2,在对多个数据源进行集成时,必须对所有不同结构、不同编码、不同定义的数据,严格按照同意格式转换后再集成,清楚那些遗留或不匹配方法产生的脏数据。3 对过期数据,在形成历史数据后,根据这种

44、数据量的大小来决定是否需要进行重新整理。17. 企业基本情况:18. 沃尔玛一直是 Teradata 的大客户,该公司的 Teradata 装机是全球最大的数据仓库之一,并且在该公司与各家供应商的数据共享网络(称为“零售链”)中发挥着重要作用。现在还不清楚惠普的胜利对 Teradata 会产生什么影响,看起来,沃尔玛不大可能一下子全部放弃在 Teradata 方面的投资,不过,惠普公司在数据仓库方面的任何获胜都会抢走 Teradata 的潜在业务。至周三上午为止,惠普和沃尔玛的官方都没有立即发布评论。19. 决策支持系统 (decision support system ,简称 dss) 是辅

45、助决策者通过数据、模型和知识,以人机交互方式进行半结构化或非结构化决策的计算机应用系统。它是管理信息系统(mis) 向更高一级发展而产生的先进信息管理系统。它为决策者提供分析问题、建立模型、模拟决策过程和方案的环境,调用各种信息资源和分析工具,帮助决策者提高决策水平和质量。决策支持系统, 是以管理科学、运筹学、控制论、和行为科学为基础,以计算机技术、仿真技术和信息技术为手段,针对半结构化的决策问题,支持决策活动的具有智能作用的人机系统。该系统能够为决策者提供所需的数据、信息和背景资料,帮助明确决策目标和进行问题的识别,建立或修改决策模型,提供各种备选方案,并且对各种方案进行评价和俦优选,通过人

46、机交互功能进行分析、比较和判断,为正确的决策提供必要的支持。DSS的概念是在20 世纪 70 年代提出的,并在80 年代获得发展。它的产生原因有:传统的MIS 没有给企业带来巨大的效益,人在管理中的积极作用要得到发挥;人们对信息处理规律认识提高,面对不断变化的环境,要求更高层次的系统来直接支持决策;计算机应用技术的发展为DSS的发展提供了物质基础。第六章作业1. 数据挖掘与知识发现两个概念有什么不同?P1162. 知识发现过程由哪三部分组成?每部分的工作是什么?P116 3. 数据挖掘的对象有哪些?他们各自的特点是什么?P118 4.P1205. 聚类是指在没有类的数据中,按“距离”概念聚集成

47、若干类。在同一类别中,个体之间的距离较小,而不同类别上的个体之间的距离偏大。分类是在聚类的基础上,对已确定的类找出该类别的概念描述,它代表了这类数据的整体信息。6. 当发生有丢失的数据、观察不到的数据,隐藏的数据、录入过程中发生错误的数据等情况时,即产生了不完全数据。7 两个变量 X和 Y 的采样,其中X 是独立变量,总有观测值;Y 是响应变量,可能涉及丢失值。以Y=?代表丢失值,以(X=i ,Y=?)代表不完全的记录。丢失数据模式分别取决于Y=?的概率是否依赖于Y与 X的状态。如果这一概率依赖于X但不依赖于Y,则认为数据是随机丢失的。8 两个变量X和 Y的采样,其中X 是独立变量,总有观测值

48、;Y是响应变量,可能涉及丢失值。以Y=?代表丢失值,以(X=i ,Y=?)代表不完全的记录。丢失数据模式分别取决于Y=?的概率是否依赖于Y与 X的状态。如果Y=?的概率既不依赖于Y 也不依赖于X的状态,则认为数据是完全随机丢失的。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 9 页,共 10 页10 9那种丢失数据的模式可以忽的?答: 丢失数据模式分类取决于Y=?的概率是否依赖于Y与 X的状态。如果这一概率依赖于X但是不依赖于Y , 则认为数据是随时丢失 (Missing at Random); 如果 Y=?的概率既不依赖于Y 也不依赖于X的状态

49、,则认为数据时完全丢失的(Missing Completely at Random) 。对于数据随时丢失与完全丢失分两种情况,如果数据挖掘方法不受影响,那么丢失数据的模式是可以忽略的。但是 Y=?的概率即依赖于Y也依赖于 X时,则丢失数据的模式是不可忽略的。10 那种丢失数据的模式是不可以忽略的?答: 丢失数据模式分类取决于Y=?的概率是否依赖于Y与 X的状态。如果这一概率赖于X 但是不依赖于Y , 则认为数据是随时丢失 (Missing at Random); 如果 Y=?的概率既不依赖于Y 也不依赖于X的状态,则认为数据时完全丢失的(Missing Completely at Random

50、) 。对于数据随时丢失与完全丢失分两种情况,如果数据挖掘方法不受影响,那么丢失数据的模式是可以忽略的。但是 Y=?的概率即依赖于Y也依赖于 X时,则丢失数据的模式是不可忽略的。11、处理丢失数据的方法有哪些?答:处理丢失数据的方法有:基于已知数据的方法、基于猜测的方法、基于模型的方法、基于贝叶斯理论的方法和基于决策树的方法。12、数据浓缩包括哪两方面?答:数据浓缩包括属性约简和元组压缩两个方面。13 属性约简的原则是保持数据库中分类关系不变。14 属性约简一般采用:粗糙集方法或信息论方法。15 元组压缩有:相同元组(记录)合并;利用概念树进行归并;对元组的聚类16、如何利用概念树进行元组的压缩

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 高考资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁