《2022年数据仓库与数据挖掘课后习题答案.docx》由会员分享,可在线阅读,更多相关《2022年数据仓库与数据挖掘课后习题答案.docx(11页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选学习资料 - - - - - - - - - 多练出技巧 巧思出硕果数据仓库与数据挖掘第一章 课后习题一:填空题1)数据库中储备的都是 数据 ,而数据仓库中的数据都是一些历史的、存档的、归纳的、计算的数据;2)数据仓库中的数据分为四个级别:早起细节级、 当前细节级、 轻度综合级、 高度综合级 ;3)数据源是数据仓库系统的基础,是整个系统的数据源泉,通常包括 业务数据和历史数据;4)元数据是 “ 关于数据的数据”;依据元数据用途的不同将数据仓库的元数据分为 技术元数据和业务元数据两类;5)数据处理通常分为两大类:联机事务处理和联机事务分析6)Fayyad过程模型主要有 数据预备,数据挖掘和结
2、果分析 三个主要部分组成;7)假如从整体上看数据挖掘技术,可以将其分为 统计分析类、学问发觉类和其他类型 的数据挖掘技术三大类;8)那些与数据的一般行为或模型不一样的数据对象称做孤立点 ;web9)依据挖掘对象的不同,将Web 数据挖掘分为三类:web 内容挖掘、 web 结构挖掘和使用挖掘;10)查询型工具、 分析型工具盒挖掘型工具结合在一起构成了数据仓库系统的工具层,它们各自的侧重点不同,因此适用范畴和针对的用户也不相同;二:简答题1)什么是数据仓库?数据仓库的特点主要有哪些?数据仓库是一个面对主题的、集成的、相对稳固的、反映历史变化的数据集合,用于支持治理决策;主要特点:面对主题组织的、
3、集成的、稳固的、随时间不断变化的、数据的集合性、支持决策作用2)简述数据挖掘的技术定义;从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据名师归纳总结 - - - - - - -第 1 页,共 7 页精选学习资料 - - - - - - - - - 多练出技巧 巧思出硕果中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和学问的过程;3)什么是业务元数据?业务元数据从业务角度描述了数据仓库中的数据,它供应了介于使用者和实际系统之间 的语义层,使得不懂运算机技术的业务人员也能够读懂数据仓库中的数据 4)简述数据挖掘与传统分析方法的区分;本质区分是:数据挖掘是在没有
4、明确假设的前提下去挖掘信息、发觉学问;数据挖掘所 得到的信息应具有从前未知、有效和有用三个特点;4 种体系结构的异同点及其适用性;5)简述数据仓库 a.虚拟的数据仓库体系结构 b.单独的数据仓库体系结构 c.单独的数据集市体系结构 d.分布式数据仓库结构其次章 课后习题 一:填空题 1)模型是对 现实世界 进行抽象的工具;在信息治理中需要将现实世界的事物及其有关特点转换为 信息世界的数据才能对信息进行处理与治理,这就需要依靠数据模型作为这种转换的桥梁;2)数据仓库模型设计包括概念、规律、物理、元数据模型设计等内容;3)现实世界 是存在于现实之中的各种客观事物;概念世界 是现实情形在人们头脑中的
5、反应;规律世界 是人们为将存在于自己头脑中的概念模型转换到运算机中的实际的物理储备过程中的一个运算机规律表示模式;储备模式;运算机世界 就是指现实世界中的事物在运算机系统中的实际名师归纳总结 - - - - - - -第 2 页,共 7 页精选学习资料 - - - - - - - - - 多练出技巧 巧思出硕果4)数据仓库设计的概念模型与业务数据处理系统的三级数据模型仍旧具有肯定的差距;表 现在 数据类型的差异、数据的历史变迁性、数据概况性5)数据仓库项目需求的收集与分析需求要从历史数据与用户需求两个方面同时着手,采纳 数据驱动 +用户驱动 的理念;6)所谓主题,是指 在较高程度上将业务数据进
6、行综合,归类和分析利用的一个抽象概念,每个主题基本对立业务的一个分析领域;7)多维数据模型较为普遍地采纳 星型模型、雪花模型 两种模式;8)设计集合模型时,第一需要考虑 用户的使用要求,其次要考虑 数据仓库的粒度模型和数 据的统计分析情形;9)分割是数据仓库规律设计中要解决的另一个重要问题,它的目的在于 提高效率 能为数据 仓库的物理实施供应设计依据;10)元数据依据使用情形,主要有技术元数据和业务元数据两类元数据;二:简答题1)简述概念模型设计主要完成哪些工作?界定系统边界、确定主要的主题域、细化分析详细内容 2)简述一个符合第三范式的关系必需具有的三个条件;A.每个属性的值唯独,不具有多义
7、性 B.每个非主属性必需完全依靠于整个主键 C.每个非主属性不能依靠于其他关系中的属性;3)简述确定粒度级别的步骤 A.估算 DASD B.运算储备空间、确定是否划分粒度;C.方案影响数据仓库的粒度划分 D.使用多重粒度 E.使用多种储备介质的空间量 F.挑选合适的粒度名师归纳总结 - - - - - - -第 3 页,共 7 页精选学习资料 - - - - - - - - - 多练出技巧 巧思出硕果G.只采纳概况数据 4)简述 CWM 五个功能层 对象模型层、基础层、资源层、分析层、治理层 5)数据仓库物理模型进行优化时可以考虑的解决方案有哪些?A.合并表与簇文件 B.建立数据序列 C.引入
8、冗余 ,反规范处理 D.表的物理分割分区 E.生成派出数据第三章 课后习题 一:填空题1)ETL过程主要包括三个部分:数据抽取、数据清洗与数据转换 以及数据的加载;2)ETL工作流模型包括 ETL概念模型和 ETL规律模型 两部分;3)触发器方式是普遍实行的一种增量抽取机制;该方式是依据抽取要求,在要被抽取的源 3 个触发器;表上建立 插入、修改和删除4)一般情形下,在一个 ETL流程中, 抽取操作 总是最先执行,加载操作 最终执行;5)数据质量问题既有可能来自于 数据源 ,又有可能来自于 ETL的实施过程 ;6)基本的多线程并行处理技术分为 3 种: 任务并行处理、数据并行处理和管道并行处理
9、;7)ETL 过程中数据质量问题分为四类:单数据源模式层问题、单数据源实例层问题、多数据源模式层问题、多数据源实例层;8)ETL过程可以被划分为两种类型:全量 ETL过程和增量 ETL过程 ;9)加载数据到目标数据仓库的两个基本方式是 刷新方式和更新方式;10)掌握“ 脏数据” 对数据仓库分析结果的影响程度,实行各种有效的措施对其进行处理,名师归纳总结 这一处理过程称为数据清洗;第 4 页,共 7 页- - - - - - -精选学习资料 - - - - - - - - - 多练出技巧 巧思出硕果二:简答题 1)如何保证 ETL过程中的数据质量?A.数据源端实施数据质量掌握:多数据源的异构问题
10、、数据丢失值得问题、相像重复记 录的问题 b.ETL 过程中实施数据质量掌握:数据抽取程序严格审核、准时监控数据源系统的变更、确定采信数据源、建立故障检测机制、建立数据审核机制 2)增量数据抽取中常用的捕捉变化数据的方法有哪几种?触发器方式、时间戳方式、全表删除插入方式、全表比对方式、日志表方式、系统日志 分析方式、系统日志分析方式;3)如何处理空缺数据?可以采纳忽视元组、用一个全局常量填充空缺值、用属性性平均值填充空缺值、使用与给定元组同类的全部样本的平均值填充空缺值、使用最可能的值填充空缺值、使用像 Baysian公式或判定树这样的基于推断的方法;4)如何处理噪声数据?分箱或聚类等方法处理
11、 5)简述数据加载操作;数据加载负责将经过前几步清洗和转换后的数据依据目标数据定义的表结构装入数据仓 库 6)在 ETL过程中会显现哪几类数据质量问题?分析其产生缘由;单数据源模式层次问题-缺少完整性约束,糟糕的模式设计单数据源实例层次问题-数据记录的错误多数据源模式层次问题 多数据源实例层次问题第四章 课后习题 一:填空题-异质的数据模型和模式设计-冗余、相互冲突或者不一样的数据名师归纳总结 1)OLAP系统依据其储备的数据储备格式可以分为关系 OLAP、多维 OLAP和混合 OLAP三种第 5 页,共 7 页- - - - - - -精选学习资料 - - - - - - - - - 多练出
12、技巧 巧思出硕果类型;2)对于拥有海量数据的数据仓库,B-Tree 索引技术显得并不敏捷,于是人们探寻新的索引技术,如 位图索引和标识符 来解决此问题;3)用户决策分析角度或决策分析动身点就是数据仓库中的 维度 ;4)度量 是多维数据集的核心值,是进行OLAP操作的用户所要观看分析的数据;5)上卷和下钻的深度与维所划分的层次相对应,上卷分析的细化程度越低,粒度度越大;下钻分析的细化程度越高,粒度越小;6)所谓的数据“ 上卷” 是指用户在数据仓库的应用中,从 同的层次进行概况处理;7)依据属性列的不同我们可以建立不同类型的索引列;较低层次 开头逐步将数据依据不对于基数高的可以考虑用标识索引,对于
13、基数值较低的就采纳与、或等位运算速度比较快的 位图索引 ;8)报表与图形 是 OLAP系统向用户呈现分析结果的两种主要方法;9)OLAP系统在详细实现是,假如将多维数据储备于 统;客户端 ,就可能呢产生“ 胖” 客户端系10)OLAP采纳多用户的三层 C/S 结构,它由 数据库、 OLAP服务器、 OLAP客户机及客户端 应用程序构成;二:简答题1)简述 OLAP的简明定义 FASMI;快速性、分析性、共享性、多维性、信息性 2)简述数据仓库与数据分析的关系;数据仓库供应数据源;数据分析供应分析方法;数据分析并非完全依靠于数据仓库第六章 课后习题 一:填空题名师归纳总结 1)常见的数据预处理方
14、法有数据清洗、数据集成、数据变换和数据归约;第 6 页,共 7 页- - - - - - -精选学习资料 - - - - - - - - - 多练出技巧 巧思出硕果2)数据清理处理列程通常包括 以及解决不一样问题;填补遗漏的数据值、平滑有噪声数据、识别或除去反常值,3)常用的分箱方法有平均值平滑或边界值平滑分箱;等;4)光滑是去掉数据中的噪声;光滑技术主要包括分箱、回来和聚类5)直观地,落在簇集之外的值视为离群点 ;二:简答题1)简述噪声的概念;噪声是被测量的变量的随机误差或方差;2)简述数据预处理的必要性;不完整性、含噪声、杂乱性 3)常用的填充丢失的值有哪些方法?忽视元组、人工填写、使用一个全局常量填充缺失值 4)常用的数据光滑技术有哪些?分箱、回来、聚类 5)简述分箱技术的概念;分箱方法通过考察数据的“ 近邻” 来光滑有序数据的值名师归纳总结 - - - - - - -第 7 页,共 7 页