《数据仓库复习题.doc》由会员分享,可在线阅读,更多相关《数据仓库复习题.doc(7页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、如有侵权,请联系网站删除,仅供学习与交流数据仓库复习题【精品文档】第 7 页第一章 概述1.数据挖掘的定义?(书P2,PPT_P8)从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。2.数据挖掘的源是否必须是数据仓库的数据?可以有哪些来源?(PPT_P14)关系数据库、数据仓库、事务数据库、高级数据等3.数据挖掘的常用方法?(P4、PPT_P29)聚类分析、决策树、人工神经网络、粗糙集、关联规则挖掘、统计分析等4.数据挖掘的过程包括哪些步骤,每一步具体包括哪些内容?(书P2-3,PPT_P17-19)确定业务对象、数据准备
2、、数据挖掘、结果分析与知识同化。5.数据挖掘与数据仓库的关系(联系和区别)?书P6-7,PPT_P45-46联系:1,数据仓库为数据挖掘提供了更好的,更广泛的数据源2,数据仓库韦数据挖掘提供了新的支持平台。3,数据仓库为更好地使用数据挖掘工具提供了方便4,数据挖掘对数据仓库提供了更好的决策支持。5,数据挖掘对数据仓库的数据组织提出了更高的要求6,数据挖掘还为数据仓库提供了广泛的技术支持区别:数据仓库是一种存储技术,它包含大量的历史数据、当前的详细数据以及综合数据,它能为不同用户的不同决策需要提供所需的数据和信息。数据挖掘是从人工智能机器学习中发展起来的,它研究各种方法和技术,从大量的数据中挖掘
3、出有用的信息和知识。第二章 数据仓库1.数据仓库的定义数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策定制过程。2.数据仓库数据的四大基本特征:面向主题的、集成的、不可更新的、随时间变化的。3.数据仓库体系结构有三个独立的数据层次:信息获取层、信息存储层、信息传递层。4.粒度的定义?它对数据仓库有什么影响?(1)是指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度越小,细节程度越高,综合程度越低,回答查询的种类就越多。(2)影响存放在数据仓库中的数据量大小;影响数据仓库所能回答查询问题的细节程度。5.在数据仓库中,数据按照粒度从小到大可分为四个级
4、别:早期细节级、当前细节级、轻度细节级和高度细节级。6.数据分割的标准:可按日期、地域、业务领域、或按多个分割标准的组合,但一般包括日期项。7.数据仓库设计中,一般存在着三级数据模型:概念数据模型、逻辑数据模型、物理数据模型8.数据仓库设计步骤(1)概念模型设计(2)技术准备工作(3)逻辑模型设计(4)物理模型设计(5)数据仓库的生成(6)数据仓库的使用和维护9.数据装入时,并不是一次就将准备装入的数据全部装入数据仓库,而是按照逻辑模型设计中所确定和分析的主题域,先装入并生成某一主题域。10.建立数据仓库的步骤并不是一成不变的,但最终应该满足用户的分析需求。第三章 联机分析处理技术1.联机事务
5、处理与联机分析处理的区别?联机事务处理(OLTP)作为数据管理手段,主要用于事务处理,但它对分析处理一直不能令人满意。联机分析处理(OLAP)是决策支持系统的有机组成部分,利用存储在数据仓库中的数据完成各种分析操作,并以直观易懂的形式将分析结果返回给决策分析人员。2.OLAP的主要特征快速性、可分析性、多维性、信息性。3.钻取Drill/Roll up,Drill down改变维的层次,变换分析的粒度。分向上钻取和向下钻取。向上钻取:在某一维上将低层次的细节数据概括到高层的汇总数据,或者减少维数。向下钻取:从汇总数据深入到细节数据进行观察或增加新维。4.ROLAP是基于关系数据库的OLAP实现
6、,而MOLAP是基于多维数据结构组织的OLAP实现。5.OLAP根据其数据存储格式可分为三类:关系OLAP(ROLAP)、多维OLAP(MOLAP)和混合OLAP(HOLAP)。6.雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。7.OLAP的衡量标准(1)透明性准则:OLAP在体系结构中的位置和数据源对用户是透明的。(2)动态的稀疏矩阵处理准则:对任意给定的稀疏矩阵,存在且仅存在一个最优的物理视图。(3)维的等同性准则:每一数据维在数据结构和操作能力上都是等同的。第四章 数据预处理1.数据预处理的方法数据清洗、数据集成、数据变换、数据规约等。2.分箱方法统一权重、统一区间、
7、最小熵、用户自定义区间。3.数据平滑处理方法按平均值、按边界值、按中值4.数据规范化定义?规范化的常用方法有哪些?(1)将数据按比例缩放,使之落入一个特定的区域,如0,1,称为规范化/标准化。(2)常用方法:最小-最大规范化、零-均值规范化、小数定标规范化。5.数据规约从大数据集中得到其规约表示小数据集规约的目的是减少原始数据量;可以在小数据集上得到与原始数据相同的挖掘结果。6. 下面是一个超市某种商品连续24个月的销售数据(百元): 21,16,19,24,27,23,22,21,20,17,16,20, 23,22,18,24,26,25,20,26,23,21,15,17使用统一权重、统
8、一区间和自定义区间方法对数据分箱, 并对分箱后的数据采用平均值、边界值或中值等方法进行平滑。解:15,16,16,17,17,18,19,20,20,20,21,21,21,22,22,23,23,23,2,24,25,26,26,27统一权重:设权重为6,表示每箱6个记录,分四箱:箱1: 15,16,16,17,17,18箱2:19,20,20,20,21,21箱3: 21,22,22,23,23,23箱4: 24,24,25,26,26,27边界:箱1: 15,15,15,18,18,18箱2:19,19,19,21,21,21箱3: 21,21,21,23,23,23箱4: 24,24,
9、24,27,27,27统一区间:每个箱子宽度为(27-15)/4=3,区间15,18)、18,21)、21,24)、24,27):箱1: 15,16,16,17,17箱2:18,19,20,20,20箱3: 21,21,21,22,22,23,23,23箱4: 24,24,25,26,26,27中值:箱1: 16,16,16,16,16箱2:20,20,20,20,20箱3: 22,22,22,22,22,22,22,22箱4: 25.5, 25.5, 25.5, 25.5, 25.5, 25.5第五章 关联规则方法1.关联规则挖掘的任务?找到事务数据库D中支持度和置信度分别满足用户指定的最小
10、支持度min_sup和最小置信度min_con的规则。2.关联规则挖掘问题分哪两个步骤?(1)找出D中所有的频繁项集;(2)从频繁项集中产生关联规则。3.Apriori性质:频繁项集的所有非空子集也都必须是频繁的;这是频繁项集的先验知识;可以减少候选频繁项集的数量。4.负边界:负边界中的项集是非频繁的,但每个项集的所有子集都是频繁的。5.数据库如下图所示,如果设定最小支持度s=40%,置信度c=70%,计算该数据库中的频繁项集和负边界,以及由频繁项集产生的规则。TID项目列表T1I1,I3,I4T2I2,I3,I5T3I1,I2,I3,I5T4I2,I5解: S=40%候选1-项集计数S(%)
11、频繁1-项集L1i1250i1i2375i2i3375i3i4125i5375i5候选2-项集计数S(%)频繁2-项集L2i1,i2125i1,i3250i1,i3i1,i5125i2,i3250i2,i3375i2,i5i3,i5250i3,i5候选3-项集计数S(%)频繁3-项集L3i2,i3,i5250i2,i3,i频繁项集:L1,L2,L3,即i1、i2、i3、i5、i1,i3、i2,i3、i2,i5、i,i5、i2,i3,i5。负边界:i1,i2,i1,i5。置信度c=70%频繁项集产生的规则置信度强规则i1,i3i1i32/21ii3i3i12/3i2,i3i2i32/3i3i22
12、/3i2,i5i2i53/3i2i5i5i23/3i5i2i3,i5i3i52/3i5i32/3i2,i3,i5i2,i3i52/2i2,i3i5i2,i5i32/3i3,i5i22/2i3,i5i2第六章 决策树方法1.决策树的基本概念:适用于离散值属性、连续值属性;采用自项向下的规约方法产生一个类似于流程图的树结构;在根节点和各内部节点上选择合适的描述属性,并且根据该属性的不同取值向下建立分枝。2.决策树的优点进行分类器设计时,决策树分类方法所需时间相对较少;决策树的分类模型是树型结构,简单直观,比较符合人类的理解方式;可以讲决策树中到达每个叶节点的路径转换为IFTHEN形式的分类规则,这
13、种形式更有利于理解。3.决策树剪枝决策树剪枝过程试图检测和去掉多余的分枝,以提高对未知类标号的数据进行分类时的准确性。第八章 人工神经网络方法1.神经网络直所以能胜任一些复杂的工作,是因为它有学习的能力。2.具有较好的泛华能力是神经网络设计的评价指标之一。3.BP神经网络的拓扑结构分为多个层次:输入层、隐含层、输出层。4.神经网络进行学习实际上就是学习其连接的权值。5.BP神经网络学习过程由信号的正向传播与误差的反响传播两个过程组成。6.在线训练:每处理一个训练实例,就更新一次权重。7.离线训练:把所有训练实例都处理一遍之后,再更新权重。8.利用梯度下降法更新权重易于陷入局部极小值,从而无法得
14、到最优解。9.BP神经网络的优点和缺点(1)BP神经网络的优点:u 抗噪性能好;u 既能处理连续数据,也能处理类别型数据;u 在多个领域有成功应用;u 既适合有监督学习,也适合无监督学习;u 具有较好的泛化能力;u 具有较好的逼近非线性映射的能力;u 具有较好的容错性。(2)BP神经网络的缺点:u 缺乏可解释性;u 可能无法找到优解;u 可能存在过学习问题(overfitting);u 收敛速度慢。第九章 聚类分析1.聚类分析定义把一个给定的数据对象集合分成不同的簇;在同一个簇(或类)中,对象之间具有相似性;不同簇(或类)的对象之间具有较高的相宜性。2.聚类分析方法通常分为哪些方法?基于划分方
15、法;基于层次的方法;基于密度的方法;基于网格的方法;谱聚类方法3.数据挖掘技术对聚类分析的要求有哪几个方面?(1)可伸缩性(适用于增长的大数据集);(2)处理不同类型属性的能力(支持多种类型属性的数据集);(3)发现任意形状聚类的能力(除了球形聚类外,能划分出任意形状聚类);(4)减小对先验知识和用户自定义参数的依赖性;(5)处理噪声数据的能力(对孤立点、缺失值。错误数据等噪声数据的抗干扰性);(6)可解释性和实用性(降维,可视化显示)。4.K平均方法与K中心点方法比较(1)当存在噪声和离群点时,K中心点方法比K均值方法更加鲁棒。(2)K中心点方法的执行代价比K平均方法要高。(3)两种方法都要
16、用户指定簇的数目K。5.聚类分析中最常用的距离有欧几里得距离,曼哈坦距离、明可夫斯基距离等。6.基于划分的聚类算法有K中心点方法和K平均方法等单选题举例1.决策树中不包含以下哪种结点(C)A.根结点B.内部结点C.外部结点D.叶结点2.某超市研究销售记录数据后发现,买啤酒的人很大概率也会买尿布,这种属于数据挖掘的哪类问题?(A)A.关联规则发现B.聚类C.分类D.自然语言处理3.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A.频繁模式挖掘B.分类和预测C.数据预处理D.数据流挖掘4.当不知道数据所带标签(类别)时,可以使用哪种技术促使带同类标签的数据与带其他标签的
17、数据相分离?(B)A.分类B.聚类C.关联分析D.决策树分析5.什么是KDD?(A)A.数据挖掘与知识发现B.领域知识发现C.文档知识发现D.动态知识发现判断题举例1.数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。2.数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。3.离群点可以是合法的数据对象或值。4.DSS主要是基于数据仓库,联机数据分析和数据挖掘技术的应用。5.OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继数据库技术发展滞后迅猛发展起来的一种新技术。6.离散属性总是具有有限个值。7.关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。8.利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。9.先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。10.分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。11.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果越差。12.聚类分析可以看作是一种非监督的分类。13.K均值是一种划分聚类算法,簇的个数由算法自动地确定。14.等宽分箱法使每个箱子的取值区间相同。15.啤酒与尿布的故事是聚类分析的典型实例。16.等深分箱法使每个箱子的记录个数相同。17.决策树通常用于分类与预测。