《东软商务智能数据挖掘考试题.pdf》由会员分享,可在线阅读,更多相关《东软商务智能数据挖掘考试题.pdf(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1 商务智能复习题一、名词解释1.数据仓库:是一种新的数据处理体系结构,是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,为企业决策支持系统提供所需的集成信息。2.OLAP:OLAP 是在 OLTP的基础上发展起来的,以数据仓库为基础的数据分析处理,是共享多维信息的快速分析,是被专门设计用于支持复杂的分析操作,侧重对分析人员和高层管理人员的决策支持。3.粒度:指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答查询问题的细节程度。4.数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取
2、隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。5.OLTP:OLTP 为联机事务处理的缩写,OLAP 是联机分析处理的缩写。前者是以数据库为基础的,面对的是操作人员和低层管理人员,对基本数据进行查询和增、删、改等处理。6.ROLAP:是基于关系数据库存储方式的,在这种结构中,多维数据被映像成二维关系表,通常采用星型或雪花型架构,由一个事实表和多个维度表构成。7.聚类:是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。8.决策树:是用样本的属性作为结点,用属性的取值作为分支的树结构。它是分
3、类规则挖掘的典型方法,可用于对新样本进行分类。9.频繁项集:指满足最小支持度的项集,是挖掘关联规则的基本条件之一。10.支持度:规则 AB的支持度指的是所有事件中A与 B同地发生的的概率,即P(AB),是 AB同时发生的次数与事件总次数之比。支持度是对关联规则重要性的衡量。11.可信度:规则 AB的可信度指的是包含A项集的同时也包含B项集的条件概率P(B|A),是 AB同时发生的次数与A发生的所有次数之比。可信度是对关联规则的准确度的衡量。12.关联规则:同时满足最小支持度阈值和最小可信度阈值的规则称之为关联规则。二、综合题1.何谓数据挖掘?它有哪些方面的 功能?数据挖掘的功能包括:概念描述、
4、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等。2.何谓数据仓库?为什么要建立数据仓库?2 数据仓库是一种新的数据处理体系结构,是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合3.列举操作型数据 与分析型数据 的主要区别。操作型数据分析型数据当前的、细节的历史的、综合的面向应用、事务驱动面向分析、分析驱动频繁增、删、改几乎不更新,定期追加操作需求事先知道分析需求事先不知道生命周期符合SDLC 完全不同的生命周期对性能要求高对性能要求宽松一次操作数据量小一次操作数据量大支持日常事务操作支持管理决策需求4.何谓 OLTP和 OLAP?它们的主要
5、异同有哪些?OLTP即联机事务处理,是以传统数据库为基础、面向操作人员和低层管理人员、对基本数据进行查询和增、删、改等的日常事务处理。OLAP 即联机分析处理,是在 OLTP 基础上发展起来的、以数据仓库基础上的、面向高层管理人员和专业分析人员、为企业决策支持服务。OLTP和 OLAP 的主要区别如下表:OLTP OLAP 数据库数据数据库或数据仓库数据细节性数据综合性数据当前数据历史数据经常更新不更新,但周期性刷新一次性处理的数据量小一次处理的数据量大对响应时间要求高响应时间合理用户数量大用户数据相对较少面向操作人员,支持日常操作面向决策人员,支持管理需要面向应用,事务驱动面向分析,分析驱动
6、5.何谓粒度?它对数据仓库有什么影响?按粒度组织数据 的方式有哪些?粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答查询问题的细节程度。6.简述数据仓库 设计的 三级模型 及其基本内容。概念模型设计是在较高的抽象层次上的设计,其主要内容包括:界定系统边界和确定主要的主题域。逻辑模型设计的主要内容包括:分析主题域、确定粒度层次划分、确定数据分割策略、定义关系模式、定义记录系统。物理数据模型设计的主要内容包括:确定数据存储结构、确定数据存放位置、3 确定存储分配以及确定索引策略等。提高性能的主要措施有划分粒度、数据分割、合并
7、表、建立数据序列、引入冗余、生成导出数据、建立广义索引等。7.在数据挖掘之前为什么要对原始数据进行预处理?原始业务数据来自多个数据库或数据仓库,它们的结构和规则可能是不同的,这将导致原始数据非常的杂乱、不可用,即使在同一个数据库中,也可能存在重复的和不完整的数据信息,为了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据的预处理。为数据挖掘算法提供完整、干净、准确、有针对性的数据,减少算法的计算量,提高挖掘效率和准确程度。8.简述数据 预处理方法 和内容。数据清洗:包括填充空缺值,识别孤立点,去掉噪声和无关数据。数据集成:将多个数据源中的数据结合起来存放在一个一致的数据存
8、储中。需要注意不同数据源的数据匹配问题、数值冲突问题和冗余问题等。数据变换:将原始数据转换成为适合数据挖掘的形式。包括对数据的汇总、聚集、概化、规范化,还可能需要进行属性的重构。数据归约:缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。9.简述数据清理 的基本内容。1.聚类 2.空值处理.3.冗余和重复10.何谓聚类?它与分类有什么异同?聚类是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。聚类与分类不同,聚类要划分的类是未知的,分类则可按已知规则进行;聚类是一种无
9、指导学习,它不依赖预先定义的类和带类标号的训练实例,属于观察式学习,分类则属于有指导的学习,是示例式学习。11.设某事务项集构成如下表,填空完成其中支持度和置信度的计算。事务 ID 项集L2 支持度%规则置信度%T1 A,D A,B 33.3 AB50 T2 D,E A,C 33.3 CA 60 T3 A,C,E A,D 44.4 AD 66.7 T4 A,B,D,E B,D 33.3 BD 75 T5 A,B,C C,D 33.3 CD 60 T6 A,B,D D,E 33.3 DE 43 T7 A,C,D,T8 C,D,E T9 B,C,D 4 12.简述 K-中心点 算法的输入、输出及聚类过程(流程)。输入:结果簇的数目k,包含 n 个对象的数据集输出:k 个簇,使得所有对象与其最近中心点的相异度总和最小。流程:随机选择 k 个对象作为初始中心点;计算其它对象与这k 个中心的距离,然后把每个对象归入离它“最近”的簇;随机地选择一个非中心点对象Orandom,并计算用 Orandom代替 Oj 的总代价 S;如果 S0,则用 Orandom代替 Oj,形成新的 k 个中心点集合;重复迭代第 3、4 步,直到中心点不变为止。