《数据挖掘概念与技术》期末考试名词解释.docx

上传人:太** 文档编号:97879856 上传时间:2024-07-08 格式:DOCX 页数:5 大小:13.48KB
返回 下载 相关 举报
《数据挖掘概念与技术》期末考试名词解释.docx_第1页
第1页 / 共5页
《数据挖掘概念与技术》期末考试名词解释.docx_第2页
第2页 / 共5页
点击查看更多>>
资源描述

《《数据挖掘概念与技术》期末考试名词解释.docx》由会员分享,可在线阅读,更多相关《《数据挖掘概念与技术》期末考试名词解释.docx(5页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、数据仓库的概念及特点:数据仓库是一种为信息分析提供了良好的基 础并支持管理决策活动的分析环境,是面向主题的,集成的,稳定的, 不可更新的,随时间变化的,分层次的,多维的集成数据集合。特点: 1主题与面向主题;2数据的集成性;3数据的不可更新性;4数据的 时态性。为什么要建立数据仓库:为了使数据能够发挥其最佳效用, 更好的为用户服务,才要建立数据仓库。它可以从各信息源提取决策 需要的数据,加工后,存储到数据仓库中;并且可以提供用户的查询 和决策分析的依据。数据挖掘及其特点:DM是从大量的,不完全的,有噪声的,模糊的, 随机的应用数据中,提取隐含在其中的,人们事先不知道的,但又是 潜在有用的信息和

2、知识的过程。特点:1处理的数据规模十分庞大; 2由于用户不能形成精确地查询要求,因此需要靠数据挖掘技术来寻 找其可能感兴趣的东西;3DM对数据的迅速变化做出快速响应,以提 供决策支持信息;4DM中规则的发现基于统计规律,发现的规则不必 适合于所有数据,而且当达到某一阈值时,便认为有此规则;5DM既 要发现潜在规则还要管理和维护规则,随着新数据的不断加入,规则 需要不断更新。数据挖掘的基本过程,数据挖掘有几步?基本过程:1数据准备:本 阶段又可进一步细分成数据集成、数据选择和预分析。2挖掘:数据 挖掘处理器综合利用前面提到的多种数据挖掘方法分析数据。3表述: 与检验证型工具一样,数据挖掘将获取的

3、信息以便于用户理解和观察 的方式反映给用户,这是可以利用可视化工具。4评价:如果分析人 员对分析结果不满意,可以递归的执行上述三个过程,直到满意为止。 步骤:问题定义-发现信息-制定计划-采取行动-检测效果。比较数据仓库基本体系结构的特点:1两层:顶层:前端工具,底层 DW服务器;2实时监测数据源发生的变化,便于集成到DW。数据挖掘按任务分为描述和预测式数据挖掘两种。知识发现(数据挖掘)的基本过程:数据选择和预分析-挖掘(最主 要内容)-表述-评价。粒度的概念及其意义?粒度是指数据仓库的数据单位中保存数据的 细化或综合程度的级别。细化程度越高,粒度级别就越小。意义:数 据仓库开发中面临着的一个

4、单一设计问题就是粒度的确定的合理与 否影响存放数据仓库中的数据量大小,影响数据仓库所能回答的查询 类型。粒度的合理确定还直接影响其他方面的设计,所以要在数据量 的大小和详细程度之间做出权衡。元数据是关于数据的数据,是对数据的结构,内容,键码,索引等的 一种描述。是描述数据仓库内数据的结构和建立方法的数据。可按其 用途的不同分为技术元数据和商业元数据。什么是联机分析处理,有什么特性?联机分析(OLAP)是共享多维信 息的针对特定问题的联机数据。数据仓库的数据模型有哪些?并比较其不同点。数据仓库的数据模型 包括:星型数据模型、雪花型数据模型、星群型数据模型。其中星型 模型包括一个中央表(事实表)和

5、一系列的附表(维度表),附表环 绕中央表,并产生关系,但不关联。雪花型数据模型设计其附表(维 度表)被进一步规范化,分割出额外的表,产生的图形像雪花状。这 种形式易于维护并节省存储空间。但表之间的关联多,影响系统的性 能,其使用没有星型构架广泛。星群型架构的数据模型设计是多个主 表(事实表)共享附表(维度表),其是星型的集合。数据建模的主要内容:1必须回答紧迫的问题2必须有正确的事实表 3必须有正确的维表按最终用户的业务术语进行描述和表达4必须理 解数据仓库所影响的公司过程或影响数据仓库的公司过程5对于事 实表,应该有正确的“粒度” 6根据需要存储正确长度的公司历史数 据7以一种对于公司有意义

6、的方式来集成所有必要的数据8创建必要 的总结表9创建必要的索引10能够加载数据仓库数据库并使它以一 种适应的方式发挥作用。联机处理0LAP:联机分析是使分析人员、管理人员或执行人员能够 从多种角度对从原始数据中转化出来的,能够真正为用户所理解的, 并对真实反映企业数据特性的信息进行快速、一致、交互地存取,从 而获得对数据更深入了解的一类软件技术。体系结构:数据库(MDDB) DBMS (关系DBMS产生多维视图)分析程序(分析程序创建多维视图) 用户接口-用户。OLAP处理的特性:快速性,可分析性,多维性,信息性。OLAP按存储方式分为多维联机分析处理(MOLAP)关系型联机分析处 理(ROL

7、AP)混合型联机分析处理。MOLAP优势:性能好,响应速度快,专为OLAP所设计,支持高性能 的决策计算,复杂的跨维计算,多用户的读写操作,行级的计算。缺点:增加系统复杂度,增加系统培训与维护费用,在操作系统平台中, 受文件大小的限制,难以达到Tb级;需要进行预计算,不然可能导 致数据爆炸,无法支持维的动态变化,缺乏数据模型和数据访问的标 准。ROLAP优势:没有大小限制,现有的关系数据库的技术可以沿用。可 以通过SQL实现详细数据与概要数据的存储,现有关系型数据库已经 对OLAP做了很多优化,包括并行存储,并行查询,并行数据管理, 基于成本的查询优化,位图索引,SQL的OLAAP扩展等,大大

8、提高了 ROLAP的速度。缺点:一般对多维数据响应熟读慢,不支持有关预计 算的读写操作,SQL无法完成部分计算,即无法完成多行的计算,无 法完成维之间的计算。多维数据一般包括哪些内容,常用多数据分析方法:多维数据结构一 般包括超立方结构和多立方结构。常用的多维分析方法有:1切片2 切块3旋转、转轴4钻取数据预处理:由于数据极易受噪声数据、空缺数据和不一致数据的影 响,需要进行数据挖掘前的预处理。其形式有:数据清理、数据集成、 数据变换、数据归约。如何处理缺失值?1忽略元组;2人工填写空缺值;3使用一个全局变 量填充空缺值;4使用属性的平均值填充空缺值;5使用与给定元组 同一类的所有样本的平均值

9、;6使用最可能的值填充空缺值。数据变换就是将数据进行规范化和聚集。可用分享来去掉噪声数据。 最大值最小值规范化不涉及均值,线性。数据归约中,属性子集选择的基本启发式方法包括如下技术:逐步向 前选择;逐步向后删除,逐步向前选择和逐步向后删除的结合;判定 树归纳。分类怎么做:所谓分类就是为了理解事物特征并作出预测使用历史数 据建立一个类模型(即分类器)的过程。首先从数据中选出已经分好 类的训练集,然后再该训练集上运用数据挖掘分类的技术,建立分类 模型,最后对没有类的数据进行分类。有指导的学习:预先定义好的数据挖掘中的分类,因为用作训练样本 的数据具有实际的类别。分类的步骤:模型创建,模型使用。有(

10、无)监督学习指是否存在以下过程:模型根据自变量的输入值得 到因变量的一个理论值,将此理论值再与实际值进行比较,便得到了 校正误差。(无监督学习没有实际值可以比较)聚类时的原则?聚类就是将数据对象分组为多个类或簇,在同一个簇 中的对象间具有较高的相似度,而不同簇中的对象差别较大。根据树的形成过程,层次分解的方向是自底向上还是自顶向下,层次 的聚类方法可以进一步分为凝聚的和分裂的层次聚类。数据矩阵(对象与变量结构):他用P个变量(也称度量或属性)来 表现n个对象,例如用年龄,身高,体重,性别,民族等属性来表现 对象“人工这种数据结构是关系表的形式,或者看成n*p (n个对象 乘以P个变量)的矩阵。有指导的学习(用于分类)模型的学习在被告知每个训练样本属于哪 个类的指导下进行新数据使用训练数据集中得到的规则进行分类无 指导的学习(用于聚类)每个训练样本的类编号是位置的,要学习的 类集合或数量也是可能是事先未知的通过一系列的度量、观察来建立 数据中的类编号或进行聚类.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 解决方案

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁