2022年数据挖掘与数据仓库试卷 .pdf

上传人:H****o 文档编号:39724817 上传时间:2022-09-07 格式:PDF 页数:3 大小:51.17KB
返回 下载 相关 举报
2022年数据挖掘与数据仓库试卷 .pdf_第1页
第1页 / 共3页
2022年数据挖掘与数据仓库试卷 .pdf_第2页
第2页 / 共3页
点击查看更多>>
资源描述

《2022年数据挖掘与数据仓库试卷 .pdf》由会员分享,可在线阅读,更多相关《2022年数据挖掘与数据仓库试卷 .pdf(3页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、1 数据挖掘与数据仓库技术试卷姓名-,班级-,学号-一、问答题:1数据仓库和数据库有何不同?它们有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据.它用表组织数据,采用ER 数据模型。它们都为数据挖掘提供了源数据,都是数据的组合.2什么是数据挖掘?请举例。数据挖掘:是从大量数据中提取或挖掘 知识,也就是从存放在数据库,数据仓库或其他信息库中的数据挖掘有趣知识的过程.数据挖掘是可以从数据库中提取有趣的知识规律或高层信息发现的知识,

2、可以用于决策,过程控制,信息管理,查询处理.它不是一种从数据库,统计学和机器学习发展的技术的简单转化,它涉及多学科技术的集成,包括数据库技术,统计学,机器学习,高性能计算模式识别,神经网络,数据可视化,信息检索,图象与信号处理和空间数据分析.随着数据库技术发展,数据的丰富带来了对强有力的数据分析工具的需求,大量的数据被描述为数据丰富,但信息贫乏,所以数据挖掘出来了.当把数据挖掘看作知识发现过程时,它涉及的步骤为:1)数据清理2)数据集成3)数据选择4)数据变换5)数据挖掘6)模式评估7)知识表示3试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法,而不愿使用查询驱动的方法。因为

3、对于多个异种信息源的集成,查询驱动方法需要复杂的信息过滤和集成处理,并且与局部数据源上的处理竞争资源,是一种低效的方法,开销很大。而更新驱动方法为集成的异种数据库系统带来了高性能,因为数据被处理和重新组织到一个语义一致的数据存储中,进行查询的同时并不影响局部数据源上进行的处理,另外,还支持复杂的多维查询。当异种数据源上的数据格式一致或者转换比较容易,并且所要求的查询比较简单,不需要复杂的多维查询时,查询驱动方法可能更受欢迎。4在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。答:1)忽略元组2)人工填写空缺值3)使用一个全局常量填充空缺值4)使用属性的平均值填充空缺

4、值5)使用与给定元组属同一类的所有样本的平均值6)使用最可能的值填充空缺值。其中,方法3 到 6 使数据倾斜,填入的值可能不正确。不过,方法6 是最常用的方法5对于类特征化,基于数据立方体的实现与诸如面向属性归纳的关系实现之间的主要不同是什么?讨论哪种方法最有效,在什么条件下最有效。数据立方体方法是基于数据仓库的,面向预计算的,物化视图的方法。它在OLAP 或数据挖掘查询提交处理之前,脱机计算聚集。面向属性归纳是面向关系数据库查询的,基于概化的,联机的数据分析处理技术。面向属性归纳方法更有效,因为在面向属性归纳之前进行数据聚焦,根据数据挖掘提供的信息进行数据收集,选择相关的数据集不仅使数据挖掘

5、更有效,而且与整个数据库挖掘相比,能产生更有意义的规则。二、填空题:1.数据挖掘是一个多学科领域,这些学科包括:,数据库系统,统计学,机器学习,可视化和信息科学。名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 3 页 -2 2.数据挖掘的功能有概念/类描述,关联分析,分类与预测,聚类分析,孤立点分析,演变分析。3.数据挖掘的主要问题包括:挖掘方法和用户交互问题,性能问题,数据库类型的多样性问题。4.数据挖掘的性能问题包括:数据挖掘算法的有效性,算法的可伸缩性,并行、分布式、增量挖掘算法的研究。三、证明题:Apriori 算法使用子集支持度性质的先验知识。1证明频繁集的所有非空子集

6、必须也是频繁的。证明:根据定义,如果项集I不满足最小支持度阈值min_sup,则I不是频繁的,即supmin_)(IP如果A想添加到I,则结果项集不可能不更频繁出现。因此,也不是频繁的,即矛盾。2证明项集s的任意非空子集s的支持度至少和s的支持度一样大。同理可证。四、算法分析与扩展任意选择数据挖掘书的第一章至第八章中一个算法进行分析与扩展,要求:1.描述该算法的思想,层次结构。2.写出比较易懂的算法流程图或伪代码3.如果让你用程序来实现算法,你准备采用什么数据结构实现(包括怎样读入和存放要处理的数据以及算法处理流程中需要用到的数据结构),并做具体说明。4.指出算法的不足之处,应该从哪些方面增强

7、算法的功能和性能。K-平均算法:算法描述:首先,随机地选择什对象,每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象,根据其与各个簇中心的距离,将它赋给最近的簇。然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。通常,采用平方误差准则,其定义如下:这里的 E 是数据库中所有对象的平方误差的总和,P 是空间中的点,表示给定的数据对象,m;是簇 C;的平均值k 和 m;都是多维的人这个准则试图使生成的结果簇尽可能地紧凑和独立。这个算法尝试找出使平方误差函数值最小的k 个划分。当结果簇是密集的,而簇与簇之间区别明显时,它的效果较好。对处理大数据集,该算法是相对可伸缩的和高效率的

8、,因为它的复杂度是o(n),其中 kn。但是,k 一平均方法只有在簇的平均值被定义的情况下才能使用。这可能不适用于某些应用,例如涉及有分类属性的数据。要求用户必须事先给出k(要生成的簇的数目)可以算是该方法的一个缺点。k 一平均方法不适合于发现非凸面形状的簇,或者大小差别很大的簇。而且,它对于“噪声”和孤立点数据是敏感的,少量的该类数据能够对平均值产生极大的影响。伪码:算法:k 一平均。划分的k 一平均算法基于簇中对象的平均值。输入:簇的数目k 和包含 n 个对象的数据库。输出:k 个簇,使平方误差准则最小。方法:1)任意选择k 十对象作为初始的簇中心;2)repeat 3)根据簇中对象的平均

9、值,将每个对象(重新)赋给最类似的簇;名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 3 页 -3 4)更新簇的平均值,即计算每个簇中对象的平均值;5)until 不再发生变化ID3 算法:算法描述:树以代表训练样本的单个节点开始(步骤1)如果样本都在同一个类,则该节点成为树叶,并用该类标记(步骤2 和 3)否则,算法使用称为信息增益的基于滴的度量作为启发信息,选择能够最好地将样本分类的属性(步骤 6)。该属性成为该节点的“测试”或“判定”属性(步骤7)。在算法的这个版本中,所有的属性都是分类的,即取离散值的。连续值的属性必须离散化。对测试属性的每个已知的值,创建一个分枝,并据此

10、划分样本(步骤810)。算法使用同样的过程,递归地形成每个划分上的样本判定树。一旦一个属性出现在一个节点上,就不必考虑该节点的任何后代上(步骤13)。递归划分步骤仅当下列条件之一成立时停止:(a)给定节点的所有样本属于同一类(步骤2 和 3)。(b))没有剩余属性可以用来进一步划分样本(步骤4)。在此情况下,使用多数表决(步骤5)。这涉及将给定的节点转换成树叶,并用samples 中的多数所在的类标记它。换一种方式,可以存放节点样本的类分布。(c)分枝 testattribute a;没有样本(步骤11)。在这种情况下,以samPles中的多数类创建一个树叶(步骤 12)。伪码:算法:Gene

11、rateAecisionjree 由给定的训练数据产生一棵判定树。输入:训练样本samples,由离散值属性表示;候选属性的集合attributMlist。输出:一棵判定树。方法:O)创建节点N;(2)if samples 都在同一个类C then(3)返回 N 作为叶节点,以类C 标记(4)If attributlist 为空then(5)返回 N 作为叶节点,标记为samples 中最普通的类;多数表决(6)选择 attributelist 中具有最高信息增益的属性test_attribute;(7)标记节点N 为 lest_attribute;(8)for each test_attribute 中的已知值ai(9)由节点 N 长出一个条件为test_attribute=ai的分支(10)设 S 是 Samples 中 test_attribute=ai的样本的集合(11)if si为空then(12)加上一个树叶,标记为samples中的最普通的类(13)else 加上一个由Fenerate_decision_tree返回的节点信息增益度量有倾斜,它倾向于适合具有许多值的属性。不能、处理空缺值,此算法还可能面对碎片,重复和复制的问题。对追加样本的学习不方便,算法的可伸缩性不强等。名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页,共 3 页 -

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 技术总结

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁