《数据仓库与数据挖掘考试试题44520.docx》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘考试试题44520.docx(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、中国矿业大学银川学院期末考试试题2010至2011学年第2学期考试科目 数据仓库与数据挖掘 学分 2 年级 2008 系 机电动力力与信息工程程系 专业 计算机 一、 填空题(15分分)1.数据仓库的的特点分别是是 面向主题题 、 集成 、 相对稳定定 、反映历史史变化。2.元数据是描描述数据仓库库内数据的结结构和建立方方法的数据。根根据元数据用用途的不同可可将元数据分分为 技术 元数据和 业务 元数据两类类。3.OLAP技技术多维分析析过程中,多多维分析操作作包括 切片 、 切块 、 钻取 、 旋转 等。4.基于依赖型型数据集市和和操作型数据据存储的数据据仓库体系结结构常常被称称为“ 中心和
2、辐辐射 ”架构,其中中 企业级数数据仓库 是中心,源源数据系统和和数据集市在在输入和输出出范围的两端端。5.ODS实际际上是一个集集成的、 面向主题的的 、 可更新的 、 当前值的 、 企业级的 、详细的数据据库,也叫运运营数据存储储。二、 多项选择题(110分)6.在数据挖掘掘的分析方法法中,直接数数据挖掘包括括( )A 分类 B 关联联 C 估值 DD 预言7.数据仓库的的数据ETLL过程中,EETL软件的的主要功能包包括()A 数据抽取 BB 数据转换换 C 数据据加载 D 数据稽核8.数据分类的的评价准则包包括( AABCD )A 精确度 B 查全率和查查准率 C F-Measure
3、D 几何均值9.层次聚类方方法包括( BC )A 划分聚类方方法 B 凝聚型层次次聚类方法 C 分解解型层次聚类类方法 D 基于密密度聚类方法法10.贝叶斯网网络由两部分分组成,分别别是( AA D )A 网络结构 B 先验概率 CC 后验概率率 D 条件概率表表三、 计算题(30分分)11.一个食品品连锁店每周周的事务记录录如下表所示示,其中每一一条事务表示示在一项收款款机业务中卖卖出的项目,假假定supminn=40%,connfmin=400%,使用Apriiori算法法计算生成的的关联规则,标标明每趟数据据库扫描时的的候选集和大大项目集。(115分)事务项目事务项目 T1 T2 T3面
4、包、果冻、花花生酱面包、花生酱面包、牛奶、花花生酱 T4 T5啤酒、面包啤酒、牛奶解:(1)由II=面包、果果冻、花生酱酱、牛奶、啤啤酒的所有有项目直接产产生1-候选选C1,计算其支支持度,取出出支持度小于于supmiin的项集,形形成1-频繁繁集L1,如下表所所示:项集C1 支持度 项集L11 支持度面包 花生酱 牛奶 啤酒 4/53/52/52/5面包 花生酱 牛奶 啤酒 44/5 33/5 22/5 22/5(2)组合连接接L1中的各项目目,产生2-候选集C22,计算其支支持度,取出出支持度小于于supmiin的项集,形形成2-频繁繁集L2,如下表所所示:项集C2 支持度 项集L22支持
5、度面包、花生酱酱 3/5面包、花生酱酱 3/5至此,所有频繁繁集都被找到到,算法结束束,所以,conffidencce(面包包花生酱)=(4/5)/(3/5)=4/3 confmiin coonfideence( 花生酱面包)=(3/5)/(4/5)=3/4 confmiin所以,关联规则则面包花生酱、 花生生酱面包均均是强关联规规则。12.给定以下下数据集(22,4,10,12,15,3,21),进行行K-Meaans聚类,设设定聚类数为为2个,相似似度按照欧式式距离计算。(15分)解:(1)从数数据集X中随随机地选择kk个数据样本本作为聚类的的出示代表点点,每一个代代表点表示一一个类别,由
6、由题可知k=2,则可设设m1=2,m2=4:(2)对于X中中的任意数据据样本xm(1xmtotaal),计算算它与k个初初始代表点的的距离,并且且将它划分到到距离最近的的初始代表点点所表示的类类别中:当mm1=2时,样样本(2 ,44,10,112,15,33,21)距距离该代表点点的距离分别别为2,8,110,13,11,19。当m2=4时,样样本(2 ,44,10,112,15,33,21)距距离该代表点点的距离分别别为-2,66,8,111,-1,117。最小距离是1或或者-1将该该元素放入mm1=2的聚类类中,则该聚聚类为(2,33),另一个个聚类m2=4为(44,10,112,15,
7、221)。(3)完成数据据样本的划分分之后,对于于每一个聚类类,计算其中中所有数据样样本的均值,并并且将其作为为该聚类的新新的代表点,由由此得到k个个均值代表点点:m1=2.5,mm2=12:(4)对于X中中的任意数据据样本xm(11xmttotal),计计算它与k个个初始代表点点的距离,并并且将它划分分到距离最近近的初始代表表点所表示的的类别中:当当m1=2.5时时,样本(22 ,4,110,12,115,3,221)距离该该代表点的距距离分别为-0.5,00.5,1.5,7.55,9.5,112.5,118.5。当m2=12时时,样本(22 ,4,110,12,115,3,221)距离该该
8、代表点的距距离分别为-10,-99,-8,22,3,9。最小距离是1.5将该元素素放入m1=2.5的的聚类中,则则该聚类为(22,3,4),另另一个聚类mm2=12为(110,12,115,21)。(5)完成数据据样本的划分分之后,对于于每一个聚类类,计算其中中所有数据样样本的均值,并并且将其作为为该聚类的新新的代表点,由由此得到k个个均值代表点点:m1=3, m2=14.55:(6)对于X中中的任意数据据样本xm(11xm25.过滤:过滤后的的字段。Regionn,tenuure,agge,marrital,churnn.类型:15.给出以上上数据流图中中模型的执行结果(生生成模型完全全展开
9、后的数数据),对于执行行结果太多的的,可节选部部分结果。(10分)16.对以上模模型生成的结结果做一简要要的分析,包包括算法采用用的基本原理理、数学模型型、算法步骤骤等。(15分)答:k-meaans聚类算算法基本原理理:将各个聚聚类子集内的的所有数据样样本的均值作作为该聚类的的代表点,算算法的主要思思想是通过迭迭代过程把数数据划分为不不同的类别,使使得评价聚集集类性能的准准则函数达到到最优,从而而使生成的每每个聚集类的的紧凑,类间间独立。操作步骤:输入:数据集,其中的数据据样本只包含含描述属性,不不包含类别属属性。聚类个个数K输出:(1)从数据集集X中随机地地选择k个数数据样本作为为聚类的出示示代表点,每每一个代表点点表示一个类类别(2)对于X中中的任意数据据样本xm(11xmttotal),计计算它与k个个初始代表点点的距离,并并且将它划分分到距离最近近的初始代表表点所表示的的类别中(3)完成数据据样本的划分分之后,对于于每一个聚类类,计算其中中所有数据样样本的均值,并并且将其作为为该聚类的新新的代表点,由由此得到k个个均值代表点点(4)对于X中中的任意数据据样本xm(11xmttotal),计计算它与k个个初始代表点点的距离,并并且将它划分分到距离最近近的初始代表表点所表示的的类别中(5)重复3.4,直到各各个聚类不再再发生变化为为止。即误差差平方和准则则函数的值达达到最优