《大学数据挖掘期末考试题.pdf》由会员分享,可在线阅读,更多相关《大学数据挖掘期末考试题.pdf(2页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、-:-号-学-线-:-名-姓-班-级-封-业-专-院-学。-题题-院试试-学试试学考考密-科末末-息期期-期期-信学学-与季季-学春春-数年年-学学-4 4-1 1-0 0-2 2-3 3-1 1-0 0-2 2-数据挖掘试卷数据挖掘试卷A 分类B 预测C 关联规则分析D 聚类课程代码:课程代码:C0204413 C0204413课程:课程:数据挖掘数据挖掘 A A 卷卷4。关于 K 均值和 DBSCAN 的比较,以下说法不正确的是()A。K 均值丢弃被它识别为噪声的对象,而 DBSCAN 一般聚类所有对象。题目一二三四五六七八九十总成绩复核一一、判判B.K 均值使用簇的基于原型的概念,DBS
2、CAN 使用基于密度的概念。得分断断题题C.K 均值很难处理非球形的簇和不同大小的簇,DBSCAN 可以处理不同大小和不同形状的簇阅卷教师(每每 题题D。K 均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN 会合并有重叠的簇5.下列关于 Wards Method说法错误的是:()1 1 分,分,1010 分)分)A.对噪声点和离群点敏感度比较小1.从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法.()B。擅长处理球状的簇2.数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的发掘。()C.对于 Ward方法,两个簇的邻近度定义为两个簇
3、合并时导致的平方误差3.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。()D。当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似4.当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似。()6.下列关于层次聚类存在的问题说法正确的是:()5.DBSCAN 是相对抗噪声的,并且能够处理任意形状和大小的簇。()A.具有全局优化目标函数6.属性的性质不必与用来度量他的值的性质相同。()B.Group Average擅长处理球状的簇7.全链对噪声点和离群点很敏感。()C.可以处理不同大小簇的能力8.对于非对称的属性,只有非零值才是重要的。
4、()D.Max 对噪声点和离群点很敏感9.K 均值可以很好的处理不同密度的数据.()7。下列关于凝聚层次聚类的说法中,说法错误的事:()10.单链技术擅长处理椭圆形状的簇。()A。一旦两个簇合并,该操作就不能撤销二、选择题(每题二、选择题(每题 2 2 分,分,3030 分)分)B.算法的终止条件是仅剩下一个簇1。当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分C。空间复杂度为离?()D.具有全局优化目标函数A.分类B.聚类C。关联分析D.主成分分析8。规则牛奶,尿布啤酒的支持度和置信度分别为:()2.()将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,
5、它是一种凝聚层次聚类技术.TID项集A。MIN(单链)B。MAX(全链)C。组平均D。Ward方法3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了()数据挖掘方法.第-1-页 共 2 页12345面包,牛奶面包,尿布,啤酒,鸡蛋牛奶,尿布,啤酒,可乐面包,牛奶,尿布,啤酒面包,牛奶,尿布,可乐A.1B.2C。3D 4三、简答题(每题三、简答题(每题 8 8 分,分,4040 分)分)1.何谓数据挖掘?它有哪些方面的功能?2.简述数据预处理方法和内容。A.0。4,0.4B。0。67,0.67C。0.4,0.67D。0.67,0.49.下列()是属于分裂层次聚类的方法。A。MinB。MaxC
6、.Group Average D.MST10.对下图数据进行凝聚聚类操作,簇间相似度使用MAX 计算,第二步是哪两个簇合并:()A。在3和l,2合并B.3和4,5合并C。2,3和4,5合并D.2,3和4,5形成簇和3合并11。将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?()A。频繁模式挖掘B。分类和预测C.数据预处理D.数据流挖掘12。决策树中不包含一下哪种结点()3。何谓聚类?它与分类有什么异同?4。什么是决策树?如何用决策树进行分类?5.简述 ID3 算法的基本思想及其主算法的基本步骤四、四、算算法题(每题法题(每题 1010 分,分,2020 分)分)1。由下图已
7、给出的距离矩阵,将 Max 用于 6 个点样本数据集,画出层次聚类的树状图?P1P2P3P4P5P6P10。000。240.220。370。340。23P20。240。000.140。200.130.25P30。220。140.000。150。280。11P40.370。200。150.000.290.22P50.340.130.280.290。000。39P60.230.250。110。220。390。002.假设数据挖掘的任务是将如下的 8 个点(用(x,y)代表位置)聚类为 3 个类:X1(2,10)、X2(2,5)、X3(8,4)、X4(5,8)、X5(7,5)、X6(6,4)、X7(
8、1,2)、X8(4,9),距离选择欧几里德距离。假设初始选择 X1(2,10)、X4(5,8)、X7(1,2)为每个聚类的中心,请用 Kmeans 算法来计算:A,根结点(root node)B,内部结点(internal node)C,外部结点(external node)D,叶结点(leaf node)13。建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?()A.根据内容检索B.建模描述C.预测建模D。寻找模式和规则14。下列哪个描述是正确的?()A、分类和聚类都是有指导的学习B、分类和聚类都是无指导的学习C、分类是有指导的学习,聚类是无指导的学习D、分类是无指导的学习,聚类是有指导的学习15。下面购物篮能够提取的 3项集的最大数量是多少()ID 购买项1 牛奶,啤酒,尿布2 面包,黄油,牛奶3 牛奶,尿布,饼干4 面包,黄油,饼干5 啤酒,饼干,尿布6 牛奶,尿布,面包,黄油7 面包,黄油,尿布8 啤酒,尿布9 牛奶,尿布,面包,黄油10 啤酒,饼干第-2-页 共 2 页