数据仓库与数据挖掘考试试题35825.docx-淘文阁

资源描述

《数据仓库与数据挖掘考试试题35825.docx》由会员分享，可在线阅读，更多相关《数据仓库与数据挖掘考试试题35825.docx（8页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、中国矿业大学银川学院期末考试试题2010至2011学年第2学期考试科目数据仓库与数据挖掘学分 2 年级 2008 系机电动力与信息工程系专业计算机一、填空题（15分）1.数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。2.元数据是描述数据仓库内数据的结构和建立方法的数据。根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。3.OLAP技术多维分析过程中，多维分析操作包括切片、切块、钻取、旋转等。4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“ 中心和辐射 ”架构，其中企业级数据仓库是中心，源数据系统

2、和数据集市在输入和输出范围的两端。5.ODS实际上是一个集成的、面向主题的、可更新的、当前值的、企业级的、详细的数据库，也叫运营数据存储。二、多项选择题（10分）6.在数据挖掘的分析方法中，直接数据挖掘包括（）A 分类 B 关联 C 估值 D 预言7.数据仓库的数据ETL过程中，ETL软件的主要功能包括（）A 数据抽取 B 数据转换 C 数据加载 D 数据稽核8.数据分类的评价准则包括（ ABCD ）A 精确度 B 查全率和查准率 C F-Measure D 几何均值9.层次聚类方法包括（ BC ）A 划分聚类方法 B 凝聚型层次聚类方法 C 分解型层次聚类方法 D 基于密

3、度聚类方法10.贝叶斯网络由两部分组成，分别是（ A D ）A 网络结构 B 先验概率 C 后验概率 D 条件概率表三、计算题（30分）11.一个食品连锁店每周的事务记录如下表所示，其中每一条事务表示在一项收款机业务中卖出的项目，假定supmin=40%，confmin=40%，使用Apriori算法计算生成的关联规则，标明每趟数据库扫描时的候选集和大项目集。（15分）事务项目事务项目 T1 T2 T3面包、果冻、花生酱面包、花生酱面包、牛奶、花生酱 T4 T5啤酒、面包啤酒、牛奶解：（1）由I=面包、果冻、花生酱、牛奶、啤酒的所有项目直接产生1-候选C1，计算其支持度，取出支持度小于sup

4、min的项集，形成1-频繁集L1，如下表所示：项集C1 支持度项集L1 支持度面包花生酱牛奶啤酒 4/53/52/52/5面包花生酱牛奶啤酒 4/5 3/5 2/5 2/5(2)组合连接L1中的各项目，产生2-候选集C2，计算其支持度，取出支持度小于supmin的项集，形成2-频繁集L2，如下表所示：项集C2 支持度项集L2支持度面包、花生酱 3/5面包、花生酱 3/5至此，所有频繁集都被找到，算法结束，所以，confidence（面包花生酱）=（4/5）/（3/5）=4/3 confmin confidence（花生酱面包）=（3/5）/（4/5）=3/4 confmin所

5、以，关联规则面包花生酱、花生酱面包均是强关联规则。12.给定以下数据集（2，4，10，12，15，3，21），进行K-Means聚类，设定聚类数为2个，相似度按照欧式距离计算。（15分）解：（1）从数据集X中随机地选择k个数据样本作为聚类的出示代表点，每一个代表点表示一个类别，由题可知k=2，则可设m1=2，m2=4：（2）对于X中的任意数据样本xm（1xmtotal），计算它与k个初始代表点的距离，并且将它划分到距离最近的初始代表点所表示的类别中：当m1=2时，样本（2 ，4，10，12，15，3，21）距离该代表点的距离分别为2，8，10，13，1，19。当m2=4时，样本（2 ，4，1

6、0，12，15，3，21）距离该代表点的距离分别为-2，6，8，11，-1，17。最小距离是1或者-1将该元素放入m1=2的聚类中，则该聚类为（2，3），另一个聚类m2=4为（4，10，12，15，21）。（3）完成数据样本的划分之后，对于每一个聚类，计算其中所有数据样本的均值，并且将其作为该聚类的新的代表点，由此得到k个均值代表点：m1=2.5，m2=12：（4）对于X中的任意数据样本xm（1xmtotal），计算它与k个初始代表点的距离，并且将它划分到距离最近的初始代表点所表示的类别中：当m1=2.5时，样本（2 ，4，10，12，15，3，21）距离该代表点的距离分别为-0.5，0.5，

7、1.5，7.5，9.5，12.5，18.5。当m2=12时，样本（2 ，4，10，12，15，3，21）距离该代表点的距离分别为-10，-9，-8，2，3，9。最小距离是1.5将该元素放入m1=2.5的聚类中，则该聚类为（2，3，4），另一个聚类m2=12为（10，12，15，21）。（5）完成数据样本的划分之后，对于每一个聚类，计算其中所有数据样本的均值，并且将其作为该聚类的新的代表点，由此得到k个均值代表点：m1=3， m2=14.5：（6）对于X中的任意数据样本xm（1xm25.过滤：过滤后的字段。Region,tenure,age,marital,churn.类型：15.给出以上数据流

8、图中模型的执行结果（生成模型完全展开后的数据），对于执行结果太多的，可节选部分结果。（10分）16.对以上模型生成的结果做一简要的分析，包括算法采用的基本原理、数学模型、算法步骤等。(15分)答：k-means聚类算法基本原理：将各个聚类子集内的所有数据样本的均值作为该聚类的代表点，算法的主要思想是通过迭代过程把数据划分为不同的类别，使得评价聚集类性能的准则函数达到最优，从而使生成的每个聚集类的紧凑，类间独立。操作步骤：输入：数据集,其中的数据样本只包含描述属性，不包含类别属性。聚类个数K输出：（1）从数据集X中随机地选择k个数据样本作为聚类的出示代表点，每一个代表点表示一个类别（2）对于X中的任意数据样本xm（1xmtotal），计算它与k个初始代表点的距离，并且将它划分到距离最近的初始代表点所表示的类别中（3）完成数据样本的划分之后，对于每一个聚类，计算其中所有数据样本的均值，并且将其作为该聚类的新的代表点，由此得到k个均值代表点（4）对于X中的任意数据样本xm（1xmtotal），计算它与k个初始代表点的距离，并且将它划分到距离最近的初始代表点所表示的类别中（5）重复3.4，直到各个聚类不再发生变化为止。即误差平方和准则函数的值达到最优

展开阅读全文