《2022年数据挖掘教学大纲 .pdf》由会员分享,可在线阅读,更多相关《2022年数据挖掘教学大纲 .pdf(11页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1 课程编号:6001420363数据挖掘课 程 教 学 大 纲吉 林 财 经 大 学二五年 八 月名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 11 页 - - - - - - - - - 2 数据挖掘课程教学大纲一、课程基本信息1课程编号: 6001420363 2英文名称: Data Mining 3课程模块:专业限选课4课程学时:总计 36 学时,其中,实验(践) 8 学时5学分:2 6先(预)修课程:概率与统计,数据库原理7适用专业:计算机科学与技术、电子商务
2、、信息管理与信息系统8修订时间: 2015.8 二、课程简介数据挖掘是管理科学与信息工程学院开设的一门重要的专业限选课程。本课程主要讲授数据挖掘的基本概念,原理、方法和技术,具体包括:数据的预处理、分类预测、关联挖掘、聚类分析等内容。通过学习,使学生理解数据挖掘的基本流程,掌握数据挖掘的基本理论和技术,熟悉数据挖掘成果的表达; 掌握数据挖掘的基本方法, 能熟练地应用数据挖掘技术对现实数据进行有效的分析,能够结合 Clementine 软件从大量统计数据中获取有价值的信息。三、课程教学目标数据挖掘是高级数据处理和分析技术。通过本课程学习, 使学生了解数据挖掘这种现代数据分析和知识挖掘方法的思想与
3、技术,了解数据挖掘的基本理论,掌握重要的数据挖掘方法,掌握如何利用Clementine 实现数据分析和挖掘,并使学生具有进一步学习的基础与能力。四、教学内容与要求第一章数据挖掘和 Clementine使用概述【教学目的与要求】名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 11 页 - - - - - - - - - 3 本章作为绪论,其目的是让学生对数据挖掘技术有一个总体的认识。因此,主要内容是对数据挖掘技术的概念、产生背景、发展趋势以及应用等进行提炼和概括,并熟悉 c
4、lementine软件的使用环境。要求学生掌握以下内容:数据挖掘的发展数据挖掘基本知识数据挖掘功能数据挖掘应用数据挖掘的热点问题熟悉 Clementine软件【教学重点】1、数据挖掘概念2、数据挖掘分类【教学难点】1、Clementine操作基础【教学内容】1.1 数据挖掘的产生背景1、数据挖掘产生的背景2、数据挖掘的发展3、数据挖掘概述1.2 什么是数据挖掘1、数据挖掘概念2、数据挖掘分类3、数据挖掘体系结构1.3 Clementine软件概述1、Clementine的配置2、Clementine操作基础第二章Clementine数据管理【教学目的与要求】名师资料总结 - - -精品资料欢迎
5、下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 11 页 - - - - - - - - - 4 本章中的数据管理主要是指数据挖掘中的数据预处理部分。对数据进行预处理, 不但可以节约大量的空间和时间而且得到的挖掘结果能更好地起到决策和预测作用。数据预处理一般包括:数据清理,数据集成,数据变换,数据归约等方法。要求学生掌握本章讲授的所有数据管理技术。【教学重点】1、数据源节点 (Sources ) 2、记录选项节点( Record Ops)3、字段选项节点( Field Ops)【教学难点】【教学内容】2.1
6、 数据源节点 ( Sources ) 1、从开放数据库中导入数据2、从文本文件中读取数据3、导入 Excel 格式的数据4、用户手动创建数据2.2 记录选项节点( Record Ops )1、选择节点( Select )2、对数据的抽样( Sample)3、修正数据集中的不均匀性(Balance )4、统计汇总( Aggregate )5、对节点数据的排序6、区分节点来清除重复记录2.3 字段选项节点( Field Ops)1、变量说明2、变量值的重新计算3、变量类别值的调整4、生成新变量5、变量值的离散化处理6、生成样本集分割变量第三章Clementine 数据的基本描述分析名师资料总结 -
7、 - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 11 页 - - - - - - - - - 5 【教学目的与要求】基本描述分析是数据分析的基础,通常对数值型变量进行描述分析,涉及数据的集中趋势和离散程度。 描述集中趋势的描述性统计量一般有均值、中位数和众数;描述离散程度的描述性统计量一般有方差、标准差和极差。要求学生掌握 Clementine数据的基本分析方法。【教学重点】1、数据质量探索2、数据基本描述分析【教学难点】1、两分类变量相关性的研究【教学内容】3.1 数据质量探索1、数据
8、的基本描述与质量探索2、离群点和极端值的修正3、缺失值的替补4、数据质量管理的其他功能3.2 数据基本描述分析1、计算基本描述统计量2、绘制散点图3.3 两分类变量相关性的研究1、两分类变量相关性的图形分析2、两分类变量相关性的数值分析3.4 两总体的均值比较3.5 变量重要性分析第四章关联规则挖掘【教学目的与要求】关联规则是形如 XY的蕴涵式,其中, X 和 Y分别称为关联规则的先导(antecedent或 left-hand-side, LHS)和后继 (consequent 或 right-hand-side, RHS) 。其中,关联规则 XY,存在支持度和信任度。名师资料总结 - -
9、-精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 11 页 - - - - - - - - - 6 本章对关联规则挖掘中的概念、方法、算法进行全面的分析和讲解。由于关联规则挖掘是数据挖掘技术中研究最早、成果最多、 相对比较成熟的分支, 因此本章重点在于一些经典理论和算法、热点问题的介绍。要求学生掌握以下内容:关联规则相关概念Apriori 算法在 Clementine中应用 Apriori 算法【教学重点】1、关联规则相关概念2、Apriori 算法【教学难点】1、序列模式挖掘【教学内容】4.1
10、 关联规则概述1、基本概念2、关联规则表示3、关联规则挖掘算法简介4.2 Apriori 算法1、Apriori 算法生成频繁项集的过程2、Apriori 算法从频繁项集产生关联规则4.3 在 Clementine中应用 Apriori 算法4.4 序列模式挖掘1、序列与序列模式2、AprioriAll 算法3、在 Clementine中应用序列模式挖掘第五章分类与预测【教学目的与要求】。分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类, 用基于归纳的学习算法得出分类。预测可以涉及数据值预测和类标记预测, 但预测通常指值预测。 两者的区别是, 分类是用
11、来预测数据对象的类标记,而预测则是估计某些空缺或未知值。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 11 页 - - - - - - - - - 7 分类与预测在数据挖掘中是一项非常重要的方面,本章对分类与预测的基本概念与步骤、经典的方法以及有关的问题进行了阐述。要求学生掌握如下内容:分类和预测数据分析形式ID3 算法C4.5 算法logistic 回归分析【教学重点】1、决策树概述2、ID3 算法3、C4.5 算法【教学难点】1、logistic 回归分析【教学内容
12、】5.1 分类与决策树概述1、分类和预测数据分析形式介绍2、决策树概述5.2 ID3 、C4.5 与 C5.0 算法及应用1、信息熵计算2、决策树归纳策略3、ID3 算法及缺点4、C4.5 算法5、C5.0 算法及优点6、在 Clementine中应用 C5.0 5.3 二项 logistic 回归分析5.4 二项 logistic 回归分析应用第六章聚类分析【教学目的与要求】聚类是将数据分类到不同的类或者簇的过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析是一种探索性的分析,在分类的过程中, 人们不必事先给出一个分类的标准,聚类分析能够从样本数据名师资料总结
13、 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 11 页 - - - - - - - - - 8 出发,自动进行分类。 聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征, 集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。聚类是数据挖掘技术中一个重要组成部分,内容很多,因此要求学生掌握聚类分析原理、基本方法和主要算法。【教学重点】1、聚类分析原理2、主要聚类方法分类【教学难点】1、K-means算法2、两步聚类算法【
14、教学内容】6.1 聚类分析的一般问题1、聚类分析介绍2、聚类分析应用领域3、聚类分析原理4、主要聚类方法分类6.2 Clementine的 k-means聚类及应用1、K-means算法2、K-means算法的优缺点3、在 Clementine中应用 K-Means6.3 Clementine的两步聚类及应用1、两步聚类算法2、Clementine的两步聚类应用五、实践环节实验 1:一个完整的数据挖掘过程【实验目的】1、理解数据挖掘过程2、熟练掌握 Record选项卡中各功能节点的使用3、熟练掌握 Field 选项卡中各功能节点的使用名师资料总结 - - -精品资料欢迎下载 - - - - -
15、 - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页,共 11 页 - - - - - - - - - 9 【实验内容】本实验数据源是“drug.txt” ,以往有大批患有同种疾病的不同病人,在服用了五种药物中的一种之后都取得了同样的治疗效果。这里的数据是随机挑选的部分病人服用药物前的基本临床检查数据,包括血压(BP,分为高血压 High、正常 Normal、低血压 Low) 、胆固醇( Cholesterol,分为正常 Normal 和高胆固醇 High) 、唾液中钠元素( Na)和钾元素( K)含量,以及病人年龄( Age) 、性别(
16、Sex,包括男 M 和女 F)等。通过数据分析发现以往处方适用的规律,给出不同临床特征病人更适合服用那种药物的建议,为未来医生填写处方提供参考。实验 2:在 Spss-Clementine 中进行关联规则挖掘【实验目的】1、理解关联规则挖掘原理2、掌握 Apriori 节点和 GRI 节点使用3、用 Spss-Clementine 软件实现基本的关联分析【实验内容】结合老师所提供数据,做如下实验:1、分析哪些商品会和啤酒一起购买2、分析不同性别、年龄以及家庭主妇们有怎样的消费偏好3、探寻不同购买物品之间的联系,为货架的摆放提供依据。4、探寻购买不同商品(以酒和饮料为例)的顾客的特征,确定促销信
17、息发放的对象。实验 3:使用 Binary Classifier节点比较不同模型的优劣【实验目的】1、理解分类挖掘原理2、掌握“二元分类器”节点的使用【实验内容】本次实验将使用系统自带pm_customer_train1.sav 数据作为数据源。从数据上看, 在过去的活动中最多的记录数都是在Premium account campaign下。Campaign值为整数定义类型节点(例如:2=Premium account ) 。数据中也包含了“响应”(对建议的接受与否)的值域: (0 = no, and 1 = yes ) ,名师资料总结 - - -精品资料欢迎下载 - - - - - - -
18、- - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页,共 11 页 - - - - - - - - - 10 它将是数据挖掘的目标、预测的对象。基于顾客的属性,例如收入、年龄、每个月的交易次数等,用这些信息构建或者训练一个模型来预测“响应”率。希望预测数据中的 response ,看看预测结果与实际结果匹配的程度。实验 4:在 Clementine 中使用 K-means进行聚类分析【实验目的】1、理解聚类分析挖掘原理2、掌握 K-means节点使用【实验内容】1、本次实验将使用系统自带DEMO 文件夹中的snapshottrainN.db数据作为数
19、据源。通过使用K-means建立模型,主要是根据收集的个人的一系列属性把人群进行聚类分析,并分为k(这里取 5)类的过程。2、现有数据drink.sav,收集了16 种饮料的热量(calorie) 、咖啡因(caffeine) 、钠(sodium)及价格( price)四个变量的值。现在希望利用这四个变量对这 16种饮料进行聚类。3、分析经济发展水平。 这里,以我国 31 个省市自治区 2008 年各地区经济发展的数据 K-Means.sav为例 (在 “数据与案例”文件夹中), 讨论 K-Means的具体操作。变量从 x1 到 x11 依次表示:人口数及分性别人口数,反映各地的人口水平;出生
20、预期寿命和每万人平均病床数,反映各地区人民健康水平;大专以上文化程度人口比例反映各地区的教育水平;人均GDP、第三产业增加值占GDP 比例、人均道路面积、 省会城市空气质量达到并好于二级的天数以及人均环境污染治理投资额,反映各地区的经济发展和社会环境水平等。分析目标:根据所给变量,研究我国 31 个省市自治区的综合发展水平,分析那些省市自治区处在相同的发展结构水平上。六、教学方法与手段本课程采用案例教学法。 教师通过讲解带有一定应用背景的实例,提升学生学习的兴趣, 并使学生通过课堂学习了解理论知识,并能带着问题去查阅相关资料,提升学生的自学能力。 作业题均为一些实际问题, 要求学生能利用数据挖
21、掘基本原理和方法,结合Clementine软件完成一定量的数据分析。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 10 页,共 11 页 - - - - - - - - - 11 七、各教学环节学时分配序号教学章理论讲授学时实验(践)学时讨论、测验等学时1 第 1 章 数据挖掘和Clementine 使用概述2 2 第 2 章 Clementine 数据管理4 3 第 3 章 Clementine 数据的基本分析4 2 4 第 4 章 关联规则挖掘6 2 5 第 5 章 分类与预测
22、6 2 6 就 6 章 聚类分析4 2 2 八、考核方式考核方法:阶段测试。成绩构成:本课程的总成绩主要由两部分组成:平时成绩(包括作业情况、出勤情况等)占 40% ,期末阶段测试实验成绩占60% 。九、推荐教材及参考资料1、推荐教材教材名称:基于 Clementine 的数据挖掘编著者:薛薇陈欢歌出版单位:中国人民大学出版社版次:2012-3 第一版教材类型:教育部规划教材2、参考资料1 (美)韩家炜( Han ,J. )等著,范明等译数据挖掘:概念与技术(原书第 3 版)机械工业出版社2012 年 8 月大纲制定人:数据挖掘课程组大纲审定人:名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 11 页,共 11 页 - - - - - - - - -