《《大数据分析与挖掘2》课程教学大纲.docx》由会员分享,可在线阅读,更多相关《《大数据分析与挖掘2》课程教学大纲.docx(9页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、大数据分析与挖掘2教学大纲一、课程基本信息课程名称大数据分析与挖掘Big Data Analysis And Mining课程编码SCC310421030开课院部理学院课程团队数据科学团队学分3.0课内学时52讲授40实验0上机12实践0课外学时52适用专业数学与应用数学授课语言中文先修课程课程简介 (限选)大数据分析与挖掘的主要任务是从大量数据中发现潜在有用的知识和数据模式,是统计学、计算机科学、机器学习等多门学科的交叉 学科。本课程是数据科学与大数据技术专业必修课,信息与计算科学专业选修课,将系统介绍大数据分析与数据挖掘的基本概念和经典方 法,主要内容包括:数据预处理、线性模型、决策树、聚
2、类分析、核方法等。通过本课程的学习,学生能掌握大数据分析与数据挖掘的基 本算法及其原理,具备分析和建立大数据模型的能力,完成基本的数据挖掘任务。Data mining is a process of discovering potentially useful knowledge and data patterns from a large amount of data. It is a cross discipline which combines statistics, computer science, machine learning and so on. This course is
3、 a compulsory course for the major of Data Science and Big Data Technology and the specialty for the major of Information and Computing Science. It will introduce the basic concepts and classical algorithms of data mining. The main contents include: data processing, linear model, extended linear mod
4、el, decision tree, ensemble learning, data stream learning. Through the learning of this course, students would master the basic algorithms of data mining and the corresponding principles, and can use data mining software to complete the application tasks.负责人大纲执笔人审核人二、课程目标序号代号课程目标0BE毕业要求指标点任务自选1Ml目标
5、1 :掌握常用的数据挖掘建模方法,能够量化分析自然科学与社会科学中的实际问题,具备建立 和分析大数据模型的能力。是2M2目标2 :掌握大数据分析的基本方法,建立数据思维和较强的数据分析与处理能力,并能用相关数据是3. 1分析方法处理实际数据集。3M3目标3 :具体良好的表达和沟通能力,就大数据技术领域的具体问题进行有效的沟通和交流,清楚地 阐述专业观点。是6.24M4目标4 :能保障课程正常秩序(政治层面、课堂保障层面,非学生能力层面)否三、课程内容序号章节号标题课程内容/重难点支撑课 程目标课内 学时教学方式课外 学时课外环节1第一章第一章大数据分 析与挖掘概述数据挖掘内涵和基本特征、数据清
6、洗/ /21. 11.1数据分析与挖 掘简介数据挖掘任务类型32讲授/讨论2自学31.21.2数据预处理聚焦;抽样;维归约;特征创建;变量变换32讲授2自学/作业4第二章第二章关联分析关联规则的定义、关联规则算法、关联评估/52. 12.1关联分析基本 概念频繁项集;先验原理Ml, M2, M32讲授2自学/作业62.22. 2 Apriori 算法支持度计数;计算繁杂度;频繁项集的紧凑表示32讲授2自学/作业72.32. 3案例:超市购 物篮分析超市购物篮分析32讲授2作业8上机1上机上机Ml, M22上机/实验2作业9第三章第三章分类分析朴素贝叶斯分类模型,支持向量机分类模型,逻辑回归,k
7、近 邻分类/103. 13.1贝叶斯分类模 型贝叶斯原理,朴素贝叶斯假设32讲授2自学/作业113.23. 2感知机模型感知机,多层神经网络32讲授2自学/作业123.33.3支持向量机分 类模型线性SVM;非线性SVM;结构风险最小化原理31讲授1自学/作业133.43. 4 k近邻分类k近邻算法,参数选取31讲授1自学/作业14上机2上机上机Ml, M22上机/实验2自学/作业153.53. 5决策树分类决策树基本算法;属性测试条件32讲授2自学/作业163.63.6集成学习组合方法的基本原理;bagging; boosting32讲授2自学/作业173.73. 7案例:手写 字识别、垃圾
8、邮件 过滤手写字识别、垃圾邮件过滤M1,M2,M32讲授2自学/作业18上机3上机上机Ml, M22上机/实验2作业19第四章第四章回归分析线性回归模型,岭回归模型,LASSO模型,非线性回归模型/204. 14.1回归模型简介线性回归模型;岭回归模型;LASSO模型;模型改32讲授2自学/作业214.24.2非线性回归模 型核学习32讲授2自学/作业224.34. 3案例:财政收 入影响因素分析及 预测案例:财政收入影响因素分析及预测M1,M2,M32讲授2自学/作业23上机4上机上机32上机/实验2作业24第五章第五章聚类分析 与异常检测相似性度量、k均值聚类、EM算法/255. 15.1
9、 k均值聚类k均值聚类算法;二分K均值M1,M2,M32讲授2自学/作业265.25. 2高维数据聚类高维数据降维32讲授2自学/作业275.35. 3异常检测基于统计的异常检测;基于邻近度的方法;基于聚类的方法32讲授2自学/作业285.45.4案例:客户价 值分析案例:客户价值分析Ml, M2, M32讲授2自学/作业29上机5上机上机Ml, M22上机/实验2作业30A-A- -xS- 弟八早第八早数据流挖 掘数据流在线分类算法、数据流在线聚类算法/316. 16.1数据流分类数据流的概念;数据流分类算法;Regret bound32讲授2自学/作业326.26. 2数据流聚类分 析数据
10、流聚类算法32讲授2自学/作业33上机6上机上机Ml, M22上机/实验2课程大作 业四、考核方式序号考核环书操作细节总评占比1平时作业1 .每周布置至少2道题目,平均每次课1道题以上。2 .成绩采用百分制,根据作业完成准确性、是否按时上交、是否独立完成评分。20%2平时表现1 .课堂表现。2 .考勤。3 .能保障课程正常秩序。15%3上机作业1 .按要求按时完成上机题目2 .根据上机作业完成质量、是否按时上交进行评分25%4课程实践1.本课程要求利用指定编程语言,完成指定数据集的数据预处理、数据建模、分析和评估;40%报告2.根据数据分析和模型建立、分析情况评分。五、评分细则序号课程目标考核
11、环节大致占比评分等级1Ml平时作业30%D作业抄袭,未能按时完成,缺交作业C独立思考、按时完成,格式比较合理、70%的作业评价为A,A+B独立思考、按时完成,步骤比较完整、80%的作业评价为A,A+A独立思考、按时完成,解题思路清晰、格式合理、90%的作业评价为A,A+2Ml平时表现20%D不参与课堂互动,不能保障课堂正常秩序C较少参与课堂互动,不能保障课堂正常秩序B精神状态良好,问题回答较好,能够保障课堂正常秩序A积极回答问题,精神状态饱满,能够保障课堂正常秩序3Ml课程实践 报告50%D未完成数据处理和模型建立、分析任务C数据处理和模型建立、分析时存在一定缺陷B基本完成数据处理、模型建立、
12、分析和评估任务A高质量完成数据处理、模型建立、分析和评估任务。4M2平时作业10%D作业抄袭,未能按时完成,缺交作业C独立思考、按时完成,格式比较合理、70%的作业评价为A, A+B独立思考、按时完成,步骤比较完整、80%的作业评价为A,A+A独立思考、按时完成,解题思路清晰、格式合理、90%的作业评价为A,A+5M2上机作业35%A作业及时完成,能够完成基本数据分析任务,完成部分选作题,有自己的见解B作业及时完成,能够完成基本数据分析任务C部分完成基本数据分析任务,方法或模型选择存在一定缺陷6M2平时表现15%D不参与课堂互动,不能保障课堂正常秩序C较少参与课堂互动,不能保障课堂正常秩序B精
13、神状态良好,问题回答较好,能够保障课堂正常秩序A积极回答问题,精神状态饱满,能够保障课堂正常秩序7M2课程实践 报告40%D未完成数据处理和模型建立、分析任务C数据处理和模型建立、分析时存在一定缺陷B基本完成数据处理、模型建立、分析和评估任务A高质量完成数据处理、模型建立、分析和评估任务8M3平时作业40%D作业抄袭,未能按时完成,缺交作业C独立思考、按时完成,格式比较合理、70%的作业评价为A,A+B独立思考、按时完成,步骤比较完整、80%的作业评价为A,A+A独立思考、按时完成,解题思路清晰、格式合理、90%的作业评价为A,A+9M3平时表现20%D不参与课堂互动,不能保障课堂正常秩序C较
14、少参与课堂互动,不能保障课堂正常秩序B精神状态良好,问题回答较好,能够保障课堂正常秩序A积极回答问题,精神状态饱满,能够保障课堂正常秩序10M3课程实践 报告40%D未完成数据处理和模型建立、分析任务C数据处理和模型建立、分析时存在一定缺陷B基本完成数据处理、模型建立、分析和评估任务A高质量完成数据处理、模型建立、分析和评估任务11M4平时表现100%D不参与课堂互动,不能保障课堂正常秩序C较少参与课堂互动,不能保障课堂正常秩序B精神状态良好,问题回答较好,能够保障课堂正常秩序A积极回答问题,精神状态饱满,能够保障课堂正常秩序评分等级说明:A, B, C, D, E = 90-100, 75-89, 60-74, 0-59六、教材与参考资料序号教学参考资料明细1图书I Python数据分析与数据挖掘实战,张良均等著,机械工业出版社,2020.2图书1数据挖掘导论,Pang-Ning Tan等著,人民邮电出版社,2011. (*主教材)3图书I数据挖掘概念与技术,韩家炜等著,机械工业出版社,2012.