《基于数据挖掘的学生数据剖析系统研究.docx》由会员分享,可在线阅读,更多相关《基于数据挖掘的学生数据剖析系统研究.docx(49页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、中图分类号:TP311 单位代码:10231学 号:2013300874 基 于数据挖掘的学生数据剖析系 统研究学科专业: 计算机技术 研究方向: 计算机辅助教育 作者姓名: 李晓楠 指导教师: 王建华 教授 哈尔滨师范大学 二一五年五月 中图分类号:TP311 单位代码:10231学 号:2013300874硕 士 学 位 论 文 基于数据挖掘的学生数据剖析系统研究 硕导士 研 究 生 :李晓楠师 :王建华 教授学答科辩专日业 :计算机技术期 :2015 年 5 月 授 予 学 位 单 位A Thesis Submitted for the Degree of Master STUDENTS
2、 DATA ANALYSIS SYSTEM BASED ON DATA MINING Candidate Supervisor Speciality Date of Defence :Li xiaonan : Professor Wang Jianhua : Computer Technology: May, 2015 Degree-Conferring-Institution a r r l r s t目录 目 录摘 要 . II Abstract . V 第一章 绪论 . 1 1.1 系统的研究背景和意义 . 1 1.2 研究现状 . 1 1.3 本文主要研究方法及创新点 . 3 1.4
3、本文的主要工作安排 . 3 第二章 数据挖掘 . 5 2.1 数据挖掘的概念 . 5 2.2 数据挖掘的功能 . 5 2.3 数据挖掘的过程 . 6 2.4 数据挖掘的分析方法 . 7 2.5 数据挖掘的工具及相关技术 . 8 2.6 本章小结 . 8 第三章 关联规则及其算法 . 0 3.1 关联规则概述 . 0 3.1.1 关联规则的定义 . 0 3.1.2 关联规则的过程 . 11 3.2 关联规则挖掘算法 . 11 3.2.1 Aprior 算法 . 11 3.2.2 改进的 Aprior 算法 . 3 3.2.3 系统中改进 Apriori 算法的目的 . 5 3.3 本章小结 .
4、6 第四章 学生数据剖析系统设计 . 7 4.1 系统构架 . 8 4.2 功能模块设计 . 8 4.3 学生数据剖析系统主题分析 . 0 4.4 数据库设计 . 1 4.4.1 需求分析 . 1 4.4.2 概念设计 . 2 4.4.2 数据库表的设计 . 2 4.5 本章小结 . 4 第五章 数据挖掘在学生系统中的应用 . 5 5.1 系统开发环境 . 5 5.2 系统运行实例界面 . 5 I 哈尔滨师范大学硕士学位论文 5.3 学生分析系统案例分析 . 7 5.3.1 对课程之间关系的挖掘 . 7 5.3.2 SPSS 统计分析验证 . 1 5.4 本章小结 . 3 结 论 . 4 参考
5、文献 . 5 攻读硕士学位期间所发表的学术论文 . 8 哈尔滨师范大学学位论文原创性声明 . 9 哈尔滨师范大学学位论文版权使用授权书 . 9 哈尔滨师范大学学位论文独创性声明 . 0 哈尔滨师范大学学位论文授权使用声明 . 0 致 谢 . 1 II 摘要 摘 要随着网络和信息 技术的飞速 发展,人类在 生产生活中所 产生的信息数 据量呈几何指数增长,数 据已经从简单的 处理对象转变 为一种基础性的 资源,政府部门和学术研究机构投 入了大量的人力 、物力资源来 收集、存储,寻 找有效的方法来利用这些数据。如何能够有效的管理和利用这些大数据已经成为普遍热议的话题。而随着计算机应 用技术的普及,
6、网络存储数据 量不断增加,用户 对数据的 采集、处理、存储能力 等方面提出了新 的要求,数据 挖掘技术在这种 形势下应运 而生,并被应用到生产生活的各个方面,发挥其重要的作用。 近年来国家对教 育的重视,以及 各大高校采取 的扩招政策, 使得教务系统积累了大量的教学数 据。学生的 信息数据具有大 量的、复杂的、 不确定性等特点 ,因此学校希望除了 具备有存储、删 除和查询的功 能外开拓出其他 新的功能 ,更重要的是希望学生 数据剖析系统 能够发挥教学 辅助决策的能力 。应用数据挖掘 技术来解决这个问题即是可行的,也是有效的。 本文应用数据 挖掘技术对在 校学生信息数据 进行挖掘, 建立一个学生
7、 数据剖析系统,从大量 的学生数据中提 取有价值的关 联规则信息, 用于辅助修改 教学方案,提高教学质量。该系统主要采用 B/S 体系结构, Microsoft SQL Server 数据库管理系统,Dreamweav er 集成开发环境,用 JSP 技术开发 Web 页面,运用关联规则挖掘方法对学生数据进行分析,最后使用 SPSS 统计分析软件对学生数据剖析系统分析的结果进行 验证,以此 来证明所设计的 学生数据剖析 系统具有可行性 及正确性。 关键词 大数据;数据挖掘;数据分析系统;关联规则 III 哈尔滨师范大学硕士学位论文 Abstract With the development o
8、f network and informatio n technology, the amount of data generated b y human production and life exponentially exponential growth of data processing has b een transformed from a simple object as a basic resource, government and academic research institutions put a lot of manpower, material resource
9、s to collect, store, looking for effective ways to use the data. How to effectively manage and use these big data has become a hot topic in general. With the popularity of computer application technology, the increasing amount of data network storage, aspects of the user for data collection, process
10、ing, storage capacity and put forward new requirements, data mining technology came into being in this situation, and applied to production and all aspects of life, play an important role. In recent years, the countr ys emphasis on education, and enrollment policies adopted b y major colleges and un
11、iversities, making the Senate education system has accumulated a lot of data. Students have the characteristics of a lot of information and data, the complexity, uncertainty, etc., so the school hopes addition to a memor y, delete, and query functions to open up other new features, more important is
12、 the hope that students will be able to play a teaching data analysis system aux iliary ability to make decisions. Application of data mining techniques to solve this problem that is feasible and effective. In this paper, data mining technology to the student information management system to create
13、a student data analysis system to extract valuable information from a large number of association rules student data, thus modifying secondary education programs to improve the quality of teachin g. The system uses B/S architecture, Microsoft SQL Server database management system, Dreamweaver d esig
14、n platform, using JSP technolog y to develop a Web page, using the association rule mining method for students to analyze the data, and finally using SPSS statistical analysis software to analyze student data systems analysis to verify th e results, in order to prove the student data analysis system
15、 designed feasibility and correctness. Key words Big data;Data mining;Data analysis system;Association rules IV 第一章 绪论 第一章 绪论 1.1 系统的研究背景和意义 数据挖掘 DM(Data Mining)是作为数据处理的新技术,它融合了数据库技术、人工智能、机器学 习、统计学等信息技术 。其中最主要的来源于统计学和机器学习,从而也体现出了数据挖掘技术的精确性和实践性 。统计学和机器学习两者的主要区别是对 数据性和形式化 的重视不同, 模型和算法的重 视不同。统计学源于数学,它强
16、调 在理论基础上建 立某种有意义 的东西后在进行 实验。而机器 学习起源于计算机实践,更注重科学探究和创新实践。 数据挖掘技术是在 1989 年被人类提出的,自提出以来就一直在改变人们利用数据的方法,通过 其独有的挖掘技 术获取数据间 隐藏的规则,为 人们提供用于决策的关键信息。它 以被应用在许多 领域,如商业 ,金融和生产等 部门,但很少用在教育教学领域, 尤其是缺乏系统 研究的教育管 理信息系统方面 。随着教育信息管理系统功能的不 断完善,研究学 者将注意力转 移到了隐藏在学 生数据背后的关系研究上。目前整个系统的数据储存量很大,包括教师数据、学生数据两大模块,而教育管理信息系 统针对如此
17、庞大 的数据信息 只拥有简单的 查询、统计、打 印等功能。如果能将这些数据进行深入挖掘、分析,从中发现其内部存在的某种联系,那么将获得一些有利的建议性信息。 本文将在学校 教务管理系统中 充分发挥数据 挖掘的作用 ,对教务管理 系统数据库中的学生相 关数据进行挖掘 分析,以发 现出隐藏在其中 的有价值的知识 为目的,为教育工作者管理学生及学生就业提供帮助 。与此同时教育工作者们也可充分了解每位学生 的学习规律及 特点,从而提出 兼顾到所有学 生而制定的有 效的教学模式。同时, 在数据挖掘的基 础上建立一个 学生数据剖析系统 ,即有助于学生进行自我检讨,也 可帮助老师 做出正确的教学 方案,通过
18、这两 种的改变模式来 提高学校的教学质量。 1.2 研究现状1980 年美国人首先提出了数据挖掘技术概念的雏形,直到 1989 年,在第 11 届国际联合人工智 能学术会议上数 据挖掘的概念 才被正式提出, 当时被命 名为数1 123哈尔滨师范大学硕士学位论文 据库中的知识发现(KDD) 。第一届 KDD 会议在加拿大蒙特利尔举行,并且国际 KDD 组织将这次专题会议改名为国际会议 。随着科技的进步,研究人员的增多,会议的规模也在不断壮大,研究重点从起初发现方法、理论逐渐向系统应用转移,更加重视发现策略和技术的集成以及多学科间的相互渗透 。数据挖掘技术以它独特的方式改变着 人们利用数据的 效率
19、,因 此它成为了现阶 段人工智能和 数据库研究领域的热点和重点。 经过时间的推移 ,技术的不断更 新、完善,到 目前为止数据 挖掘技术已被应用到医疗、食品、 水利、电信和金 融等多个行业 。其中一些 典型应用,如在 天文学领 域研 究中 ,由 加州 理工 学院 喷气 推进 实验 室与 天文 科学 家共 同合 作开 发的SKICAT 系统 ,其作用是协助科学家发现遥远的类星体;在生物学研究中,应用数据挖掘技术对消费者的 DNA 和其购买行为模式进行挖掘分析,帮助商家进行有针对性的销售;在商 业中的应用,利 用数据挖掘 技术对银行或商 业上的诈骗行为 进行预测,帮助企业或个体避免被诈骗;IBM 公
20、 司开发的 AS 系统是针对美国职业篮球赛的数据进行挖掘分析,协助教练优化战略战术等 。 在国外,研究学 者针对数据挖掘 技术的研究及 应用做了很多 的努力,它的应用范围也很广,而且在每一领域均已取得显著成绩。 在国内关于数据 挖掘的应用与开 发的研究也非 常迅速, 到目前为止, 以美国伊利诺伊大学的华 裔科学家韩家炜 教授为首的 科研人员,在各 领域的研究应用 都取得了明显的成绩。 韩家炜教授在 一次接受记者采 访时提到,目 前数据挖掘 领域仍存在一 些需要解决的问题。例 如:数据挖掘尚 无统一的理论 支持以及统一 的流程管理; 随着数据量的不断增加, 数据之间关系越 来越复杂,在 对数据进
21、行挖掘 分析时所需要关注的问题也越来越 多,例如对软、 硬件性能的要 求;在应用 数据挖掘对一 些有时间限制的交易数据 进行分析时,需 要注意时间 维度的影响; 随着计算机使用 的普及,网络技术的 广泛应用,若 对存储在网络云 中大量的数据进 行挖掘,需 要新的理论方法支持; 目前在对大型数 据进行挖掘时 我们通常采用分布 式挖掘, 而基于agent 的智能系统能够降低人工的参与度;针对一些特定领域,如生物基因、自然环境等领域,这些 领域的挖掘仍 存在很大的开 拓空间;目前 针对于一些动 态的、非平衡的、成分敏感的数据,仍缺乏良好的处理方法 。 在以人为本的当今社会中,教育成为主要的话题。如果
22、能够将数据挖掘应用到大量的教育信息 中,从而挖掘出 有利于教育决 策的有价值的信 息,将会大大提升国内的教育管理效率和教育教学水平。 2 45-84.7.509.48第一章 绪论 1.3 本文主要研究方法及创新点 本文利用数据 挖掘技术的优 势,结合在校大 学生的信息 数据建立一个 学生数据剖析系统,该系统主要采用浏览器/服务器体系结构, Microsoft SQL Server 数据库管理系统,Dreamweaver 集成开发环境, 用 JSP 技术开发 Web 页面,使用关联规则方法对学生数据进行挖掘分析。针对传统 Apriori 算法重复扫描数据库和搜索频繁项集的过程 中产生大量中间 项
23、集的不足 点做出了改善 ,从整体上提高 了挖掘的效率。最后利用著名的 SPSS 统计分析软件对学生数据剖析系统获得的结果加以验证,从而证明该系统具有实用性和可行性 。 1.4 本文的主要工作安排 根据研究内容,本文主要内容包括以下五个方面,如图 1-1 所示。 3 10哈尔滨师范大学硕士学位论文 图 1-1 论文安排 FIG. 1-1 paper arrangement4 第二章 数据挖掘 第二章 数据挖掘2.1 数据挖掘的概念 数据挖掘也可称为数据库中的知识发现(Knowledge Discover in Database,简称 KDD) ,在 1989 年,它由 Piatetsky- sh
24、arpiro 在美国的底特律市召开的第 11 届国际联合人工智能学术会议(IJCAI)上第一次被正式提出 。随后在 20 世纪 90年代数据挖掘技术 得到了迅猛 的发展,它的研 究内容也由浅 入深,研究领 域由窄变宽,数据挖掘作为一个多学科领域,它的定义方式有多种。例如: (1)数据挖掘是从大量的数据中提取出隐含的、过去未知的、有价值的、潜在的信息 ; (2)数据挖掘是从数据中挖掘知识、提取知识、数据/模式分析、数据考古和数据捕捞 ; (3)数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程 。 随着科学技术的 进步
25、,数据 挖掘的定义也 得到了不断的 完善。简单地 理解,数据挖掘就是在众 多复杂的数据库 中对于相关知 识的提取,以此 来组成新的知识库的过程。 数据挖掘亦可称为数据库中的知识发现(KDD) ,是由于 KDD 是从给定数据中识别出有效的 、新颖的、潜在 却有价值的 、而且最终可以 转化为被客户 理解的模式的过程;而数据挖掘是在用户允许的计算机处理效率内,KDD 通过一定的算法生成特定模式的 一个步骤。所以 在多数场合 ,如技术综述中 ,不将两种 概念加以区分 。 2.2 数据挖掘的功能 适用于数据挖掘的知识可划分为广义知识、特征知识、差异知识、关联知识、偏离知识和预测知识等。与之相应的,数据挖
26、掘可以分为以下七类功能,如表 2-1所示。5 1011121314哈尔滨师范大学硕士学位论文 表 2-1 数据挖掘的功能 Table 2-1 the function of data mining 功能 分类 估计 聚类 预测 相关性分组或关联规则 复杂数据类型挖掘 描述和可视化 描述 数据库中的数据是按照某种规则划分好的,然后我们选出划分好的训练集,之后运用分类技术建立分类模型,最后将数据库中的每个数据项都映射到一个给定的类别上 主要用于处理大量的、不确定的、连续的值的输出 把原始数据按照某种相似性进行划分,保持同一类中数据间的相似性最大,不同类中的数据间相似性尽量最小在分类或估值的基础上创
27、建对位置变量预测的模型 指某种事物发生或改变时必定引起着其他事物的发生或改变 从文本,网页,图形图像,视频,音频等数据中挖掘有价值的讯息和知识的计算机处理技术 用一种直观的方式表现数据特征,让用户方便的分析数据间的存在趋势 2.3 数据挖掘的过程 数据挖掘实质上是一种迭代的过程,该过程是从大型数据库中挖掘出隐藏的、有效的、可利用 的信息,并将 获得的信息应用 于协助人员制定 决策或设计 规划。其过程大致分为对 问题的定义、数 据的收集和预 处理、数据挖掘 和对数据 结果的评价四个阶段,如图 2-1 所示 。 问题定义 数据收集和预处理 数据挖掘 数据结果评价 1、 问题定义阶段 图 2-1 数
28、据挖掘的过程 Figure 2-1 the process of data mining 大多数基于数据的建模研究都是在一个特定的应用领域完成的,因此通常需要具备该领域的专业 知识和经验,才 能对问题进行 有意义的分析。 在这一阶段我们首先需要确定研 究的目标,即我们 需要挖掘 什么,并从中得 到哪些方面是 有用的信息,这一阶段主要功能是为接下来的数据挖掘奠定良好的基础。 2、 数据收集和预处理 6 1013第二章 数据挖掘 数据收集过程中客户需从给定的数据库中提取出大量的相关数据,为下一步进行数据挖掘工作做好准备,同时保证结果的准确性。数据的预处理是将想要研究的数据进行简单的类型转换,例如数
29、据转换成适合挖掘的数据类型,为下一步的数据分析工作作准备,通常包括两部分: (1)噪音的检测与删除 噪音是数据集合中被孤立的数据值。一般来讲,噪音是由测量错误、编码和记录错误产生的,有 时也存在自然的 异常值。噪音 的删除方法有两 种:一是检测并最终去除异常点;二是开发不受噪音影响的健壮性建模方式。 (2)比例缩放、编码和选择特征 以专用于某个应用的比例缩放和不同类型的编码来合并先验知识,取其精华,去其糟粕,为数据挖掘做好充足的准备。 3、数据挖掘 这一过程是对上步经过预处理后获得的数据进行挖掘分析,是过程当中最重要的阶段。除了使用适当的挖掘工具和技术外,其它的工作都会自动完成。 4、数据结果
30、的评价 一般状况下,数据挖掘模型的建立有利于提高决策的质量。在这一阶段里主要的工作是把数据 挖掘中获得的结 果进行分析说 明,然后显示 给用户,辅助 用户解决问题。2.4 数据挖掘的分析方法 在前面我们简单描述了数据挖掘具有 7 种不同的功能包含:分类、估计、聚类、预测、相关性分组 或关联规则、描 述和可视化 、复杂数据类 型挖掘。那么与 之对应的数据挖掘分析 方法包括:分类 方法、回归分 析方法、聚类分 析方法、关联规则方法、特征分析方法、变化和偏差分析方法、Web 页挖掘方法 。 分类方法:是通过比较数据对象的相似性,将具有相同或相似特征的数据归属于同一个数据集合 中。这样就可以 将庞大的
31、数据 群划分为许 多个不同的相 对小的数据集合。 回归分析方法:是将多种变数之间存在的那种相互关联关系体现出来的一种分析方法。充分的 展示了事务数据 库中数据随 时间变化的情况 ,生成一个映 射函数用来实现将数据项映射为真实的变量,最终找出变量与属性之间的关联。 聚类分析方法:首先是将一组数据划分为几个不同的类,目的是提高相似数据之间的聚合性和相异数据之间的离散性。 7 15-17哈尔滨师范大学硕士学位论文 关联规则方法:用于描述数据库中各个数据项之间的关联程度,即判断当某一事务中某项的出现 可能会引起 其他的项在这 一事务中出现的 概率,即挖掘 出隐藏在数据间内部的关联性。 特征分析方法:主要是为了提取出数据库中数据的特征,并用适合的表达方式表述出来。这些表达方式应具有数据的综合属性。 变化和偏差分析方法:目的是找出观察值与目标参考结果的偏差。 Web 页挖掘方法:针对网络上复杂的信息数据进行系统的分析和处理,并根据结果分析相应领域 存在的危机或可 能引起危机产 生的条件,然后 对相应信息进行处