基于数据挖掘技术的学生成绩研究-精品文档.docx

上传人:安*** 文档编号:17852294 上传时间:2022-05-26 格式:DOCX 页数:7 大小:18.62KB
返回 下载 相关 举报
基于数据挖掘技术的学生成绩研究-精品文档.docx_第1页
第1页 / 共7页
基于数据挖掘技术的学生成绩研究-精品文档.docx_第2页
第2页 / 共7页
点击查看更多>>
资源描述

《基于数据挖掘技术的学生成绩研究-精品文档.docx》由会员分享,可在线阅读,更多相关《基于数据挖掘技术的学生成绩研究-精品文档.docx(7页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、基于数据挖掘技术的学生成绩研究摘要:信息技术的发展及应用以及怎样利用信息技术提高高校的管理水平,是高职院校面临的重大课题。在学习和工作的经过中接触到数据挖掘这一先进的概念,力图通过数据挖掘从学生的成绩中找到隐含在其中的有效信息,这样既能够帮助教师了解学生的学习情况,又能够帮助学生了解学习重点,到达教学相长的目的。利用数据挖掘技术中的决策树的相关知识和方法,以多届学生的(计算机应用基础)成绩,对学生的成绩进行分析。主要使用数据挖掘中的决策树知识将决策树应用在学生成绩数据挖掘的模型上,使用软件利用算法分析出哪些因素对于(计算机应用基础)考试的影响最大,揭示其中规律,为今后教学工作及教学安排提供有效

2、的科学的指导根据。关键词:数据挖掘;考试成绩;决策树;关联规则决策树的基本概念在已有的大量源数据中得到有效的分类器有很多种办法,决策树就是其中一种有效的办法。他在数据挖掘中尤其在数据分类领域中应用特别广泛。决策树算法主要是通过一组输入样本数据然后对样本进行决策树归纳的一种方法。决策树的表现形式是一个倒树状构造图,并且在树枝的节点上一般还附带概率结果,它是一种是直观的使用统计概率来分析对象的图表示方法。几种常用的决策树算法常见的算法有、和。判定决策树算法能否适宜,就看每一个决策树分组的组之间的差异能否够大,属性差异越大就是算法越适宜。决策树算法擅于处理离散型数据,并且处理非数值性数据时效率的方面

3、也有不错的表现。决策树的评价标准建立了决策树模型后需要给出该模型的评估值,这样才能够来判定模型的优劣。学习算法模型使用训练集建立模型,使用校验集来评估模型。经过校验集评估后决策树进行评价。评估指标有分类的准确度,描绘的简洁性和计算的复杂程度等指标。决策树在计算机成绩分析中的应用确定挖掘对象本次挖掘的对象是以(计算机基础)为基础信息,之所以选择这门课程,是由于它是新生入学的第一门与计算机相关的课程,也是今后继续学习计算机相关课程的基础。(计算机基础)包含平常成绩及期末考试成绩。考试在新生入学的第一学期的期末,即每年的月份进行期末考试,期末考试总分为分,占总成绩的。期末考试的形式为上机操作,其中包

4、括,和分别占总成绩的,。在平常成绩中有次随堂测验同样分别是,和,将其成绩汇总作为平常成绩,总分为分,平常成绩占总成绩的。本论文决定使用决策树方法研究(计算机基础)考试中,和几个部分对最终成绩的影响程度。通过构造决策树能够更容易找到哪些因素对最终成绩影响更大。同时采用关联规则中的算法研究(计算机基础)和后续课程()的关联。数据的预处理本文用到的至级学生的(计算机基础)成绩及()成绩,是在学校教务部门,使用我校教务部门的教务管理软件下载得到,由于学校的管理软件的功能有限,所下面载的成绩是以班级为单位的。数据的预处理。数据的预处理对与数据挖掘有着重要的作用,在本文研究的目的模型是多界学生的(计算机基

5、础)及其后续学习课程的成绩,并且这些成绩是以文件的形式保存的。其中包含的属性包含学号、姓名、平常成绩、期末成绩、总成绩、专业名称、课程名称、任课老师等。如今需要做的就是对这些数据进行集成和预处理。数据清理。数据预处理的第一步就是处理缺失数据。通常情况下对于缺失值的处理方法包括:人工填写,使用最有可能的数值,忽略数值,平均值填充等方法。在处理(计算机基础)考试成绩的经过中发现大部分缺失值产生的原因是由于缺考造成的,所以对于缺失值的处理方法是忽略条目的方法。由计算机基础是第一学期的考试科目,所以缺考学生没有,得到有效数据条。数据集成。我们需要将(计算机基础),()等科目的成绩集成在一个成绩表中,也

6、就是数据集成。集成后数据表格包含(计算机应用基础),()考试成绩,每门课程包括平常成绩,期末成绩及总成绩,任课老师等属性。其中原始样本为个,经过预处理能够进行数据挖掘的样板数为个。本次数据挖掘样本有效率为。数据的归约。经过数据集成后,我们还需要对数据进行归约,对数据进行离散化处理把连续型数据转换为离散型数据,能够使数据挖掘的结果愈加直观简洁。在本文中我们通过数据集成,将学生的成绩数据集成到一个包含学号、姓名、专业类别、平常成绩、期末成绩、总成绩等属性的数据文件。首先我们研究的课题是利用决策树研究平常成绩与期末成绩和影响考试通过率因素。所以首先剔除()的考试成绩,以及专业类别、任课老师属性。还由

7、于姓名与学号两个属性是属于相关属性,也就是讲姓名与学号是对应的关系,互相能够替代,但是姓名还有重名的可能,而学号是唯一的,所以将姓名的属性剔除。只保留学号,平常成绩,期末成绩,总成绩这些属性。对于决策树的构成最好使用离散型数值,这样能够使结果简洁,减少计算量。所以,我们需要将成绩库中的数据进行离散化处理。目前,期末考试的总成绩为分,而评价学生通过考试的分数线为分,所以,将总成绩属性离散化为两个部分,即:将高于分的学生成绩转换为“,分数低于分的成绩转换为“。平常成绩占总成绩,满分为分,根据平常成绩大于分,小于等于分;大于分,小于等于分;大于分,小于等于分;大于分,小于等于分;小于等于分五个层次,

8、将平常成绩分为“,“,“,“五个等级。平常成绩分为,及平常表现分数四个部分,其满分分别是,。将这些成绩根据满分的,分成“,“,“,“五个等级。与此同时,期末成绩占总成绩的,共分,根据期末成绩分数大于分,小于等于分;大于分,小于等于分;大于分,小于等于分;大于分小于等于分;小于等于分,分为“,“,“,“五个等级。利用决策树做成绩分析使用软件中模型,得到运算结果。通过对结果的查看得到对于考试成绩影响最大的是“平常部分,预测变量的重要性;然后是和部分,预测变量的重要性;而“出勤部分对于能否通过考试的影响重要性为。由此得出结论:对于判定一个学生能否通过考试的几个因素中平常成绩最重要,和出勤情况的占比差

9、不多,但是对于部分的相关性却不是很强,但是由于对于学生来讲与和的重要性在学习和以后的应用中是同等重要的,所以应该加强考试出题中的难度比重。总结信息化技术的发展,对于高校这既是机遇又是挑战,笔者所在的学校的各个管理部门也在引入先进的管理系统,完善各自部门的管理。比方近些年学校陆续上了教务管理系统、学生管理系统、人事管理系统等等。这样使得笔者所在学校的管理水平上了一个台阶。升级新的管理系统为我校积累了大量数据资源。怎样利用先进管理系统带来的珍贵的数据资源也为学校各界人士提出了问题。笔者尝试利用数据挖掘这样一个新兴的学科来对学校的数据进行一些分析,力图从中挖掘出一些隐藏在数据中的一些信息,为学校的建设提供科学的理论根据。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 实施方案

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁