《教务管理系统中数据挖掘技术的应用探究.docx》由会员分享,可在线阅读,更多相关《教务管理系统中数据挖掘技术的应用探究.docx(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、教务管理系统中数据挖掘技术的应用探究摘要:教学管理决策在高校教育中是一项重要的工作。目前,高校内部运行的各种管理系统和各类数据库,已经积累了包括学籍管理系统、成绩管理系统在内的海量数据。本文主要研究如何采用数据挖掘技术在学院教务管理系统中,对海量数据进行发掘和应用,为人才培养提供比较客观的决策支持。关键词:数据挖掘;决策树;ID3算法一、前言二、决策树分类算法决策树(DeciionTree)学习是以实例为基础的归纳学习算法。它着眼于从一组无次序、无规则的事例中推理出决策树表示形成的分类规则,它的一个最大优点就是在学习过程中不需要使用者了解很多背景知识(这也同时是它最大的缺点),只要训练例子能够
2、用“属性结论”式的方式表达出来,就能使用该算法来学习。决策树算法中最著名的算法是Quinlan提出的ID3算法。他把C.E.Shannon的信息论引入到了决策树算法中,把信息熵作为选择测试属性的标准,对训练样本集进行分类,并构造决策树来预测如何由测试属性对整个样本空间进行划分。ID3算法采用信息量作为测试属性的选择标准来分割训练样本集并最终生成决策树。三、数据的收集和整理本研究利用数据挖掘技术中的ID3算法,在教务管理系统中,实现一个专业方向选择辅助指导的模块,大学生在修完职业基础课后,能更好地按自身的特点选择专业方向。在大学生专业方向辅助指导中,我们将以服装系为例使用决策树分类挖掘技术中的I
3、D3算法,通过学生大学一年级专业基础课的学习成绩,配合问卷调查,预测学生最适合选择的专业方向。我们以华南女子学院服装专业学生在大一期间的成绩为挖掘数据源(共194个样本),根据学生各科的学习成绩信息,剔除了成绩表中与专业发展方向无显著相关性的属性,如体育等课程属性,选择7门具有代表性的专业基础课作为基础数据进行处理。其次,对训练表中的每一列成绩属性的值进行离散化处理。我们将成绩分成三个部分,用A表示80,100之间的分数,用B表示70,79之间的分数,用C表示0,69之间的分数。除了学习成绩之外,我们还需要考虑影响学生专业方向选择的其他因素,服装系的专业方向具体划分为三个方面:制板与工艺方向;
4、造型设计方向;市场营销方向。学生在大一修完专业基础课后,自行选择专业方向。为了更好地了解学生选择专业方向的动机、阶段性学习的完成情况,以及大学二年级工学结合的专业实践后对自己所选方向的满意度,我们设计了问卷调查调查:学生的个人兴趣:A.手工制作;B.创意设计;C.人际交往。选择专业方向時是否按兴趣来选择。经过一年的专业学习,觉得现在的专业方向是否合适自己。通过数据收集、数据整理之后,我们实际可以使用的数据记录为182条,由于在系统实现过程中,我们还需要预留一部分数据进行数据分析准确度测试,因此,在放入训练数据集进行决策树模型生成训练的实际数据记录为146条。四、利用ID3算法构造学生成绩分析决
5、策树(一)信息增益的计算首先我们先利用公式计算出信息熵,参加数据挖掘的记录有146条,经过两年的专业学习后,认为自己更适合学习制板与工艺方向的有58人,认为自己更适合学习造型设计方向的有48人,觉得自己更适合市场营销方向的有32人,不确定方向的8人。下面计算信息增益值。利用公式:信息增益值I(S/A)=H(S)-H(S/A)经过整理后,参加数据挖掘的属性有9个,通过计算得到的Gain(S,某q)最大,即个人兴趣对分类最有帮助,所以选择兴趣对决策树的结构进行首次分区,产生4分枝。(二)递归创建决策树选择兴趣作为测试属性之后训练实例集分为4个子集,生成4个子节点,对每个子节点递归采用上述过程进行分
6、类直至每个节点中各个实例属于同类。以“兴趣=手工制作”为例。选择手工制作的同学一共有56人,经过两年的专业学习后,认为自己更适合学习制板与工艺方向的有42人,更适合学习造型设计方向的有8人,更适合市场营销方向的有4人,不确定方向的2人。通过计算得到的Gain(S_某q.手工制作,jyl)最大,即“服装结构设计原理(简称设计原理)”的信息对分类最有帮助,所以选择“服装结构设计原理”的成绩对决策树的结构进行再次分区,产生3个分枝。计算选择兴趣为“手工制作”的学生里,设计原理成绩大等于80分,其余的6门课程成绩相应的信息增益值,发现兴趣选择手工制作的所有设计原理成绩大等于80分的同学在两年的学习后认为自己最适合工艺方向因此不再另做计算。于是,我们研究兴趣为“手工制作”且设计原理成绩介于7080分之间,其余6门成绩的信息增益值计算。通过计算得到的Gain(S_某q.手工制作_jyl.介于7080分,jcgy)最大,按照信息增益最大的原则选择“基础工艺”的成绩为根结点,并将样本分成3部分,然后对每一棵子树按照以上方法递归计算。由于决策树的构建是一个递归的计算,而本研究采用数据结点较多,因此我们在MicrooftViualStudio2005环境下用C#语言编程,利用程序生成其余的决策树。