《基于数据挖掘的高校教学决策支持系统的设计与实现.docx》由会员分享,可在线阅读,更多相关《基于数据挖掘的高校教学决策支持系统的设计与实现.docx(87页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、电 子 科 技 大 学 UNIVERSITY OF ELECTRONIC SCIENCE AND TECHNOLOGY OF CHINA 专业学位硕士学位论文 MASTER THESIS FOR PROFESSIONAL DEGREE (电子科技大学图标) 论文题目 基于数据挖掘的高校教学决策支持系统的设计与实现 专 业 学 位 类 别 学 号作 者 姓 名工 程 硕 士 200790203001 陈淑芬 指 导 教 师 张晓玲 教授1 万方数据分类号 密级UDC学 位 论 文 基于数据挖掘的高校教学决策支持系统的设计与实现 (题名和副题名) 陈淑芬 (作者姓名) 指导教师 张晓玲 教授 电子
2、科技大学 成都 林思坚 高级工程师福建联迪商用设备有限公司 福建(姓名、职称、单位名称)申请学位级别 硕士 专业学位类别 工程硕士工程领域名称 软件工程 提交论文日期 2012 年 10 月 29 日论文答辩日期 2012 年 11 月 29 日学位授予单位和日期 电子科技大学 2012 年 12 月 27 日答辩委员会主席评阅人注 1:注明国际十进分类法 UDC的类号。 万方数据注 1DESIGN AND IMPLEMENTATION OF THE DECISION SUPPORT SYSTEM BASED ON THE DATA MINING UNIVERSITY TEACHING A M
3、aster Thesis Submitted to University of Electronic Science and Technology of China Major: Software Engineering Author: Shu-Fen Chen Advisor: Xiao-Ling Zhang School : School of Electronic Engineering 3 万方数据独 创 性 声 明 本人声明所呈 交的学位论 文是本人在导 师指导下进行 的研究工作及取得的研究 成果。据我所 知,除了文中特 别加以标注和 致谢的地方外,论文中不 包含其他人已 经发表或撰
4、写过 的研究成果, 也不包含为获得电子科技 大学或其它教 育机构的学位或 证书而使用过 的材料 。与我一同工作的 同志对本研究 所做的任何贡献 均已在论文中 作了明确的说明并表示谢意。 签名: 日期: 年 月 日论 文 使 用 授 权 本学位论文作 者完全了解 电子科技大学 有关保留、使 用学位论文的规 定 ,有 权 保留 并 向国 家 有关 部 门或 机 构送 交 论文 的 复印 件 和 磁盘,允许论文 被查阅和借阅 。本人授权电子 科技大学可以 将学位论文的全部或部分 内容编入有关 数据库进行检索 ,可以采用影 印、缩印或扫描等复制手段保存、汇编学位论文。 (保密的学位论文在解密后应遵守此
5、规 定)签名: 导师签名:日期: 年 月 日1 万方数据摘要 摘 要在各高职院校中每年产生大量的学 生成绩数据,传统的系统只对这些数据进行简单的备份、 查询以及统计, 并没有集中地、 全方位地反映 教学中的薄弱点 。运用一个更有效 的教学决策支持 系统,为管理者 提供决策支持 依据,必然成为 一种趋势。本论文 针对作者所在的 高职院校设计一 个基于数据挖 掘的教学决策支 持系统,目的是希 望使用该系统找 出有利于教学决 策支持的信息 ,对学院领 导者规划教学侧重点, 提高教学质 量,改进现行培 养机制等进行分 析决策,提供更 可靠的科学依据。通 过分析对比各种 数据挖掘算法, 我们发现决策 树
6、算法具有 算法描述简单,分类速 度快,特别适合 对大规模的数据 处理等优点, 因而常被应用于 分类、预测模型, 以及有目的地针 对大量数据进行 分类,找出有 价值的、潜在的 信息,因此本文将主要选择决策树算法来应用于系统设计中。 本文的第一部分工作是针对本学院 的实际情况进行需求分析,有针对地设计一个具有评价功 能的教学决策支 持系统。此系统 充分利用学 校现有的教学 数据及网络资源,是基于 B/S( 浏览器/服务器)体系结构进行设计的。首先给出该系统设计的一个总体框架 ,然后进行详细 设计,设计内容 主要包括五个 子系统:用户登 录管理子系统,数 据库管理子系统 ,学生成绩分析 与评价子系统
7、 ,试题质量分析 与评价子系统,教师教学质量分析与评价子系统。 本文的第二部分工作是重点针对学 生成绩分析与评价子系统引入决策树数据挖掘算法。根据决策树算法中的 C4.5 算法构建学生成绩分析与评价决策树模型,提取相应规则, 这样做的目的是 希望通过决策树 算法来得到所 需要的影响学生 成绩的指标。本部 分工作的意义是 一方面对决策树 算法应用于高 职院校的教学评 价管理系统进行了 一些实践性的探 索;另外一 方面所得到的一 些结果可以为后 续进行改善教学效果打下基础和提供参考。 关键词:数据挖掘,决策树,教学评价系统I 万方数据ABSTRACT ABSTRACT In various voc
8、ational colleges annually produce large amounts of student achievement data, the traditional system is only a simple backup of these data, queries, and statistics, and did not concentrate, reflect the full range of the weak points in the teaching. The use of a more effective teaching decision suppor
9、t system, to provide a basis for decision support for managers, is bound to become a trend. The thesis of the vocational colleges design based on data mining the teaching decision support system, the purpose is to use the system to identify beneficial the teaching decision support information, colle
10、ge leaders planning teaching focus, improve the quality of teaching, analysis of decision-making, provide more reliable scientific basis for improvement of the existing training mechanism. Analysis comparing various data mining algorithms, we found that the decision tree algorithm with simple algori
11、thm description, classification speed, especially for large-scale data processing, etc., and so are often used in classification, prediction model, as well as the destination for a large number o f data classification to identify valuable potential, so this will be the main choice of the decision tr
12、ee algorithm used in the system design. The first part of this article is for the College of the actual situation, requirements analysis, design of a decision support system of teaching evaluation function for. This system makes full use of the existing school teaching data and network resources is
13、based on B / S (browser / server) architecture design. First, give a general framework for the system design, and detailed design, design mainly includes five subsystems: user login management subsystem, database management subsystem, student performance analysis and evaluation subsystem, questions
14、quality analysis and evaluation subsystem Teaching Quality Analysis and Evaluation subsystem. The second part of this paper is to focus on student achievement analysis and evaluation subsystem introduction of decision tree data mining algorithms. Student performance analysis and evaluation of the de
15、cision tree model constructed according to the decision tree algorithm C4.5 algorithm to extract the corresponding rules, the II 万方数据ABSTRACT purpose of doing so is to affect student achievement indicators need to get through the decision tree algorithm. The significance of this part of the work is
16、the one hand, the decision tree algorithm is applied to vocational colleges teaching evaluation management system the practical exploration; Another one hand, some of the results obtained for the follow-up to improve teaching effectiveness lay the foundation and provide reference. Keywords: Data min
17、ing, decision tree, teaching evaluation systemIII 万方数据目录 目 录第一章 引言 . 1 1.1 系统设计的背景及现状 . 1 1.1.1 系统设计的背景 . 1 1.1.2 国内外的高校教学决策支持系统研究概况 . 2 1.1.3 国内外的数据挖掘技术发展状况及发展趋势 . 3 1.1.4 本学院现状 . 5 1.2 系统设计的目的及意义 . 6 1.2.1 系统设计意义 . 6 1.2.2 系统设计目的 . 7 1.3 系统设计特点 . 7 1.4 本章小结 . 8 第二章 数据挖掘知识概述 . 9 2.1 数据挖掘技术的引进及特点概述
18、. 9 2.2 数据挖掘的功能及模型 . 10 2.3 数据挖掘技术常用的分类方法 . 12 2.4 数据挖掘的步骤和过程 . 13 2.5 数据挖掘算法的选择 . 16 2.5.1 决策树算法的引进 . 16 2.5.2 采用 C4.5 算法构造决策树 . 17 2.6 本章小结 . 20 第三章 基于数据挖掘的高校教学决策支持系统的设 计 . 21 3.1 系统的运行环境和功能需求及性能分析 . 21 3.1.1 系统运行环境 . 21 3.1.2 系统功能需求分析 . 23 3.1.3 系统性能需求分析 . 24 3.2 系统设计 . 24 3.2.1 系统结构设计 . 25 3.2.2
19、 系统功能的划分 . 26 IV 万方数据目录 3.3 数据挖掘在系统中主要功能模块的设计 . 28 3.3.1 用户登录管理子系统设计 . 29 3.3.2 数据库管理子系统设计 . 30 3.3.3 学生成绩分析与评价子系统主要功能模块设计 . 36 3.3.3.1 选定研究的对象及挖掘的目标进行数据的采集 . 38 3.3.3.2 数据的预处理 . 38 3.3.3.3 数据分类的模型 . 38 3.3.3.4 依据 C4.5 算法及改进后的 C4.5 算法构造决策树模型 . 39 3.3.4 试题质量与分析子系统设计 . 50 3.3.5 教师教学质量与评价子系统设计 . 51 3.4
20、 本章小结 . 53 第四章 基于数据挖掘的高校教学决策支持系统的实 现 . 54 4.1 系统的实现 . 54 4.2 本章小结 . 59 第五章 基于数据挖掘的高校教学决策支持系统的测 试 . 60 5.1 系统的测试 . 60 5.2 本章小结 . 70 第六章 结论 . 71 致 谢 . 72 参考文献 . 73 V 万方数据第一章 引言 第一章 引言 1.1 系统设计的背景及现状 随着计算机和 网络为代表的信 息技术的发展 ,实现了对信息 的数字化处理。信息量的不断增 长对数据的存储 ,管理和分析提 出更高的要求 。这就需要一些 新的工具,能自动 化地把它转变为 数据,将它变成 有价
21、值的信息 及知识。许多重 要的信息,可能被隐藏在剧增的数据 中,人们希望的是能对已占有的信息 ,在更高层次上对它们进行 分析,目的是为 了充分利用这些 数据信息。 目前的数据库 都能实现以下功能,如 数据的查询功能 ,数据的录入功 能,以及数据 的统计功能。但 这些系统不支持对 数据背后重要 信息的挖掘,数 据挖掘技术可帮 助人们在数据库 的相关数据集中,对更高层次的信息,对所感兴趣的知识和规律,将它们提取出来。为了对数据库中 的数据更好地利 用,则需要对它 们在不同程度 上进行分析。数 据挖掘技术将成为 一个新的,日益 受重视的研究热 点领域,它的 优点是既可对过 去数据的发展过程进行描述,
22、还能对未来趋势进行预测。 在已知数据集 合中,数据挖掘 最初成为一个 能够发现各式各 样模型,概要及导出值的过程。数据挖掘能决定什么最有用, 什么最有前景, 什么最有启迪作用,数据挖掘应有助于决策。 本文引入数据 挖掘技术,设计 出适合于类 似本人工作的 高职类大专院校 的教学决策支持系统 ,重点从学生成 绩分析,考评数 据角度出发, 挖掘隐藏在学院 学生成绩数据中有价值的信息,在教育教学上帮助本学院, 更有效地应用策略来发现知识。 1.1.1 系统设计的背景 以往的学校对 学生考试成绩侧 重强调表面性 ,一味追求及格 率,教师也只会对学生成绩进行 简单的分析及存 档。对学生成绩 进行分析,实
23、 际上是对教学过 程的总结,是教学 决策上一个非常 重要的环节。对 考试成绩进行 分析,可反映出 学生的学习情况, 也可作为教师教 学成果的验收手 段,从而了解 学生掌握知识的 程度。再则对于学 院领导者, 可从考试成绩数 据中发现教学上 所反映出来的问题 。因而这就急切地需要一个能有针对性的、全方位的教学决策支持系统。 1 万方数据电子科技大学硕士学位论文 我国高校招生 规模在不断扩大 ,在校生人数 逐年增加,管理 层面上学校的工作量在跟着变大。在如此庞大的数 据中,学生考试成绩及考试评教上,决 策依据难以准确的获得, 更是难以评估从考试中映射出的信息发展状态。这几年,新需求带来新技术的出现
24、,应用基于 B/S 结构的网络,采用数据挖掘这样新兴的数据处理技术,开发出广泛应用于实践的 Internet/Intranet 模式的考试评价系统。 数据挖掘是以 研究多种学科交 叉为主的一 个领域,考试评 价系统依托数据 挖掘技术作为其核 心技术,已将它 的实用性很好地 表现出来,也 充分展现了它的 科学性。以往的考 试管理方式,通 常以经验为主, 将对这方面的 不足加以填补, 在管理水平上得以 提高。为了所提 供的决策依据更 加可靠,也为 管理效率的加快 提升,需切实且有效地对人才培养机制加以实现,对学校的办学特色进一步地完善。 1.1.2 国内外的高校教学决策支持系统研究概况 在考试模式
25、及 测试形式上,我 国许多高校仍 存在各方面的差 异。多种考试模式并存现象的形 成,传统的纸质 试卷依旧存在, 伴随出现新型 的上机操作考试 ,无论何种方式 ,最终都要常规 的统计,分析及 评价考试成绩。 在考试评价系统 的建设上,因为各 院校的需求不同 ,而且在评价标 准上也有差异 ,这就出现起步 迟缓的现象。部分 高校已针对各自 学院的需求,对 考试管理及考 试评价的系统进 行研发及设计,从 统计分析上完善 考试的方法。这 样的系统虽然 缺少通用性,但 按需设计所带来的功能和速度,都存在实际效率的优势,这些在各高校表现很明显。 2008 年针对高中校园现状研发出的“华星考试评价系统高中版”
26、 ,由北京华星教育集团推出, 其在教育信息化 方面已成为尖端 领域的一项研 究成果。这个系 统结合的理念较先 进,创新的功 能也同时具备 ,一旦推出就被 大规模,大范围 的应用。它的出现迅速提升了学校的综合竞争力,顺应当今社会素质教育的发展潮流,深入实践响应教育改革,将高考竞争力作为其典型的代表。 “澳大利亚昆士兰州的高中考试评价系统” 在国外相对知名,它由内部的和单课程的两部分组成,其中之一是以校为本对 系统进行评价, 生成的评价系统 ,其主要数据 源,来自校外的 跨课程方式考试,以及集中举行的标准化考试。这些具有代表性的系统被高中使用,可见国内外很重 视对考试的评价 。有针对性地集 中应对
27、本校的 需求,将直接关 联高中与高校教育,独立地发展和完善已有的高校考试评价系统。 高校利用本校 网络资源的优势 ,开发的考试评 价系统,其功能 强大且具备完整的模块。具有 的特点是,速度 较快且能保证科 学安全地对信 息进行处理。为 了2 万方数据第一章 引言 信息的正确发布能得以保障,及时 进行交流,系统需向局域网和互联网借 助。考试评价系统的开发 和使用被重视, 学院领导者的重 要决策依据来 自于考试过程所 反映出来的信息。 用户登录管理模 块和学生基本信 息管理模块, 是考试评价系统 中不可缺少的,它还包括对试题进行管理的模块,对考试成绩数据进行分析的模块,以及能反映出教 学质量好坏的
28、教 师教学质量评价 模块等。入校 以来,学校要对 学生进行各种形 式的考试考核, 并对学生的成绩 数据使用现代化 的工具进行存档 ,为了改进学校教 学的质量,管理 者间需交流并及 时进行分析。 以诊断计算机系 学生为例,对他们 进行检测。对某 班级的一名学生 的一门课成绩 ,使用考试评价 系统进行查询统计 ,结果的各项指 标以图表形式显 示,这将有利 于学生掌握基础 知识及应用技能,不仅学生可不定期对自己进行检查,而且也帮助了教师进行总结,给领导者进行决策提供强有力的支持。 以实用性强的 解决方案,有针 对地对系统进行 高效的研发,必 然使本院校符合教育的体系。 汲取高中考试评 价系统,以及义
29、 务教育的精华 及做法, 对成熟经验的借鉴,用以 对高校考试评价 系统进行建设, 搭建的评价系 统应有特色,且 能符合我国高校考试。 1.1.3 国内外的数据挖掘技术发展状况及发展趋势 人工智能学习 是数据挖掘技术 的前身,它将多 学科交叉研究领 域融合其中,且包含最新技术 ,涉及的技术有 机器学习技术、 数据库技术、 人工智能技术, 还包括知识工程和 信息检索,以及 统计学和高性能 计算,同时涵 盖面向对象方法 和数据可视化等, 它是一个技术性 地过程。数据挖 掘技术可挖掘 出潜在有用的, 并且是事先未知的 信息和知识。数 据挖掘技术也可 以提取隐含的 信息,这些信息 来自有噪声的和模 糊的
30、数据中, 或者是随机的数 据中,甚至是大 量的和不完全的 数据中。 在 1966 年数据挖掘作为一个词组出现在统计学的论文中,它是一个多学科交叉研究领域,因 为当时的大规模 数据存储和处理 技术还不够成 熟,因而统计学 家希望尽量避免在统计分析中进行数据挖掘。早在 1980 左右,数据库技术已广泛被应用,当时的热 门研究领域中出 现的数据仓库, 是以新型的数 据库作为其存储 和处理的手段,演变出来的有效技术环境中集成多数据源。随着先进的 WEB 信息处理技术及高速发 展的因特网技术 的出现,海量的 数据存储必然 为数据挖掘提供 前提条件。 3 万方数据电子科技大学硕士学位论文 20 世纪 80
31、 年代末,曾举办过国际人工智能联合会议,KDD 即基于数据库的知识发现这项技术,在召开的第 11 届专题研讨会上,第一次被提出。人们开始关注起数据挖掘这项 技术来,这给数 据挖掘一词赋予 了新的含义, 这也提升了业内 人士对数据挖掘此项技术的热情度,数据挖掘进入一个崭新的时代。 网络平台在普 及应用,时代在 不断地发展,社 会在进步,计算 机软件及硬件技术的提升,存 储和处理信息的 能力也跟着不断 在增强,因此 对于技术的难度 自然在加大。在机 器学习和模式识 别的领域里,统 计学被提出, 人工智能技术被 推广,带来数据的 可视化及高性能 计算等行业的兴 起。这对 于应付信息爆炸 的实际需要难
32、以满足,而这已涉及到了知识发现 KDD 技术的范围。人工智能协会作为主办方,曾多次召开了 KDD 国际研讨会,美国作为一大国家也多次参与该会,这让研究重点从早先 出现的发现方法 朝着系统应用的 方向转移,从 原来小规模的专 题讨论会发展成为 现在的国际美术 大会。计算机性 能的提升,飞 速地发展的体系 结构,数据挖掘技 术在不断生根发 芽,集成多种发 现策略和技术 ,注重多学科间 互相渗透。 20 世纪 90 年代末,在计算机年会上,数据挖掘(DM, Data Mining)的概念被美国提出,数据 挖掘是具有潜在 使用价值信息 的过程,通过 数据库来抽取 隐含的及未知的数据。 在计算机领域,
33、知识发现技术的 深入带来了数 据挖掘技术的蓬 勃发展,它已进入 更高的研究层次 ,是信息处理的 骨干技术之一 ,应用前景非常 广阔,对该技术, 相当多的专家学 者及商业厂家对 它的研究产生 了深厚的兴趣。 根据最近研究表明 ,传输和存储技 术的进步,数据 捕获的快速发 展,为了创建新 的商业增长点,大型系统用户采取新技术来挖掘市场以外的价值,五项关键技术在 3至 5 年内会严重影响工业,深度发展的数据挖掘技术,使得数据挖掘居于首位。1.数据挖掘产生的背景 出现大容量数据库。对数据挖掘技术的发展和普及有一定的促进作用。数据挖掘生存的基础是借助计算机对数据进行处理。 应用先进的计算机技术。伴随并行计算机处理体系的出现,以及网络技术的发展,为我们有更快捷把握数据的能力,也同时将注意力由搜集数据转向分析数据,找出对自身有重要意义的规律,这就促进数据挖掘技术发展。 现代化经营管理的需要。全球性经济竞争,企业压力趋增,它们希望从历史数据中找到管理中的问题。 要求数据挖掘有精深能力。涉及相关学科的理论与技术,如统计学,信息论,人工智能等。数据挖掘技术是信息技术发展到一定程度的必然结果 。 4 万方数据1第一章 引言 2.数据挖掘技术的发展历程 在数据库中,新术语 KDD,也称为知识的发现,是发掘模式或联系的方