数据挖掘技术在高职招生中的应用-毕业论文.docx

上传人:豆**** 文档编号:29914359 上传时间:2022-08-02 格式:DOCX 页数:15 大小:138.19KB
返回 下载 相关 举报
数据挖掘技术在高职招生中的应用-毕业论文.docx_第1页
第1页 / 共15页
数据挖掘技术在高职招生中的应用-毕业论文.docx_第2页
第2页 / 共15页
点击查看更多>>
资源描述

《数据挖掘技术在高职招生中的应用-毕业论文.docx》由会员分享,可在线阅读,更多相关《数据挖掘技术在高职招生中的应用-毕业论文.docx(15页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、数据挖掘技术在高职招生中的应用 目录摘 要3ABSTRACT4一、 导论5(一)研究背景及研究意义5(二)研究的主要内容及方法5二、数据挖掘概念与技术6(一)数据挖掘的概念6(二)数据挖掘方法与技术7三、决策树模型及算法7(一)决策树模型7(二)C4.5算法8四、决策树分类算法在高职院校招生中的应用10(一)确定数据挖掘对象,进行数据采集及预处理10(二)决策树模型构建11(三)分类规则的提取及预测分析13五、数据挖掘工作成果总结14结 束 语15致 谢16参 考 文 献17 摘要随着高等教育的迅速发展,各类高等院校如雨后春笋般出现,尤其是高职院校数量的剧增,给高职院校的招生工作带来严峻考验。

2、很多高职院校出现招生成本大、招不到学生及学生不报到等问题。本文运用数据挖掘技术中的C4.5决策树分类算法,对某高职招生信息进行分析,建立了适合于高职院校招生的数据挖掘模型。然后利用该模型进行预测,得到了比较准确的预测结果,从而为高职招生认定提供决策支持。关键词:数据挖掘;决策树;信息增益率;高职招生AbstractWith the rapid development of higher education, institutions of higher learning have sprung up, especially the sharp increase in the number of

3、 vocational colleges, pose serious challenges to the enrollment of higher vocational colleges. Many vocational colleges admissions costs appear large, recruit students and students do not report such problems. This paper uses data mining techniques C4.5 decision tree classification algorithm, a voca

4、tional enrollment information for analysis, the establishment of a suitable vocational colleges admissions data mining models. Then use the model to predict get more accurate forecasting results, so as to provide decision support vocational enrollment identified. Keywords: data mining; tree; informa

5、tion gain ratio; vocational enrollment一、导论(一)选题背景及研究意义20世纪90年代末以来,随着我国高等教育事业的快速发展,高职院校如雨后春笋般一批又一批的挂牌成立。由于高职院校数量剧增,而高职计划数和报考考生的数量每年递增一般在10%左右。按人们常说的“蛋糕理论”,一块蛋糕如果分的人多了,每人分到的蛋糕就自然少了。(1)刘亚东.高职院校招生困难的原因及对策1)各高职院校均出现生源质量逐年下降,报到率低等问题。如何花费较少的费用,对现有生源信息进行有效的处理和分析,以达到更高效的招生任务,成为摆在各高职院校面前的一个比较现实的问题。目前各高校的招生和招生

6、宣传工作仅仅是根据以往的招生实际,凭上层领导的决策而开展的,工作周期长、效率低,需要耗费大量的人力、物力和财力,没有对历史数据进行一定的分析和研究,发现对工作有指导的、科学的知识和理论来指导高校科学地招生。(2)饶新颖 数据挖掘在招生决策系统的应用2)高职院校这种盲目的招生工作会引发录取院校报到率低等问题,从而引发的问题有:(1)招生费用高,学校负担重。由于招生工作需要涉及前期的招生宣传、中期的招生录取和后期的新生报到,虽然不报到的学生的比例不是很高,但是仍然浪费了部分人物、物力和财力,产生了资源的浪费。(2)学生报到率低,部分专业的新生人数会有所变化,影响了正常教学工作的开展。(3)考生被录

7、取却选择不报到,这占用了招生计划,占用了其他考生读书深造的机会,是一种公共教育资源的浪费。因此对招生工作进行研究,改进从而达到节约资源,提高效率就显得尤为重要。(二)研究的主要内容及方法针对海量的毕业生信息,高职招生工作越来越感到工作的复杂性和艰巨性。基于上述情况,本文将尝试利用数据挖掘技术中的C4.5决策树分类算法,根据高职院校招生宣传和招生工作的特点 ,在满足数据挖掘技术要求的特点基础上,对高职院校的招生工作提供有指导和促进意义的知识,便于高校使用这些知识进行招生工作,避免资源的浪费。二、数据挖掘概念与技术(一)数据挖掘的概念数据挖掘(Data Mining)就是从大量的、不完全的、有噪声

8、的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。其融合了多种学科的最新研究成果,如数理统计、机器学习、模式识别、信息处理、数据库等等。同时,数据挖掘是一门广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。数据挖掘的基本过程和步骤如图1所示。(3) Jiawei Han, Micheline Kamber 著.范明, 孟小峰等译.数据挖掘概念与技术.北京:机械工业出版社,2001.3)从商业角度来看,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务

9、数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。它的应用空间和前景也是非常广阔,现阶段已广泛应用于电子商务、电信、金融、教育和保险等多个行业。(4) 张冬冬,李玉龙, 王玉鑫 数据挖掘技术在高校贫困生认定中的应用4)图1数据挖掘基本过程及主要步骤(二)数据挖掘方法和技术目前,数据挖掘技术和实现方法很多,学术界对其分类众说纷纭。综合多种提法,本文认为分为以下类别:关联分析、决策树方法、聚类分析、遗传算法等, 它们分别从不同的角度对数据进行挖掘。三、决策树模型及算法(一)决策树模型 决策树(decision tree)是一个类似于流程图的树结构,其中每个内部节点表示在一

10、个属性上的测试,每个分枝代表一个测试输出,而每个树节点代表类或者类分布。决策树分类方法是一种以实例为基础的归纳学习方法,是数据挖掘众多分类技术中的重要组成部分“它着眼于从一组无次序,无规则的实例中推出决策树表示形式的分类规则”它采用自顶向下的递归方式在决策树的内部结点进行属性的比较,并根据不同属值判断从该结点向下的分枝,在决策树的叶结点得到结论“所以从根到叶结点的一条路径就对应着一条合取规则,整棵决策树就对应着一组析取表达式规则”决策树分类法实现简单,层次结构清晰,能够产生易于理解和分析的规则,因此是目前应用较为广泛的分类方法。(6)李磊 决策树模型在银行风险预警系统中的应用6)决策树算法是一

11、种以决策树这种数据结构为基础的分类算法。(5)Won Chan Jung,J.Bush Jones,Jianhua Chen, Optimization of the Decision Tree,Proc.Of the 1991 IEEE Int.Conf.on Tools for AI.1991.5) 目前常用的决策树算法有: CLS 算法(概念学习系统)、ID3 算法、C4.5 算法(信息比值算法)、CAT 算法(Classification and egression Trees)等。作为决策树算法中的核心算法 ID3 算法是 Quinlan 首次提出的,以信息论为理论基础,信息熵和信息

12、增益率为其分类标准,实现对数据的分类和预测。信息比值算法是在 ID3 算法的基础上,增加了对连续属性、属性值空缺等情况的处理,通过使用不同的修剪技术以避免树的过度拟合等问题。 C4.5 算法与 ID3 算法的不同之处在于其采用了信息增益率的方法来选择测试属性。(二) C4.5 算法1.C4.5算法优点由于ID3算法在实际应用中存在一些问题,于是Quilan提出了C4.5算法,严格上说C4.5只能是ID3的一个改进算法。C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;2) 在树构造过程中

13、进行剪枝;3) 能够完成对连续属性的离散化处理;4) 能够对不完整数据进行处理。 C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。2.C4.5算法的基本思想 (7)范明,孟小峰.HAN Jia-wei,et al数据挖掘概念与技术M.北京:机械工业出版社,2000,162 1717)我们假定数据划分,作为类标记的元组的训练样本集。设类标记属性具有 m 个不等的值,将其划分为 m 种不同的类 Ci(1,2,m),

14、将数据划分 D 中类 Ci所对应的元组的集合记为 ,|D|代表 D 中元组的个数,|代表 中元组的个数(1)对数据划分 D 中的元组进行分类,需要的期望信息:Info(D)= (1)设 Pi代表数据划分 D 中任意一个元组隶属于类 Ci的概率,并用| / |D|来表示 info(D)代表 D的熵。我们假定属性 A 具有 v 个不等的值,在属性 A 的基础上,将 D 分成 v 个不相同的子集,其中 表示在 A 上具有值 且包含于 D 的元组 因而计算属性 A 所得的信息熵为: (2)(2)可以利用期望信息和信息熵值,得到相应的信息增益值。对于在属性 A 分支上获得的信息增益,由下面的公式可以得到

15、:Gain(A) = info(D) infoA(D) (3)(3)假定属性 A 具有 v 个不等的值,我们可以利用属性 A 将 D 划分为 v 个不同的子集,其中 代表 D 中在 A 上具有值 的样本。接下来以属性 A 的值为参考标准对训练样本进行划分,则其初始信息量(SplitInfoA)为: (4) (4)我们将信息增益与初始信息量的商定义为信息增益率:Gainatio(A) = (5)3.C4.5 构造算法描述(8)司巧梅.基于决策树的农业气象灾害等级预测模型J,安徽农业科学,2010,38(9):4925 49278)下述算法是构造决策树的简单步骤:(1)首先将训练样本集的每一项属性

16、做数据预处理;(2)计算各属性的信息增益率,并选取信息增益率最大的属性作为根节点;(3)从候选属性集中删掉已使用的属性;(4)在剩余属性中重复进行(2) (3)步骤,最终使得候选属性为 Null;之后为所有叶节点一一分配类别属性,并且合并及约减相同的类别属性;(5)生成决策树并进行分类规则的提取,最终进行预测分析。四、决策树分类算法在高职院校招生中的应用(一)确定数据挖掘对象,进行数据采集及预处理 首先确定本文的数据挖掘对象是高职院校生源报到信息。其次对于招生对象的选择,即要根据学生个人成绩进行判断,还要参考学生的生源种类(如应届、往届等)和对专业是否满意等来综合考虑。 本文选取某高职12级6

17、0名学生的相关信息进行建表分析及数据预处理,其中包括学生的成绩所在区间、专业满意情况、生源种类、生源地种类,通过数据合并、数据约减,删除数据集中的无关信息等方式,将数据表中的数据类型及值抓换成相同的格式。 在此过程中进行的数据预处理主要包括:(1) 对学生成绩进行处理,将其划分为3类:高(大于等于500分)、中(400-500)、低(小于等于400分)(2) 对学生生源种类进行处理,根据实际情况,将其划分2类:应届、往届(3) 对学生的专业满意情况进行处理,将其划分为2类:满意、不满意通过数据预处理,得到学生基本信息表,如表1所示(仅显示部分元祖)表1 学生基本信息表编号成绩生源种类专业是否满

18、意是否报到1高应届满意未报到2低应届满意报到3低应届满意报到4低往届满意报到5中往届满意报到6中往届不满意未报到7高往届不满意未报到8中往届不满意报到9中往届满意报到10中应届满意未报到 将表1中的2/3数据作为C4.5算法的训练集,剩下的1/3数据作为测试集。(二)决策树模型构建 利用数据预处理得到的训练集,根据决策树分类C4.5算法,将学生的成绩所在区间、专业满意情况、生源种类、生源地种类作为该算法的对象属性,将是否报到作为目标属性,由信息增益率的概念将其属性进行一次,选取具有最大信息增益率的某个属性作为测试属性,进而建立根结点,同时以该属性作为标记,然后对该属性的每类值建立分枝,最终采用

19、自上而下的递归方法构造一棵决策树(9)马伟杰 C45 决策树法在高校贫困生评定中的应用J 河南教育学院学报:自然科学版,2012,21(3):27 309),具体过程如下: 在训练样本集D的40个元组中,是否报到属性具有2个不同的类m=2,(报到、未报到)其分别所包含的元组的个数为:| =31,| =9,则先使用,则先使用(1)式来计算训练样本分类所需期望信息,再计算各个属性的信息增益率:Info(D)=0.284992132+0.484200696=0.7691928其次由(2)式分别计算每一个属性的熵,以“成绩”为例,此属性有“高、中、低”3种属性值,由公式(2)可得学生成绩的熵为:inf

20、o(成绩) =0+0.485475+0=0.4854753因此,根据公式(3)可知,学生成绩的信息增益为:Gain(成绩) =0.76919280.4854753 =0.2837175学生成绩的初始信息量,根据公式(4)有:Splitinfo(成绩)=0.4643856+0.5+0.5210896=1.4854752从而根据公式(5)可得,学生成绩的信息增益率为:Gainatio(成绩) =同理知:该招生报到认定训练样本集中的其他所有属性的信息增益和信息增益率,如表2示:表2 各属性的信息增益和信息增益率表属性名称信息增益信息增益率分枝排序成绩0.28371750.19101生源种类0.274

21、83190.15612专业是否满意0.07955330.03803然后根据表 2 中的计算数据,因属性“成绩”的信息增益率具有最大值,故选择此属性作为根结点。对于其他的所有分枝,反复进行以上步骤,最终生成一棵决策树即可得如图2所示的招生决策树。图2招生决策树(三)分类规则的提取及预测分析遍历整棵决策树,利用 IF THEN 形式(10)廖芹,郝志峰,陈志宏 数据挖掘与数学建模M 北京:国防工业出版社,2010:150 18610)输出叶结点的类属性值,如下所示:(1)IF(成绩=“高”)THEN(是否报到=“未报到”)(2)IF(成绩 =“低”)THEN(是否报到 =“报到”)(3)IF(成绩

22、 =“中”AND 生源种类 =“往届 ”)THEN(是否报到 =“报到”)(4)IF(成绩 =“中”AND 生源种类 =“应届 ”AND专业是否满意=“满意”)THEN(是否报到 =“报到”)(5)IF(成绩 =“中”AND 生源种类 =“应届”AND 专业是否满意 =“不满意”THEN(是否报到 =“未报到”)本文利用以上挖掘规则对测试数据集的 20个元组进行测试,其准确率为 86.4%,表明此模型具备良好的准确性和有效性五 、数据挖掘工作结果总结 由上述决策树模型,可以得出以下结论:结论1:考生在成绩较低的情况下都报到;在实际招生中的情况亦是如此,此类考生生源质量较差。结论2:考生在成绩较

23、高的情况下会选择复读等。此类考生并不是招生工作的重点。结论3:成绩中等的考生是招生工作的重点,此类考生不少,是生源的主要集中区间。在录取时应尽量满足该区间的考生专业要求,提高考生报到率。结论4:往届学生在专业等录取条件都满足的情况下会选择报到,因次这是一个较好的招生资源,因将工作重心向此倾斜。总的来说,学校的招生宣传主要应把精力集中在县区普通中学的考生上,重点吸引处于合适分数区间的考生,录取时适当与这类考生进行相应的倾斜,提高报到率。另外,考生填报志愿时主要偏向选择办学水平好、就业情况佳的专业,而对于某些报考人数较少的专业,学校应该考虑优化专业设置、提高培养质量、提高就业率,促进学校的整体报到

24、率。结束语 经过了两个多月的学习和工作,我终于完成了数据挖掘技术在高职招生中的应用的论文。从开始选定论文题目到论文构思,再到论文文章的完成,没走一步对我来说都是新的尝试和挑战。期间,我遇见过很多次瓶颈,但最终都通过查找资料,请教老师等方式解决了问题,每一个问题的解决都让我觉得心中充满了成就感。对数据挖掘从最开始感兴趣到感性认识再到掌握一定的基础知识和常用算法,这个过程带给我的收获是多方面的。一方面,丰富了自己的知识,满足了自己的求知欲。另一方面,提高了自主学习能力,这将使我终生受益。从中,我也认识到在大数据的时代背景下数据挖掘的发展前景是无限的,也给自己选择了一条可能的发展道路。 虽然我的论文

25、作品每一段字,每一处计算都是自己辛勤劳动的成果,但是受自身能力和时间等主客观调剂限制,我的作品还存在很多局限性和不足。但我可以自豪的说,我已经尝试了自己动脑动手分析、解决问题的那种苦尽甘来的喜悦。我也会以此为新起点,在学术道路上努力前行。致谢时光如白驹过隙,转眼间四年的大学生活就要结束,在此论文完成之际,向所有关心、帮助和指导过我的师长和同学表达我最诚挚的谢意!感谢恩师,论文的选题、开题、文章结构的构筑,到最后的定稿,都得到我的导师靳延安老师的细心指导与提携。导师严谨治学的作风和诲人不倦的态度将是我一生学习的楷模。在此谨向我最敬重的老师致以最诚挚的谢意!同时也向在我学习期间给予学业上指导和帮助

26、的诸多集学品和人品与一身的其他老师致意最衷心的感谢!感谢我的父母,是你们一路以来的辛苦付出才让我取得今天的成绩,是你们让我了解到生活与生命的真谛,在我痛苦难过的时候,张开手臂为了挡风遮雨,谢谢你们为我创造的美好的生活。感谢同窗与室友,我们共同度过了这欢笑与泪水并存的岁月,我们一起学习,一起进步,一起梦想人生,一起憧憬未来,让这四年的学习生涯成为人生值得回味的回忆。另外,我还要特别感谢长江工程职业技术学院领导和老师的支持,他们为我完成这篇论文提供了巨大的帮助。 至此我要感谢的人还有很多很多,原谅我没有办法逐一将你们列出,也请原谅我的不善言辞。但请坚信,在我心里,所有在我的生命中出现的亲朋好友,你们对我的帮助,我将永生难忘。我会记住所有人对我的帮助和支持,我衷心的希望你们永远幸福快乐。最后,我也祝愿我人生的下一段路越走越好,人生越来越精彩!参考文献15

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 小学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁