《探索性数据分析期末论文.docx》由会员分享,可在线阅读,更多相关《探索性数据分析期末论文.docx(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、探索性数据分析方法在成绩分析中的应用 摘要:英语、物理、高数、线代、概率论基础、概率论与数理统计等高校公共基础课程旨在帮助学生建立科学的知识结构,培养学生基本的思维能力、分析解决问题的能力和英语运用能力,为后期专业课程的学习奠定基础,因此这类课程的教学质量与教学效果具有尤为重要的意义。本文利用探索性数据分析方法对某高校20022009级学生公共基础课程的考试成绩进行了统计分析(采用SPSS软件),以期通过成绩状况探讨此类课程的教学效果及其影响因素,并提出此类课程教学改革的建议关键词:成绩分析:探索性数据分析:教学评估1 研究背景课程考试是高校评估学生学习成绩 检验教师教学效果的主要形式,充分发
2、挥考试的测量、诊断、反馈、激励作用 是高校提高教学质量的重要环节教育部在2005年1号文件中再一次强调“高等学校要努力探索和建立本校教学质量保证与监控机制” 对于高校教学质量监控机制中不可或缺的试卷分析丁作应该引起高度重视。英语、物理、高数、线代、概率论基础、概率论与数理统计等是学校公共基础课程, 旨在帮助学生建立科学的知识结构,培养学生基本的思维能力、分析解决问题的能力和英语运用能力,为后期专业课程的学习奠定基础因此加强这类课程的试卷分析质量提高教学质量与教学效果具有尤为重要的意义。2 探索性数据分析自17世纪中叶统计学开始萌芽,直至上世纪三、四十年代其完整体系的建立,为了追求“不确定性的数
3、量度量”,学者们不得不迁就于“正态分布”模型,而不太顾及数据的实际情况。伴随着数理统计学者的数学和概率论水平的提高,导致了数理统计研究论文的高度数学化,表现为大量论文所讲的理论莫测高深而所提供的有用方法则极少在此背景下,探索性数据分析(exploratory data analysis以下简称EDA)于上世纪六十年代被提出并得到了越来越多的学者关注与研究。具体而言EDA是对调查、观察所得到的一些原始数据,在不做先验假定或做出尽量少的先验假定下进行处理,通过作图、制表等直观形式和方程拟合、计算特征量等数学手段,探索数据结构和规律的一种数据分析方法。当我们对数据中的信息没有足够的认识,不知道应该采
4、用哪种传统统计方法进行分析时探索性数据分析就会非常有效。EDA 的出现主要是在对数据进行初步分析时,此时因为对数据的基本特点还没有认识,所以往往还无法进行常规的统计分析。这时候,如果分析者先对数据进行探索性分析,辨析数据的模式与特点,并把它们有效发掘出来,就能够帮助我们选择和调整合适的分析模型,并揭示数据相对于常见模型的种种偏离。在此基础上再采用传统统计分析技术,如区间估计和假设检验就可以更加科学有效地评估所观察到的模式或效应。值得一提的是,正因为EDA更强调直观及图形显示所以它采用了很多创新的可视化技术而随着科技的发展尤其是现代家庭电脑的普及。目前这些可视化技术已经有了很好的实现载体,例如数
5、学软件MATLAB、SPSS等。即使不具备统计学基础的分析者也能在数学软件的帮助下轻松地进行数据拟合以及探寻残差的规律,获得意想不到的发现,为后续的研究分析启发思路、指明方向。由此可见将EDA引入到试卷分析中有很大的必要,并且必将有力推进相关的研究工作。下通过具体的案例分析,展示EDA应用于试卷分析的基本步骤及一些相关结论。3 实证分析在此对某高校20022009级学生公共基础课程的考试成绩进行分析。31描述性统计分析首先我们对样本进行描述性统计分析。由表1可以看出,从20022009各年级六门课程成绩的总体情况来看,六门课程的平均分在6580分之学质量在稳步提升。从标准差来看,这几级学生除了
6、英语之外,其他各科成绩的标准差都较大。说明物理和数学的考试成绩分化现象比较严重,这也表明物理和数学的学习对学生个人素质要求较高,更加需要教师和学生的密切配合。从学习态度间波动,而从2006级到2009级来看,六门课程平均的角度分析,说明学生普遍对英语比较重视,而对出现了成绩的稳步上升,表明该校近几年来的教 其他各科则不够重视。 表1 20022009各年级基础课程成绩的描述性统计32探索性数据分析再简单的一批数。也有某些特征不容易由直接观察数据看出来。用合适的图示方法,比如直方图、茎叶图等,把这些数组织起来,从而帮助我们认识数据的各种特征。这种基本的探索性技术是最容易掌握也是最广泛使用的。利用
7、直方图我们可以很方便的看出一批数据接近对称的程度、有多大的展布、数据间是否有间隙、有无极端值等。以20082009学年第一学期物理成绩的频率分布直方图为例。由下图可以看出,样本分布的对称性不太好,不太符合正态分布(图1中黑色曲线是拟合的正态分布的概率密度曲线),不过确定结论需要进一步检验。继续观察发现。数据在6O和80附近有跳跃,并且在60附近有间断。为何会出现此种现象呢?深入思考就会知道,由于高校普遍以60分及其以上为及格分数,导致许多老师在批改试卷时有意放水在学生成绩比较接近6O分时放松标准给予其及格。由此也可以看出改革教学效果评估的必要性与紧迫性。 图1 2008-2009学年第一学期物
8、理成绩进一步利用非参数统计分析中单样本KS检验法对历次考试成绩进行正态分布假设检验可知该校上述科目的历次考试成绩均不呈正态分布,而这将导致基于正态分布假设的传统统计分析方法的可信度大大降低。实际上已经有许多学者注意到此种情况,他们从考试方式、学生情况、学习特点和试题质量等方面进行分析。对照统计学中应用正态分布规律的条件,得出了“考试成绩分布不服从正态规律”结论。在此我们则从探索性数据分析和非参数统计分析的角度对此结论进行了验证。33基本结论通过以上分析,得出以下基本结论:(1)学生的学业成绩可能受到课程内容设置、教师授课水平、考核难度、学生学习能力、学生专业背景等多重因素的影响在进行相关课程和
9、教学评估的过程中,也应综合考虑各种因素。尤其应该强调学生对物理、高等数学等学科的学习态度,缩小考试成绩的两极分化。 (2) 改进学生成绩等级评定标准,防止教师为了照顾学生而降低评分标准。(3)考试成绩不一定符合正态分布,此种情况下进行常规统计分析如方差分析和相关分析时要格外小心。4 研究展望采用现代统计分析方法,利用电脑和数学软件,能够提高试卷分析效率和信度,对提高高校教学水平和教学评估水平有重要意义。高校实施细则和奖励机制。可从以下两个方面考虑:1学校应把科技创新教育纳入到学生的教育教学中来,改变教学观念、改革教学方式等;2出台大学生科技创新活动开展的相关实施细则和奖励制度。总之,学校要从思
10、想认识、组织管理、物质保障、激励机制、成果转让等方面作全面的加强,使大学生科技创新活动的开展有章可循。如华中科技大学学生课外科技竞赛活动奖励办法。5 营造良好的科技创新氛围高校是大学生科技创新活动的主要地方。因此高校要营造良好的科技创新氛围,其具体表现在以下方面:第一、在教学管理上,把大学生创新能力的培养教育纳入教育教学目标中,将创新精神和创新能力的培养作为衡量教育教学工作效绩的一个重要指标。并把科技创新教育纳入学生综合培养方案充分发挥课堂教育的主渠道作用。将科技创新教育贯穿于人才培养的全过程。第二、积极提供、创造学生实践环境。如建设大学生课外科技创新活动基地,提供实践机会和场合等。总之,学校
11、要为大学生创造积极向上、宽松活泼的成才环境,营造崇尚科学、追求真知的学术氛围。以增强大学生对科技创新活动的价值认同,从而在科技创新活动的良好氛围中自觉锻炼成才。参考文献:1周培松,孟三爱大学生科技创新活动的调查查与思考J科技创业月刊,2006(12):642付刚对提高大学生科技创新能力的思考J和谐发展论坛,2008(17):1631643李忠,陈明长对培养大学生科技创新活动的思考J石家庄铁道学院学报(社会科学版),2008(3):8l一844JWTukeyExploratory Data AnalysisMAddisionMesley Publishing Company,19975贾俊萍统计学(第二版)M北京:清华大学出版社,2006