《统计分析在学生成绩评估中的应用.pdf》由会员分享,可在线阅读,更多相关《统计分析在学生成绩评估中的应用.pdf(7页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、2006年7月系统工程理论与实践第7期 文章编号:100026788(2006)0720134207统计分析在学生成绩评估中的应用苏 斌1,谢友芹2(11 中国科学院数学与系统科学研究院,北京100080;21 福建省龙岩一中,福建 龙岩364000)摘要:主要目的在于实践一种基于统计思想的新方法,用以改善现行教育体制在学生成绩评估中不足.以一个班级的高考成绩为案例,用基本统计的思想和方法提取出了对于学生和老师各自有效的信息,并根据现行教育的宗旨,在每位同学的个人成绩信息表的制作上给出了建议.从统计思想出发提出的“学科突破概率”和“目标值上下限”两个新工具,将有助于学生目标的量化.关键词:正态
2、分布;条件概率;影响因子;学科突破概率;水平基准线中图分类号:O212;G42 文献标识码:AStatistical Analysis in the Evaluation of StudentsPerformanceSU Bin1,XIE Y ou2qing2(11Academy of Mathematics and Systems Science,Chinese Academy of Sciences,Beijing 100080,China;21Longyan No.1 Senior HighSchool,Longyan 364000,China)Abstract:Statistical
3、analysis is a tool,while how to use the statistical methods to conquer the practical problems isthe root of the development of the statistics.The mainobjective of this paper is to act a new statistical approach,whichcan improve the disadvantages in the evaluation of studentsperformance.The numerical
4、 example is based on theperformance of several students who come fromLongyan No.1 Senior high school.Useful information can be obtainedthrough statistical analysis so as to help improve the performance of students in the future.The analysis results can alsobe of great help to teachers in their futur
5、e teaching career.Finally,suggestions are given to revise the format of score2sheet recording table so as to include more useful information.Specifically,two new statistical metrics,named“theexceed probability”and“the upper and lower bounds of the objective value”,are proposed in this paper.Those tw
6、oconcepts help to provide a more systematic approach to elicit enough information from the students so as to help toquantify the estimate of those studentsfinal objective in a much easier way.Key words:normal distribution;conditional probability;influence factor;exceed probability;base level line收稿日
7、期:20052052240 引言表12000年我国从业人员中受教育水平教育水平所占比例小学及小学以下教育水平33%初中以下教育水平42%高中和中等职业技术教育12.7%高等教育4.7%2003年5月16日,教育部公布了“中国教育与人力资源问题报告”.报告中指出,我国人力资源基本现状:整体国民素质偏低,中高层次人才严重缺乏.2000年我国从业人员中受教育比例远不能满足现代经济对劳动者知识、技能的需要.如表1所示.基于我国目前人力资源的基本状况,专家们提出了今后教育发展的重要趋势:大力发展高等教育,培养大批高层级创新人才,教育发展的主攻方向应是高中阶段教育.随着这股高教育需求之风的来临,相应的,我
8、国的本科、研究生等教育的招生规模在这几年内也出现了空前的发展.“凡事立则兴,不立则废”,目标在学习动力上的推进作用是不容忽视的.在学习中,能够充分了解自己的全局地位,以及获得老师对自己的学习建议,对于高中生而言是极其重要的一件事情.不仅有利于学生树立不同时期的个人短期、中长期的目标,而且有利于班主任获得更多的关于学生个人学习信息的资料,1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http:/从而更好的安排任课教师的教学计划.如何能够在大型的考试后,通过一些技术处理得出一些充分反
9、映学生总体的成绩水平的信息,以及针对每个学生的个性水平提出相应的建议对于现今的高中教育是很有意义的.另外,在高中阶段,一些老师偏爱优秀学生的情况屡见不鲜,这对于成绩中下学生的学习积极性产生了不小的负面影响,更甚者会产生对某些学科学习的抵触情绪.如何从学生现有的水平出发,发掘出他在薄弱学科上的潜能,为他打入“强心剂”,这也是很有意义的研究方向.下面将通过对于一组真实数据的案例分析,结合基本统计的思想和方法,对上述问题的解决进行一些尝试,最后给出理性的建议和思考.1 原始数据选取福建省龙岩市第一中学(省一级达标学校)2003届毕业班中的理科重点实验班(10)班52位学生的高考成绩作为原始数据.说明
10、:对于任何的平时大型考试,后面的分析方法都是一样可行的.2 数据的基本统计分析表2 基本统计分析结果语文数学外语综合科样本均值102.69102.04115.44213.56样本标准差1.362.091.542.76样本中位数103.5103.5117.5214.5样本众数105109118206样本标准偏差9.8015.0611.1119.89样本方差96.06226.67123.51395.23样本峰值-0.450.101.622.03样本偏斜度-0.25-0.65-0.50-0.75样本极差396459106样本最小值816384144样本最大值120127143250样本和534053
11、06600311105样本量52525252置信度(95.0%)2.734.193.095.53置信区间(95.0%)83109,12212971192,13211693122,13716617318,253132 注:1)其中9510%置信度是运用正态分布的2原则,即为标准误差的两倍;2)由置信区间也可以看出,正态性假设在各科成绩中都不是一个很好的假定.几个统计量的含义:1)样本方差从表中该项可以看出数学和综合科的成绩相对于其它两门学科的成绩分散度显得更加厉害,这就表示:在高考的总得分中,这两科是最容易拉开距离的科目,得分容易,失分也很容易.因此,按拉开成绩距离的容易程度排序就是:综合科数学
12、外语语文.2)偏斜度531第7期统计分析在学生成绩评估中的应用 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http:/偏斜度表示的是分数段的分布对称情况.当偏斜度p 0时,表示左偏,也即高分人数较多,没能拉开距离,试卷的难度适中或偏低;相反而言p数学外语语文.不同之处在于,基于上表定义的“影响因子”确切的给了一系列量化的结果.上面实施计算的过程中,之所以最后通过直接标准化,而没有因为综合科(250分)而采用加权的方法是因为:由上面得到的4个回归方程,以及Y=X1731第7期统
13、计分析在学生成绩评估中的应用 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http:/+X2+X3+X4,因此可以看成总分是以概率14选取其中1个方程,然后将增加的1分由选中的影响因子作用.5 学科突破概率通过上面的分析,已经得到全局意义下各个学科对于总分的影响因子.更进一步的分析要着眼于对于个人表现的分析,从而为每个同学确定其最优的突破口来提高成绩.假定某位同学的当前成绩是Xi=xi(i=1,4),那么他在当前的水平下优先考虑哪个科目对于他自己的成绩提高是最有帮助的?在概率论
14、中有一个结论:“当XF(x)时,有F(X)U(0,1)”,这个结论很好的避开了分布假设问题.一个直观的认识来源于:如果某位同学一个学科当前成绩的累积分布Fj(x3i)很大时,那么在这个学科上提高成绩的难度应该比其他学科中累积分布Fj(x3j)较小的要大;也就是说如果总分提高1分的话,那么这1分出现在学科i中的概率小于出现在其它学科j中的概率.基于上面的考虑,用pi(xi)=1-Fi(xi)=?Fi(xi)表示1分出现在学科i中的概率,那么qi(xi)=Fi(xi)就是1分不出现在学科i的概率(当前学科i的分数为xi).从而得到的条件概率称为“学科突破概率”:r1(x1,x2,x3,x4)=p1
15、q2q3q4p1q2q3q4+q1p2q3q4+q1q2p3q4+q1q2q3p4,r2(x1,x2,x3,x4)=q1p2q3q4p1q2q3q4+q1p2q3q4+q1q2p3q4+q1q2q3p4,r3(x1,x2,x3,x4)=q1q2p3q4p1q2q3q4+q1p2q3q4+q1q2p3q4+q1q2q3p4,r4(x1,x2,x3,x4)=q1q2q3p4p1q2q3q4+q1p2q3q4+q1q2p3q4+q1q2q3p4,其中X=(x1x2x3x4)为当前各科的成绩.以“黄琪”同学的真实成绩为例,计算他的学科突破概率为:表6“黄琪”的学科突破概率语文数学外语综合科成绩1061
16、18126214Fi(xi)0.610.840.860.47ri0.3050.0880.0750.532对于黄琪同学当前成绩而言,他的学习重心应该放在综合科和语文上,这两门课程是使得他最容易提高分数的学科,尤其是综合科.上面结果表明:黄琪在当前成绩水平下,总分提高1分有一半以上的可能性来自于综合科的提高.注:在所有计算的过程中,都采用经验累积分布的目的就是为了避免实际数据和正态分布相差太远的话,就可能会失效.而经验分布是真实分布的一致相合估计,相合估计对于连续的函数变换仍然保持相合性,所以不会有太大问题.6“基准线”分析法“瘸腿科目”对于年轻人知识的积累是一个不好的现象,而且现在的学科发展越来
17、越讲究多学科的交融,许多成果都来自于学科间碰撞的火花.不仅如此,在各个学科之间,还有着千丝万缕的联系,它们之间往往有着互补的作用,可以互相促进共同提高.那么一个自然而然的问题产生了:如果一个同学的当前成绩是Xi=xi(i=1,4),其中Xj是他的弱势科目,基于他个人现有的综合实力,为了达到学科的平衡,他的弱势科目成绩应该至少达到多少?以语文成绩的分析为例,将所有语文成绩的累积概率和总分的累积概率做P2P图分析:从图2可以发现,点几乎布满了整个区域,但还是可以看出有一个向上增长的趋势(这条趋势线一定是自左向右上升的).在摒除了实际分数的尺度意义下,考虑语文和总分之间的水平因素是比较科学的,因83
18、1系统工程理论与实践2006年7月 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http:/图2 语文2总分的累积频率P2P图为在实际生活中,这些定量分数的比较是在没有办法衡量相互之间的优劣关系时采用的折衷处理.用所有的点在平方损失下做回归,得到的这条直线被称为“平均水平基准线”.将图中基准线以上的点,以点A(01176,01686)为例,向“基准线”做投影,得到在高水平对应的相应水平下的低水平的一个“目标值下限”点B;再作水平线与“基准线”交于“目标值上限”点C.求得两点坐标
19、为B(01349,01408)和C(01794,01686),然后根据语文成绩的累积分布将B、C两点坐标反运算得到对应的语文成绩,即该同学的与其水平相一致的语文成绩的范围应该为(100,111),而他实际的语文单科得分为91分,也就是说在他的水平正常发挥的情况下,他应该至少拿到100分才是与其实力相符的分数.这里仅对“基准线”上方的点进行分析,因为基准线上方的点表明:语文对于该学生而言是“瘸腿科目”,应该要引起个人的足够重视;而基准线下方的点,单科成绩已经达到了平均水平的要求范围,就不需要再作分析.“基准线”分析法的好处在于:让同学们明确的知道,凭自己现今的水平能够达到的分数和实际分数的距离究
20、竟有多大,继而给他们树立了一个针对“瘸腿科目”的目标范围,有益于今后在该学科上的提高、改进.7 挑战目标 条件分布的上14分位数和条件期望条件概率:PrXixi|Yy 条件期望:E(Xi|Yy)一切目标应该向前看,这是智者对于自己的要求.在公式表达上,这种观点体现在条件概率和条件期望的定义上.别人能够达到的目标,个人也能达到,只是个人的能力没有发挥出来罢了.条件概率给出了,在总分高于自己的群体中,他们单科高于某个特定分数的概率;而条件期望刚好给出了这个群体中对于单科的平均分数是多少.一般情况下,条件期望和条件中位数的差别不大,因此为了拉开两个测量值的挑战性,求解条件分布的上14分位数和条件期望
21、作为单科成绩挑战的两个目标.条件分位数的定义为:p|y=infx:F(x|y)p,p(0,1).这和数据挖掘中寻找最优模式的想法不谋而合.仍旧以上图为例,A点对应的“林莉”同学的实际考分为(91,555),可以计算得到:0175|555=115,E(X1|Y 555)=10917.这两个结果表明:在总分高于555的同学中,他们的语文单科平均为10917分,而且有四分之一的同学的语文分数高于115分.这对于林莉而言,是两个不小的挑战目标.只有目标明确,差距清楚,才能够使得自己清楚在单个学科上与竞争对手们的差距究竟有多大,才能够奋起直追.而那种不管自己的现今成绩如何,总是拿第一名的成绩来和自己相比
22、的做法是不切合实际的行为,所以这里采用条件均值和条件上14分位数是切实可行的目标.8 个人成绩信息表现今的许多学校里,已经采取不排名的教育改革.那么在每个大型的考试之后,如何让同学们做到对自己的成绩和水平心里有底,这也是存在的一个问题.通过上面的分析,建议采用如下的方法给每位同学们制作他们的个人成绩信息表:(以上面讨论过的点A对应的“林莉”同学为例)931第7期统计分析在学生成绩评估中的应用 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http:/班级:高三(10)班 学号:姓
23、名:林莉语 文数 学英 语综合科总 分考试成绩9494117250555累积概率0.1760.2550.4910.686学科突破概率0.5410.3380.1210目标值下限100100118-目标值上限111113122-条件上14分位数115121126条件期望109.7113122注:如果出于鼓励角度的考虑,可以再添加一些关于班级各科的平均分和最高分,以及年级的平均情况的信息,让同学们对于所处周边同学的信息也有一个提纲挈领的了解.9 总结这篇文章通过案例分析的方法,将统计分析的思想与实际教学的需要相结合,为教学工作提供了有用的信息.而且,各种分析处理方法都是在很自然的前提下提出的,具有一
24、定的实际意义,在条件允许的情况下,可以很容易的应用到平时考试的成绩分析中.另一方面,这篇案例文章的写作也让自己充分的认识到:统计不是一门脱离实际的学科,它来源于实践生活,而且更应该无时无刻的反馈到生活的每个角落,这样的意义会更大.参考文献:1 杨振明.概率论M.北京:科学出版社,2001.Yang ZM.The Theory of ProbabilityM.Beijing:Science Press,2001.2 王松桂,等.线性统计模型M.北京:科学出版社,2004.Wang S G,et al.The Statistical Linear ModelM.Beijing:Science Pr
25、ess,2004.3 茆诗松,等.高等数理统计M.北京:高等教育出版社,2003.Mao S S,et al.Advanced Mathematics&StatisticsM.Beijing:Higher Education Press,2003.4 宇传华,颜杰.Excel与数据分析M.北京:电子工业出版社,2002.Yu C H,Yan J.Excel and Data AnalysisM.Beijing:Publishing House of Electronic Industry,2002.5 中国教育与人力资源问题报告R.中国教育部,2003.A report of the problem of education&manpower in ChinaR.Ministry of Education,P.R.China,2003.041系统工程理论与实践2006年7月 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http:/