《教育测量与评价第三章.ppt》由会员分享,可在线阅读,更多相关《教育测量与评价第三章.ppt(90页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、教育测量与评价第三章1现在学习的是第1页,共90页第三章第三章 教育测量与评价的质量特性教育测量与评价的质量特性 第一节第一节 教育测量与评价的信度教育测量与评价的信度 第二节第二节 教育测量与评价的效度教育测量与评价的效度 第三节第三节 教育测量与评价的难度教育测量与评价的难度 第四节第四节 教育测量与评价的区分度教育测量与评价的区分度现在学习的是第2页,共90页 衡量教育测量的质量,可采用四个指标:信度信度 主要对整个测量而言。主要对整个测量而言。效度效度 分度分度 主要对测量的项目(题目)而言主要对测量的项目(题目)而言。难度区难度区现在学习的是第3页,共90页第一节第一节 教育测量与评
2、价的信度教育测量与评价的信度 一、什么是信度一、什么是信度 信度是指测量结果的稳定性或可靠性程度。即:用同一量表测量同一特质对象,多次测量间的一致性程度。一般地说,一个好的测量必须具有较高的信度,也就是说,一个好的测量工具,只要遵守操作规则,其结果就不应随工具的使用者或使用时间等方面的变化而发生较大的变化。必须从以下两个方面去理解测量的信度:信度指实测值(X)和真值(T)相差的程度;信度指两次重复测量或等值测量之间的关联程度。现在学习的是第4页,共90页二、信度的统计定义二、信度的统计定义 X=T+E误差E的平均数为零,且与真分数T之间是相互独立的,及相关系数是零。公式推导、两边求方差。方差、
3、相关系数现在学习的是第5页,共90页 信度的三种统计定义:信度的三种统计定义:1、真分数方差与观察分数方差之比:测验的信度一般在0和1之间取值(?),信度越接近1,考试的信度越高。2、被试团体的真分数与观察分数的相关系数的平方。3、被试团体在测验X(A卷)的观察分数与在测验X的任意一个“平行测验”X(B卷)上的观察分数的相关系数。现在学习的是第6页,共90页 第一、第二种定义为理论定义,不具有实际操作意义,第三种可以实际操作。因为真分数很难确定,不可得。现在学习的是第7页,共90页三、信度的估计方法三、信度的估计方法(一)重测信度(一)重测信度 指的是同一个量表对同一组被试施测两次所得结果的一
4、致性程度。其大小等于同一组被试在两次测验上所得分数的相关系数,一般采用皮尔逊积差相关的公式来计算。现在学习的是第8页,共90页例一 用一个算术四则的速度测验12个小学生,得分记为X,为了考察测量结果的可靠性,于3个月后再测一次,得分记为Y,问测验结果是否可靠?学生序号 1 2 3 4 5 6 7 8 9 10 11 12 X 20 20 21 22 23 23 232425262627 Y 20 21 21 20 23 23 252526262729现在学习的是第9页,共90页在使用重测法计算稳定性系数时,应注意以下问题:1、信度的取值范围为0,1,当信度值较大时,说明前后两次测量结果比较一致
5、;2、两次测验之间的时间间隔要适宜。应由测验的性质、测题类型、测题数量和被试特点所决定;3、重测法适用于速度测验而不适用于难度测验;4、适用于运动技能的测验,如跑、跳,较少受重复测量的影响。现在学习的是第10页,共90页(二)复本信度(二)复本信度 指的是两个平等的测验测量同一批被试所得结果的一致性程度。其大小等于同一批被试在两个复本测验上所得分数的相关系数。所谓复本测验(也称平行测验)是指在性质、内容、题型、题数、难度等方面都一致(或相等)的两份或多份测验。但试题不相同。现在学习的是第11页,共90页 实施复本测验的两种方式:P49 复本测验不仅适用于难度测验,也是估计速度测验信度的好方法。
6、在作追踪研究或探讨某些影响测验因素成绩的因素时,大多使用复本测验,分析复本信度。现在学习的是第12页,共90页例二 以A、B两型英语复本测验对初中三年级10个学生施测,为避免由测验施测顺序所造成的误差,其中5个学生先做A型测验,休息15分钟后,再做B型测验;而另5个学生先做B型测验,休息15分钟后,再做A型测验。10个学生A型测验结果记为X,B型测验结果记为Y,其测验的复本信度如何?学生序号 1 2 3 4 5 6 7 8 9 10 X 19 19 18 17 16 15 15 14 13 12 Y 20 17 18 18 17 15 13 15 12 12现在学习的是第13页,共90页复本信
7、度的优缺点表现:优点:1、测验的两个复本,如果在不同的时间使用,其信度既可以反映在不同时间的稳定性,又可以反映对于不同测题的一致性;2、两个复本在同时使用时,可以避免再测信息的一些缺点,如首测时再测在记忆、练习、效果的影响,间隔期间获得新知识的影响,两次施测的环境不同和被试主观状态不同的影响,以及为了应付测验所作训练的影响等。现在学习的是第14页,共90页缺点:1、编制两个完全相等的测验是很困难的,如果两个复本过分相似,则变成再测形式,而过分不相似,又使等值的条件不存在;2、两个复本测验有可能在某种程度上测量了不同的性质,这就会低估测验的信度;3、被试同时接受性质相似的两个测验,可能减少完成测
8、验的积极性;4、虽然两个复本测验的题目材料不同,但被试一旦掌握了解题的某一模式,就能触类旁通,有可能失去复本的意义。现在学习的是第15页,共90页3、折半信度(分半信度)就是将测验分半,再求被试在每一半测验上所得分数的相关系数。首先根据内容、形式、题数、平均数、标准差、难度、测题间相关以及分布形态相等的原则,将试题分成两半,或者将从易到难排列的测题,按照测题序号,奇数测题为一组,偶数测题为一组,分成两半;然后计算每个被试在两个分半测验分数的积差相关系数,再用斯皮尔曼布朗公式加以校正。斯皮尔曼布朗公式为现在学习的是第16页,共90页 4、标准参照测验的信度分析、标准参照测验的信度分析 百分比一致
9、性指标百分比一致性指标 5、测量标准误、测量标准误 测验信度的一个重要应用,反应测量结果测验信度的一个重要应用,反应测量结果精确性和可靠性的一个指标,正确解释测精确性和可靠性的一个指标,正确解释测验分数的科学依据。验分数的科学依据。现在学习的是第17页,共90页 6、评分者信度 含义:多个评分者给同一批人的答卷进行评分的一致性程度。(主观题)计算方法:(1)两个人时,两个人所给分数的相关系数。(2)多人评分是,肯德尔和谐系数现在学习的是第18页,共90页例三对初中一年级学生进行地理成绩测验,每答对1题得1分,答错1题得0分,其测验结果如下表,试估计该测验的折半信度?学生序号 题 序 1 2 3
10、 4 5 61 1 0 0 0 0 02 0 0 0 1 0 03 1 0 1 0 0 04 1 1 0 0 1 05 1 0 0 1 0 06 1 1 1 0 1 17 1 1 1 1 0 18 1 1 0 1 1 09 0 1 1 0 0 110 1 1 1 1 1 1现在学习的是第19页,共90页作业 1、用某量表测验10名学生,得分记为X,为了考察结果的可靠性,于15天后用原量表对这10个学生重测一次,得分记为Y,问测验结果是否可靠?学生序号 1 2 3 4 5 6 7 8 9 10 X 8 10 9 6 10 7 5 7 9 4 Y 9 10 10 6 10 8 4 8 9 4现在学
11、习的是第20页,共90页 2、对10名应试者先进行某种测验X,隔适当时间后(半年),再进行内容、范围、难度类似的第二次测验Y,试求测验的复本信度?应试者 1 2 3 4 5 6 7 8 9 10 X 9 10 10 6 10 8 4 8 9 4 Y 4 9 7 9 4 3 5 3 2 4现在学习的是第21页,共90页 3、有一个由100题构成的量表施行于10个高三学生(分数见下表)。测验一次后,学生即毕业离校,现怎样评价测验结果的信度?学生序号 1 2 3 4 5 6 7 8 9 10 奇X 38 37 38 41 40 36 38 39 40 35 偶Y 37 37 36 39 39 34
12、38 39 39 36现在学习的是第22页,共90页(三)提高信度的方法 1、影响测量信度的主要因素(1)被试方面(2)主试方面(3)施测情境方面(4)测量工具方面(5)两次施测的间隔时间方面现在学习的是第23页,共90页2、提高测量信度的常用方法(1)适当增加测验的长度(2)测验的难度要适中(3)测验的内容应尽量同质(4)测验的程序应统一(5)测验的时间要充分(6)测验的评分要尽量做到客观化,减少评分误差现在学习的是第24页,共90页二、效度的概念(一)什么是效度 效度是指测量结果的准确性和有效性的程度。也可以说是测量是否达到了预期的目的。1、效度是一个相对的概念。(1)测量的效度是相对一定
13、的测量目的而言的(鉴别,选拔或诊断)(2)测量的效度是相对测量的结果而言的 2、一种测量的效度只是高或低的问题 测量结果总是有一定效度的,只是效度高低不同罢了。现在学习的是第25页,共90页(二)效度的估计 效度估计就是多方寻找证据来证明一个测验的有效性程度的过程。1、内容效度 就是指测验内容对所要测量的内容的代表性程度。也就是说,测验的内容范围、材料与所要测量的内容范围、教育目标是否相符合;测验中测题所引起的行为是否是所要测量的属性的明确反应;测验的结果是否是一个有代表性的行为样本。为了使测验的内容具有有效性,成为所欲测量内容的一个具有代表性的行为样本,在编制测验时,就要考虑建立内容效度的问
14、题。现在学习的是第26页,共90页 内容效度:内容效度:教学目标、教材要求教学目标、教材要求测验试题样本测验试题样本 适用于:适用于:教育测量(学业成就测验)教育测量(学业成就测验)用于选拔和分类的职业测验。用于选拔和分类的职业测验。不适用于:心理测验,如智力、创造性、不适用于:心理测验,如智力、创造性、人格等。人格等。现在学习的是第27页,共90页2、内容效度的估计(1)逻辑分析法 其工作思路是请有关专家对测验题目与原定内容范围的吻合程度作出判断。(命题双向分类表题目双向分类表)(2)统计分析法 从同一个教学内容总体中抽取两套独立的平行测验,用这两个测验来测同一批被试,求其相关。若相关高,表
15、明测验内容效度较高;若相关低,表示测验的内容效度较低。现在学习的是第28页,共90页例一 在社会发展史某一单元教学之前,对学生进行有关这一单元内容的测验。教学之后,再以复本测验施测,两次测验分数如下,试检定测验的内容效度?学生序号 1 2 3 4 5 6 7 8 9 10 教学前X 34 40 32 30 31 35 44 33 42 36 教学后Y 52 64 50 54 58 63 72 62 62 50现在学习的是第29页,共90页结论 教学前后学生在两个复本测验上得分的平均数有极显著性差异,从而可以作出判断,社会发展史中该单元测验的内容具有有效性,或内容效度较高。现在学习的是第30页,
16、共90页 内容效度主要应用于成就测验、学科测验、选拔和分类职业测验。内容效度不适合用于能力倾向和人格测验。现在学习的是第31页,共90页2、结构效度 是指测验对于人的心理特性或理论概念测量到的程度。通常用某种操作来定义,并用测验来测量。例如:人的创造力可以分解为人的思维流畅性、灵活性和创造性三大特性,并根据这三大特性编制测验,若有足够的证据来证明该测验确实可以测到这些特性,则认为该测验是个结构效度较高的创造力测验。现在学习的是第32页,共90页(1)结构效度的特点 结构效度的大小完全取决于事先假定的心理特质理论,一旦人们对同一种心理特质有着不同的定义或假设,则会使得关于特质测验的结构效度的研究
17、结果无法比较。当实际测量的资料无法证实我们的理论假设时,并不一定就表明该测验结构效度高。因为还有可能出现理论假设不成立,或者该实验设计不能对该假设作适当的检查等情况,这就使得结构效度的获取更为困难。现在学习的是第33页,共90页(2)建立结构效度的步骤 A、提出理论假设;B、根据假定结构拟定测题,编制测验;C、以测验结果为根据来验证假设结构中的各种因素是否成立。现在学习的是第34页,共90页(3)结构效度的估计 1、内容效度;2;作答过程分析;3、测验的同质性(p61)4、因素分析法 其目的是把一些具有错综复杂关系的因素归结为数量较少的几个综合因素或称共同因素,并以此测验所测之特质对测验分数作
18、出解释。考察测验的实证效度考察测验的实证效度 1、差异被试比较法 2、先后测试分析法现在学习的是第35页,共90页 与内容效度不同,结构效度主要用于智与内容效度不同,结构效度主要用于智力测验、人格测验等一些心理测验方面力测验、人格测验等一些心理测验方面。现在学习的是第36页,共90页3、效标关联效度 是以测验分数和效标之间的相关系数来表示测验效度高低的方法。例如:某年全国高考物理学科的测验效度,可用大学一年级物理学科的测验分数为效标效标,然后求同一组学生高考物理得分与大一物理得分之间的相关,此相关系数就是该年高考物理测验的效标关联效度系数。当这个相关系数与总体零相关有显著性差异时,相关系数的值
19、(正值)越大,效度就越高;相关系数的值越小,效度就越低。现在学习的是第37页,共90页 根据校标资料获得的时间不同及测验使用根据校标资料获得的时间不同及测验使用的目的不同,校标关联效度可分为:的目的不同,校标关联效度可分为:(1)同时效度)同时效度(2)预测效度)预测效度现在学习的是第38页,共90页效标不仅随测验的种类不同而不同,而且可能随时间而改变,现在是一个好的成功的效标,将来就不一定是。所以,为某个测验选择一个最有效的效标,这是最重要的事情。教育测验的效标,可采用各学科成绩和教师评定的结果;智力测验的效标,可采用学科成绩、教师评判的结果、学生总成绩、受教育年限、年龄以及其他事物;能力倾
20、向测验的效标,可采用特殊课程或特殊训练的成绩;职业兴趣测验的效标,可采用从业人员实际服务成绩或记录;人格测验的效标,可采用编制者的主观标准,或以被试以后行为或临床资料。现在学习的是第39页,共90页效标关联效度的估计方法(1)相关法 由于测验分数和效标分数这两个变量的类型不同,二者相关系数的计算方法也就不同。A、积差相关法:适用于两个变量为连续变量 进行显著性检验:自由度df=N-2,检验的是两个变量,都减去2;置信度取0.05,查相关系数界值表,寻找临界值;结论:r临界值,说明显著相关,效度高;r0为正区分(积极区分),D0为负区分(消极区分),D=0为零区分(无区分作用)现在学习的是第63
21、页,共90页1、相关法 点双列相关法 例8:15个学生在数学测验中得分记录如下,计算数学测验中第一题的区分度?学生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15测验 65 70 31 49 80 50 35 10 81 69 78 55 77 90 42第一题 0 1 0 1 1 0 1 0 0 1 1 0 1 1 0(二)区分度的计算现在学习的是第64页,共90页二列相关 例9:已知一测验中某选择题的通过率为0.5,答对者的测验总分平均为76分,答错者的测验总分平均为63分,全体被试20人总分的标准差为16,求该题的区分度?现在学习的是第65页,共90页积差相关系数
22、 非二分计分题目:区分度等于得分与测验总分的积差相关系数。现在学习的是第66页,共90页 2、高低分组法、高低分组法 在测验分数序列中高分组、低分组被认为是两个极端在测验分数序列中高分组、低分组被认为是两个极端校标组。两个极端极端校标组在特定题目上的反应差校标组。两个极端极端校标组在特定题目上的反应差别程度可以刻画该题目的区分度。别程度可以刻画该题目的区分度。(1)客观性试题 D=PH-PL 例6:有道试题,高分组有70%学生通过,低分组有30%的学生通过;而另一道题,高分组有40%学生通过,低分组有70%学生通过,求两题的各自区分度?现在学习的是第67页,共90页(2)主观题 D=(H-L)
23、/F H为高分组在特定题目上的平均分。L为低分组在特定题目上的平均分。F为该道题的满分值 高分组、低分组取应试总人数的27%。课后141、2.现在学习的是第68页,共90页 D值越高,题目的区分度越好。适用于各类题分情况。常用高低分组法来计算题目的区分度。艾贝尔项目区分度评价标准。现在学习的是第69页,共90页(三)提高区分度的方法 1、使题目的难度适中,使整个考试难度适中 题目的难度适中可使区分度达到最大值,因此,使难度适中是提高区分度的重要方法。2、着重考察复杂的学习结果 使高能学生得高分或低能学生得低分,使分数尽量分布在整个分数量尺上。3、掌握区分度的评价标准。现在学习的是第70页,共9
24、0页第五节第五节 教育测量与评价方案的可用性教育测量与评价方案的可用性 方案的可用性是指方案质量性能可靠稳可靠稳定,针对性强针对性强,对于所有被试与评价的对象是客观公平客观公平的,同时在操作上具有可行性、易用性、经济性等特点。信度信度效度效度难度难度区分度区分度现在学习的是第71页,共90页 一、科学性、公平性、可行性一、科学性、公平性、可行性 1、科学性:即要有较高的信度和效度。标准化学业成绩测验要求信度系数在0.9以上。效度上要从内容效度、结构效度、校标关联效度三方面考虑,要具有高的效度。现在学习的是第72页,共90页 2、公平性:、公平性:测量与评价方案对于任何一位被试测量或被评价的对象
25、而言,有相同的机会获得好的成绩。但常存在测验偏差,不可能绝对公平。(如鱼头鱼尾作文)首先,评价方案的内容要公平。(第一次去公园、估计三层楼的高度等),其次,评价的指标(物理成绩物理知识点和实验操作技能等)、标准、权数和分值要合理。现在学习的是第73页,共90页 3、可行性:、可行性:方案的制定符合实际,并能被人们所理解和接受。第一、方案的制定要充分考虑人力、物力、财力、时间、空间、技术等各种因素。第二、应具有易用性,也就是说方案的指标体系不要过于繁琐,内容不要过多,结果计算要简便易算。第三、方案具有可直接可测量性或可操作性,没有歧义。(如思想觉悟入党、入团的要求、活动表现等转化成指标。)现在学
26、习的是第74页,共90页 二、针对性、区分性和简洁性二、针对性、区分性和简洁性 1、针对性:主要指效度。方案的内容及指标体系必须充分科学地反应教育目标或测量目标。(按能力分班智力、学业成就测量就要特别突出,而不是注重人格测验)现在学习的是第75页,共90页 2、区分性:、区分性:主要指区分度、难度。指方案中的每一项内容、每一个指标及其相应的评价标准,必须符合目前实际,能够区分和鉴别评价对象在该指标方面不同的达到程度。(都达到或都达不到)社会认可效应:被试按社会评价标准作答,而非真实答案。现在学习的是第76页,共90页 3、简洁性:、简洁性:方案的表达(文字)质量要高,对问题的表述要清晰、准确、
27、通俗易懂,不会引起被试或评价者对问题的误解。专业术语要通俗化,应避免多重含义的问题和多重否定的问题。多重含义:多重否定:现在学习的是第77页,共90页第四章 教育测验的编制与实施 一、教育测验编制的一般程序(一)确定测验目标 1、什么是测验目标 测验目标是测验编制者所编制的测验所要达到的某种具体的目的。它明确规定测验所要达到的预期结果或标准。确定测验目标是编制测验的首要前提。现在学习的是第78页,共90页2、测验目标与教育目标分类测验目标的确定是以教育目标分类理论为基础的。(1)布鲁姆的认知目标领域)布鲁姆的认知目标领域 知识:这是最低等级的认知目标。主要指记忆知识。对学过的知识和有关材料的识
28、别和再现。(公式G=mg、ma)理解:这是最低层次的理解。主要是对知识的掌握,其特点是脱离了“死记硬背”。(对地面压力为500N,问此人大概多重)应用:指的是将学过的材料(知识)应用到新的具体情景中去。(月球上重力加速度为a,问此人的重力)现在学习的是第79页,共90页 分析:指能将知识进行分解,找出组成要素,并分析其相互关系及组成原理。(推理重力公式)综合:与分析相反,指把各个元素或部分组成新的整体。(设计一个滑轮组、省力)评价:指根据一定的标准对事物给予价值判断。(文理分科是否符合马克思主义的全面发展观)现在学习的是第80页,共90页 布氏上述六类目标是有层次、有顺序的,知识是最低层次,是
29、最基本的要求。其余依次是理解、应用、分析、综合、评价。评价为认知领域的最高层次,是前面五种目标的综合并增加了价值标准。这六类目标,由简单到复杂,由低级到高级依次排列,组成层次结构。现在学习的是第81页,共90页(2)我国认知目标的分类 A、五分法知识理解应用分析综合创造 B、四分法识记理解简单运用综合运用现在学习的是第82页,共90页(二)确定测验内容 测验内容的确定,实际上也就是内容抽样的决定和测验目标的确立相结合而成。这一结合过程必须通过命题双向细目表来确定。命题双向细目表由3个要素构成:测验目标 测验内容 测验目标和测验内容的比例现在学习的是第83页,共90页比例确定标准 每一内容范围的
30、比例应与该内容项目在整个教学领域里的相对重要性相符合,这种相对重要性可由该内容项目的教学课时的多少来体现;每一目标层次所要求的比例应当与测验编制者认为这个目标对所受测学生的水平所具有的重要性相符。测验双向细目表,是编制测验的蓝图,它详细说明了测验的内容、测验目标,对试题数量、考试时间安排、测验分数分配等,都起着重要作用,因此,它是编制测验必不可少的一环。现在学习的是第84页,共90页测验材料的收集必须遵循的原则:1、测验材料要适合测验目的 2、测验材料要能够代表该教材的全部内容 3、测验材料要有普遍性 4、测验材料要适合学生程度并能鉴别学生的学习水平 5、测验材料要能激发学生的进取心现在学习的
31、是第85页,共90页(三)测验设计 1、测验形式的确定 2、测验题目形式的确定 3、测验具体题型的确定与题目编制 4、测验题目量的确定 5、测验时间的确定 6、测验题目的编制 先按试题的形式及内容分类 从易到难排列现在学习的是第86页,共90页二、测验题目编制技术 1、客观性测验题目的编制(约占60%左右)试题应反映教学内容的重点或教学过程中要求学生掌握的有意义的内容和知识点;务必使每道试题自成一体,不可互相牵扯;试题文字力求浅显易懂,题意明确;试题的答案应该是明确且唯一的;试题应按教育目标的要求,内容不能超过受测者的知识和能力。现在学习的是第87页,共90页2、主观性测验题目的编制(大约占4
32、0%左右)试题应考查教育内容中的重要问题;把问题和实际情景结合起来,强调知识的应用;要给被试发挥自己创造力的余地;要使答案的复杂程度与被试的成熟程度相符。现在学习的是第88页,共90页三、教育测量分数的整理和分析 编制频数分布表 求组中值 求全矩 求组数 求组限 画频数分布曲线图现在学习的是第89页,共90页分析频数曲线图1、常态分布即成绩中等的多,优秀和差的少,俗称“中间大,两头小”。学生的学业成绩呈常态分布,表明能正确、客观地反映学生真实的知识程度和能力水平。这是因为学生智力及其差异,一般是呈常态分配的;另外,教学大纲的制定、教材的编写、考试命题都是从大多数中等程度学生的实际出发,为大多数中等水平的学生经过努力能接受的。2、正偏态分布即低分人数很多,高分人数很少。学生的学业成绩呈正偏态分布,表明测试难度过大,考试要求过高,超越大纲和教材的要求;或者学生的基础差,应调整试题的难度或教学进度。3、负偏态分布即高分人数很多,低分人数很少。学生的学业成绩呈负偏态分布,表明测试较易,考试要求低于大纲或教材要求;或学生的基础好,应加大试题的难度和教学的进度。现在学习的是第90页,共90页