《测验质量分析精选课件.ppt》由会员分享,可在线阅读,更多相关《测验质量分析精选课件.ppt(63页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、关于测验质量分析第一页,本课件共有63页第一节 题目难度的概念和计算方法题目难度的概念和计算方法4一、题目难度的概念和意义一、题目难度的概念和意义(一)一)题目难度的含义题目难度的含义题目难度是指被试完成试题的难易程度。题目难度是指被试完成试题的难易程度。(二)二)题目难度与测验的关系题目难度与测验的关系题题目目难难度度影影响响测测验验的的难难度度分分布布和和平平均均难难度度,从从而而影影响响测测验验的的信信度度、效效度度以以及及测测验验结结果果区分被试水平高低的能力。区分被试水平高低的能力。第二页,本课件共有63页二、难度的计算二、难度的计算(一)(一)二值记分法题目的难度计算二值记分法题目
2、的难度计算当题目分数是二分变量当题目分数是二分变量(即答对为即答对为1,答错为,答错为0,如选择题如选择题)时:时:式中:式中:P为题目难度值,为题目难度值,R为答对或通过该题的人为答对或通过该题的人数,数,N为全体考生数。为全体考生数。例题例题1 1:在一测验的某道选择题上,:在一测验的某道选择题上,100100名被试名被试中选择正确答案的有中选择正确答案的有3737名。则该题难度为:名。则该题难度为:第三页,本课件共有63页(二)二)非二值记分法题目的难度计算非二值记分法题目的难度计算当题目分数是多分值时,难度是全体被试在该题当题目分数是多分值时,难度是全体被试在该题上的平均数与该题满分的
3、比例:上的平均数与该题满分的比例:式中:式中:P题目难度值,题目难度值,为全体被试平均得分,为全体被试平均得分,Xmax是题目满分。是题目满分。第四页,本课件共有63页l例例题题2 2:一一组组被被试试在在某某道道题题上上得得分分分分别别为为2 2,5 5,9 9,1010,4 4,8 8,7 7,5 5,3 3,0 0。该该题题满满分分为为1010分。则该题难度为:分。则该题难度为:第五页,本课件共有63页三、测验难度的选择三、测验难度的选择一般常模参照测验题目难度分布近似正一般常模参照测验题目难度分布近似正态。特定的测验题目难度的分布应该根态。特定的测验题目难度的分布应该根据测量的任务而定
4、。据测量的任务而定。第六页,本课件共有63页第二节第二节 区分度的概念和计算方法区分度的概念和计算方法l一、区分度的含义一、区分度的含义l区分度是指试题能区分被试水平能力的程度。区分度是指试题能区分被试水平能力的程度。l二、区分度的计算二、区分度的计算l(一)(一)区分度的相关计算法区分度的相关计算法l它它是是求求试试题题分分数数与与总总分分的的相相关关系系数数作作为为区区分分度的指标。度的指标。第七页,本课件共有63页第八页,本课件共有63页第九页,本课件共有63页第十页,本课件共有63页(二)二)区分度的分组计算法区分度的分组计算法l它是首先将全体被试按总分高低进行排它是首先将全体被试按总
5、分高低进行排队;然后,将得分较高的队;然后,将得分较高的27%27%的被试作为的被试作为“高分组高分组”,将得分较低的,将得分较低的27%27%的被试作的被试作为为“低分组低分组”;最后求两组在试题上得;最后求两组在试题上得分率的差。即:分率的差。即:D=PD=PH H-P-PL Ll式中:式中:D为为区分度;区分度;P PH H为高分组的得分率;为高分组的得分率;P PL L为低分组的得分率。为低分组的得分率。第十一页,本课件共有63页l例如:某班例如:某班4040名学生,名学生,“高分组高分组”做对做对第一题的有第一题的有8 8人,人,“低分组低分组”做对的有做对的有4 4人,那么,该题的
6、区分度为:人,那么,该题的区分度为:lD=PD=PH H-P-PL L=8/11-4/110.36=8/11-4/110.36 第十二页,本课件共有63页三、区分度的评价三、区分度的评价区分度的取值范围区分度的取值范围 1D11D1。当用分组。当用分组计算法得到的题目区分度大于计算法得到的题目区分度大于0.40.4时,区时,区分度的分组计算法被认为是性能良好的分度的分组计算法被认为是性能良好的试题。试题。第十三页,本课件共有63页第三节第三节 测验的信度测验的信度一、一、信度的概念信度的概念信度是指测验结果的可靠程度。信度是指测验结果的可靠程度。二、二、信度的统计学原理信度的统计学原理r rx
7、xxx=S=S2 2T T/S/S2 2X X式中:r rxxxx表示信度系数;表示信度系数;S S2 2T T表示真分数方差;表示真分数方差;S S2 2X X表示实得分数方差。表示实得分数方差。l有关系式:有关系式:X=T+El其中,其中,X为实得为实得分数;分数;T T为为真分数真分数。第十四页,本课件共有63页三、三、信度系数的估计方法信度系数的估计方法l1稳定性系数(再测信度稳定性系数(再测信度)l它是同一被试总体用同一试卷间隔一段时它是同一被试总体用同一试卷间隔一段时间后两次测验所得数据的一致性程度。通间后两次测验所得数据的一致性程度。通常用相关系数作为其估计值。常用相关系数作为其
8、估计值。第十五页,本课件共有63页l2等值性系数(复本信度)等值性系数(复本信度)l它是同一被试总体用两份等值的试卷,它是同一被试总体用两份等值的试卷,在间隔很短的时间内先后两次测验所在间隔很短的时间内先后两次测验所得数据的一致性程度。通常用相关系得数据的一致性程度。通常用相关系数作为其估计值。数作为其估计值。第十六页,本课件共有63页第十七页,本课件共有63页例:用一个由例:用一个由例:用一个由例:用一个由100100题构成的试卷测试题构成的试卷测试题构成的试卷测试题构成的试卷测试1010名学生,测试结果如下名学生,测试结果如下名学生,测试结果如下名学生,测试结果如下表,求测验的分半信度系数
9、。表,求测验的分半信度系数。表,求测验的分半信度系数。表,求测验的分半信度系数。学号学号奇数题总分奇数题总分偶数题总分偶数题总分138372373733836441395403963634738388393994039103536第十八页,本课件共有63页解题步骤如下:解题步骤如下:1、先求两分测验的相关系数、先求两分测验的相关系数、先求两分测验的相关系数、先求两分测验的相关系数r rhhhh。.分半信度分半信度分半信度分半信度.xls.xls学号学号奇数题总分奇数题总分偶数题总分偶数题总分1 1383837372 2373737373 3383836364 4414139395 540403
10、9396 6363634347 7383838388 8393939399 9404039391010353536360.84 0.84 第十九页,本课件共有63页第二十页,本课件共有63页(2 2)系数系数l若测验中各个题目得分相关较高时,不论题若测验中各个题目得分相关较高时,不论题目的内容或形式有何差别,测验都为同质;目的内容或形式有何差别,测验都为同质;相反,即使所有题目看起来都好像是测量同相反,即使所有题目看起来都好像是测量同一特性,但题目得分之间的相关很低,测验一特性,但题目得分之间的相关很低,测验仍然是异质的。测验越同质,同质性信度的仍然是异质的。测验越同质,同质性信度的值也越大,
11、则说明试题的内部一致性程度越值也越大,则说明试题的内部一致性程度越高。因而,同质性信度又称作内部一致性系高。因而,同质性信度又称作内部一致性系数。数。l 计算同质性信度的方法可用克龙巴赫计算同质性信度的方法可用克龙巴赫(Cronbach)所创的)所创的系数公式:系数公式:第二十一页,本课件共有63页第二十二页,本课件共有63页例例例例:5:5名被试参加一个包含名被试参加一个包含名被试参加一个包含名被试参加一个包含6 6道试题的测验,测验结果如下表,道试题的测验,测验结果如下表,道试题的测验,测验结果如下表,道试题的测验,测验结果如下表,求该测验的信度系数。求该测验的信度系数。求该测验的信度系数
12、。求该测验的信度系数。题号题号被试被试S Si i2 2A AB BC CD DE E1 17 711118 8111111113.043.042 26 69 97 78 89 91.361.363 36 610106 68 89 92.562.564 48 811116 68 83 36.966.965 57 711118 8111111113.043.046 67 711118 8111111113.043.04合计合计41416363434357575454202070.2470.24第二十三页,本课件共有63页第二十四页,本课件共有63页4评分者信度系数评分者信度系数l对于无法完全客观
13、记分的测验,评分者对于无法完全客观记分的测验,评分者的主观因素对测验结果的影响是很大的,的主观因素对测验结果的影响是很大的,因此需要控制评分误差和研究因此需要控制评分误差和研究评分者信评分者信度。度。l评分者信度的估计可以分为两种情况:评分者信度的估计可以分为两种情况:l(1 1)2 2人同时评多份相同的试卷人同时评多份相同的试卷l这种情况可以用这种情况可以用2 2人评分的相关系数作为人评分的相关系数作为评分者信度的估计值。评分者信度的估计值。第二十五页,本课件共有63页例如例如:l两位教师评三份试卷,求其评分者信度系数两位教师评三份试卷,求其评分者信度系数试卷试卷教师教师X 教师教师YDD
14、D2 21 11 12 2-1-11 12 22 21 11 11 13 33 33 30 00 0合计合计2 2第二十六页,本课件共有63页第二十七页,本课件共有63页第二十八页,本课件共有63页第二十九页,本课件共有63页第三十页,本课件共有63页例如:三位教师评四份试卷,所评等级如例如:三位教师评四份试卷,所评等级如下表,问该测验的评分者信度如何?下表,问该测验的评分者信度如何?教师教师试卷试卷1234A3142B2141C2232Ri74115第三十一页,本课件共有63页第三十二页,本课件共有63页第三十三页,本课件共有63页第三十四页,本课件共有63页(5)查表,检验)查表,检验W的
15、显著性的显著性l因为,因为,K=3,N=4时,临界值时,临界值S0.0564.4,l由于由于SS0.05,所以,所以,W不显著性,即表不显著性,即表明三位教师的评分者信度较低。明三位教师的评分者信度较低。l(K在在320之间,之间,N在在37之间时,之间时,查附表查附表5求临界值求临界值S0.05或临界值或临界值S0.01;若若N7,检验,检验W的显著性用的显著性用2=K(N-1)W,按,按df=N-1查查2值表进行比较。)值表进行比较。)l参考书目:参考书目:1.王汉澜主编王汉澜主编教育测量学教育测量学l2.宋岭梅主编宋岭梅主编教育测量学教育测量学第三十五页,本课件共有63页四、四、影响信度
16、的因素影响信度的因素l被试样本的影响。被试样本的影响。l题目数量的影响。题目数量的影响。l测验难度的影响。测验难度的影响。l测验内容同质性的影响。测验内容同质性的影响。l评分客观性的影响。评分客观性的影响。第三十六页,本课件共有63页第四节第四节 测验的效度测验的效度一、一、效度的概念效度的概念效效度度是是测测验验能能实实际际测测量量出出其其所所要要测测量量特特性性的的程程度。度。二、二、效度的统计学原理效度的统计学原理r rxyxy=S=S2 2v v/S/S2 2X X式中,式中,S S2 2v v潜在真分数方差;潜在真分数方差;S S2 2x x实得分数方差。实得分数方差。有关系式:有关
17、系式:X=T+E=V+I+E其中,其中,V为为潜在真分数;潜在真分数;I为系统误差。为系统误差。第三十七页,本课件共有63页三、估计效度的方法三、估计效度的方法1 1内容效度内容效度(Content validity)内内容容效效度度指指的的是是测测验验题题目目对对有有关关内内容容或或行行为为取样的适当性。取样的适当性。(1 1)专家判断法)专家判断法采用专家判断法可以按下面的步骤进行:采用专家判断法可以按下面的步骤进行:定义好内容总体的范围;定义好内容总体的范围;确定考查内容或行为的细目;确定考查内容或行为的细目;列出双向细目表;列出双向细目表;制订评定量表。制订评定量表。第三十八页,本课件
18、共有63页(2 2)统计分析法)统计分析法l统统计计分分析析法法又又称称克克龙龙巴巴赫赫估估计计法法。克克龙龙巴巴赫赫曾曾提提出出估估计计内内容容效效度度可可以以从从同同一一教教学学内内容容范范围围的的总总体体中中抽抽取取两两套套独独立立的的测测验验试试题题,这这两两套套测测验验试试题题对对同同一一组组考考生生分分别别进进行行两两次次测测验验,如如测测验验得得分分求求得得的的相相关关系系数数高高,就就可可推推论论内内容容效效度度高高;若若相相关关系系数数低低,这这两两套套试试题题中中至至少少有有一一套套测验试题缺乏内容效度。测验试题缺乏内容效度。第三十九页,本课件共有63页(3 3)再测法)再
19、测法l这种方法是,先对一组考生进行先期测这种方法是,先对一组考生进行先期测验,这一组学生必须是对测验的内容知验,这一组学生必须是对测验的内容知之甚少,然后对这一组学生进行有关内之甚少,然后对这一组学生进行有关内容的教学与训练活动,经过一段学习时容的教学与训练活动,经过一段学习时间后,再进行后期测验,这样可以看出间后,再进行后期测验,这样可以看出测验是否测量出深堂上所进行的教学与测验是否测量出深堂上所进行的教学与训练的效果。如果后期测验成绩好,就训练的效果。如果后期测验成绩好,就说明该测验对课程内容范围是有效的。说明该测验对课程内容范围是有效的。第四十页,本课件共有63页2.2.效标关联效度效标
20、关联效度(Criterion related validity)l效效标标关关联联效效度度指指的的是是测测验验分分数数与与效效标标分分数数之间的一致性程度。之间的一致性程度。l效标(效标(criterion)。效标实际上是指本测验。效标实际上是指本测验所想测量或要预测的特性和功能。所想测量或要预测的特性和功能。l 效标关联效度分为两种:效标与本测验分效标关联效度分为两种:效标与本测验分数同时获得的,称为同时效度或并存效度数同时获得的,称为同时效度或并存效度(concurrent validity);效标在本测验之后相;效标在本测验之后相当时间获得的,称为预测效度当时间获得的,称为预测效度(pr
21、edictive validity)。第四十一页,本课件共有63页预测效度和同时效度有两点区别:预测效度和同时效度有两点区别:l(1)从进行本测验到获得效标的间隔时间从进行本测验到获得效标的间隔时间不同。同时效度的效标测验几乎与本测不同。同时效度的效标测验几乎与本测验同时举行;预测效度的效标则在本测验同时举行;预测效度的效标则在本测验之后相当长的时间验之后相当长的时间(几个月,到几年)几个月,到几年)才获得。才获得。l(2)目的和作用不同。同时效度主要用来目的和作用不同。同时效度主要用来查明自编测验的效度,以便有效地研制查明自编测验的效度,以便有效地研制和使用新测验;预测效度主要用来评价和使用
22、新测验;预测效度主要用来评价本测验的预测能力。本测验的预测能力。第四十二页,本课件共有63页估计估计效标关联效标关联效度的主要方法有:效度的主要方法有:l(1 1)相关法)相关法l它是以相关系数作为效度系数(它是以相关系数作为效度系数(validity coefficient)的估计值。)的估计值。第四十三页,本课件共有63页(2 2)命中率法)命中率法l当测验是用作决定取舍标准的根据时当测验是用作决定取舍标准的根据时,其其有效性的指标可以看作正确决定的比例,有效性的指标可以看作正确决定的比例,该比例越高,说明测验越有效。该比例越高,说明测验越有效。l 取舍的正确性取舍的正确性l一般各级学校的
23、招生考试或各企事业单一般各级学校的招生考试或各企事业单位选聘人员的录取聘用,都可以采用这位选聘人员的录取聘用,都可以采用这种方法。为了得到取舍正确性指标,必种方法。为了得到取舍正确性指标,必须将原测验分数与效标资料都采用二值须将原测验分数与效标资料都采用二值划分,这是最简单的一种划分方法。划分,这是最简单的一种划分方法。第四十四页,本课件共有63页例如,原测验分数可以分成录取和不录取两类,例如,原测验分数可以分成录取和不录取两类,效标资料可分为成功与失败两类,这样全部被效标资料可分为成功与失败两类,这样全部被试可分为四个组,如下表所示试可分为四个组,如下表所示:效效 标标 成成 绩绩失败失败成
24、功成功测测验验成成绩绩录取录取失误失误(A)命中命中(B)不录取不录取命中命中(C)失误失误(D)第四十五页,本课件共有63页第四十六页,本课件共有63页例如:例如:效效 标标 成成 绩绩失败失败成功成功测测验验成成绩绩录取录取75(A)15(B)60不录取不录取175(C)152(D)23第四十七页,本课件共有63页第四十八页,本课件共有63页第四十九页,本课件共有63页第五十页,本课件共有63页3结构效度结构效度结结构构效效度度指指的的是是测测验验分分数数能能够够说说明明心心理理的的某某种种结结构或特征的程度。构或特征的程度。(1 1)逻辑推理法)逻辑推理法它它是是通通过过对对心心理理某某
25、种种结结构构或或特特性性与与测测验验的的吻吻合合性性进进行行逻逻辑辑分分析析的的方方法法。例例如如比比奈奈(ABinet)首首先先应应用用逻逻辑辑分分析析方方法法研研究究智智力力行行为为的的心心理理结结构构,认认为为智智力力不不单单纯纯是是智智力力行行为为的的很很多多不不同同方方面面的的总总和和,而而是是一一种种连连锁锁性性的的过过程程,其其中中包包括括判判断断、解解决决问问题题和和推推理理作作用用。如如果果根根据据这这种种理理论论编编制制的的智智力力测测验验,确确实实能能测测量量出出应应试试者者的的判判断断、理理解解和和推推理理能能力力,就就可以认为所编制的测验具有结构效度。可以认为所编制的
26、测验具有结构效度。第五十一页,本课件共有63页例如:例如:l以智力测验来说。先要建立关于智力的一套理以智力测验来说。先要建立关于智力的一套理论,如智力的定义、结构、与遗传环境的关系,论,如智力的定义、结构、与遗传环境的关系,与年龄的关系,与性别的关系与年龄的关系,与性别的关系等等。根据等等。根据这些理论,提出有关智力测验的若干假设,如:这些理论,提出有关智力测验的若干假设,如:(1)测验分数在测验分数在16岁以前随年龄而增加;岁以前随年龄而增加;(2)一种智一种智力测验的分数与其他智力测验的分数有正相关,力测验的分数与其他智力测验的分数有正相关,(3)测验分数能区别智力水平,测验分数能区别智力
27、水平,(4)测验分数受教学测验分数受教学的直接影响不大等。然后收集材料的直接影响不大等。然后收集材料(这里主要是这里主要是通过智力测验获得通过智力测验获得)来验证假设。如果假设得到支持,来验证假设。如果假设得到支持,则可以认为所编制的智力测验的结果与智力的理论则可以认为所编制的智力测验的结果与智力的理论结构符合,即有结构效度。如果假设没有得到测验结构符合,即有结构效度。如果假设没有得到测验结果的支持,则测验结果缺乏结构效度,或者是智结果的支持,则测验结果缺乏结构效度,或者是智力结构的理论有缺陷。力结构的理论有缺陷。第五十二页,本课件共有63页(2 2)统计分析法)统计分析法l把自己所编制的测验
28、的施测结果,与另把自己所编制的测验的施测结果,与另一性质相同而被公认具有较高结构效度一性质相同而被公认具有较高结构效度的测验结果比较。例如把新编制的智力的测验结果比较。例如把新编制的智力测验的结果与斯坦福一一比奈智力量表测验的结果与斯坦福一一比奈智力量表l的测验结果相比较,若两种测验结果的的测验结果相比较,若两种测验结果的相关高,可以认为新编测验也具有较高相关高,可以认为新编测验也具有较高的结构效度。的结构效度。第五十三页,本课件共有63页(3 3)考察实验因素法)考察实验因素法l因素分析的主要作用在于从相关的许多因素分析的主要作用在于从相关的许多因素中,找出潜藏在其中的对某种现象因素中,找出
29、潜藏在其中的对某种现象起决定作用的基本因素。这种方法是利起决定作用的基本因素。这种方法是利用实验前后的结果变化,来说明测验的用实验前后的结果变化,来说明测验的结构效度。结构效度。第五十四页,本课件共有63页四、四、影响效度的因素影响效度的因素l测验难度的影响。测验难度的影响。l题目数量的影响。题目数量的影响。l测验实施的影响。测验实施的影响。l评分客观性的影响。评分客观性的影响。l要求测验标准化的其他因素的影响。要求测验标准化的其他因素的影响。l被试样本的影响。被试样本的影响。l所选效标的影响。所选效标的影响。第五十五页,本课件共有63页五、效度与信度的关系五、效度与信度的关系l1.高信度不一
30、定又高效度高信度不一定又高效度l S S2 2X Xl S S2 2T Tl2.高效度一定有高信度高效度一定有高信度l S S2 2X Xl S S2 2T TS S2 2v vS S2 2I IS S2 2E ES S2 2v vS S2 2I IS S2 2E E第五十六页,本课件共有63页第五十七页,本课件共有63页练习题l一、在一测验的某道选择题上,在一测验的某道选择题上,5050名被名被试中选择正确答案的有试中选择正确答案的有3030名。该题难度名。该题难度为多少?为多少?二、一组被试在某道题上得分分别为二、一组被试在某道题上得分分别为2 2,5 5,9 9,1010,4 4,8 8
31、,7 7,5 5。该题满分为。该题满分为1212分。则该题难度为多少?分。则该题难度为多少?第五十八页,本课件共有63页三、根据下表数据求区分度三、根据下表数据求区分度。学号学号总分总分第二题得分第二题得分17512650380046805791687078818901992110960第五十九页,本课件共有63页l四、四、某班某班6060名学生,名学生,“高分组高分组”做对第做对第一题的有一题的有1616人,人,“低分组低分组”做对的有做对的有4 4人,那么,该题的区分度为多少?人,那么,该题的区分度为多少?第六十页,本课件共有63页五、根据下表数据求分半信度五、根据下表数据求分半信度。被试被试奇数题总分奇数题总分偶数题总分偶数题总分1353523435333364323553233630307292882828第六十一页,本课件共有63页六、两位教师评六份试卷,求其评分者信六、两位教师评六份试卷,求其评分者信度系数。度系数。试卷试卷教师教师A教师教师B112221333445554666第六十二页,本课件共有63页感谢大家观看第六十三页,本课件共有63页