心理与教育测量第四章精选PPT.ppt

上传人:石*** 文档编号:84330787 上传时间:2023-04-04 格式:PPT 页数:46 大小:513.50KB
返回 下载 相关 举报
心理与教育测量第四章精选PPT.ppt_第1页
第1页 / 共46页
心理与教育测量第四章精选PPT.ppt_第2页
第2页 / 共46页
点击查看更多>>
资源描述

《心理与教育测量第四章精选PPT.ppt》由会员分享,可在线阅读,更多相关《心理与教育测量第四章精选PPT.ppt(46页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、关于心理与教育测量关于心理与教育测量第四章第四章第1页,讲稿共46张,创作于星期日第四章第四章 测量信度测量信度信度概述信度概述信度的估计方法信度的估计方法提高测量信度的方法提高测量信度的方法第2页,讲稿共46张,创作于星期日第一节第一节 信度概述信度概述信度的定义信度的定义信度的作用信度的作用第3页,讲稿共46张,创作于星期日一、信度的定义一、信度的定义信度的描述性定义信度的描述性定义信度(信度(reliability)指测量结果的稳定性程度,)指测量结果的稳定性程度,有时也叫测量结果的可靠性。有时也叫测量结果的可靠性。信度系数(信度系数()是表示测量信度高低的指标,其值)是表示测量信度高低

2、的指标,其值域为域为0,1。世界上没有百分之一百可靠的测量。世界上没有百分之一百可靠的测量。只是理论上的。只是理论上的。信度也是多次测量同一对象的一致性程度。信度也是多次测量同一对象的一致性程度。第4页,讲稿共46张,创作于星期日信度的统计定义(统计等价定义)信度的统计定义(统计等价定义)信度是被试团体真分数方差与实得分数方差之信度是被试团体真分数方差与实得分数方差之比,即:比,即:信度是被试团体真分数与实得分数相关系数的信度是被试团体真分数与实得分数相关系数的平方,即:平方,即:信度是一个测验与它的任意一个平行测验的相信度是一个测验与它的任意一个平行测验的相关系数,即:关系数,即:第5页,讲

3、稿共46张,创作于星期日二、信度的作用二、信度的作用信度是测量过程中所存在的随机误差大小的信度是测量过程中所存在的随机误差大小的反映。反映。测量中随机误差越大,测量的信度越低。(但测量中随机误差越大,测量的信度越低。(但信度与系统误差无关!)信度与系统误差无关!)信度可以用来解释个人测验分数的意义。信度可以用来解释个人测验分数的意义。信度可以帮助进行测验分数的比较信度可以帮助进行测验分数的比较第6页,讲稿共46张,创作于星期日1、解释个人分数的意义、解释个人分数的意义测量标准误的作用:测量标准误的作用:估计真实分数的范围;估计真实分数的范围;了解实得分数再测时可能的变化情形。了解实得分数再测时

4、可能的变化情形。真分数的估计,或再测时实得分数的变化范真分数的估计,或再测时实得分数的变化范围计算:围计算:根据根据SE=Sxsqrt(1-rxx),求,求SE。根据显著性水平根据显著性水平或置信水平(或置信水平(1-)。)。则真分数的置信区间或再测时则真分数的置信区间或再测时X的变化范围是:的变化范围是:X-Z/2SE Z/2,则差异显著;反之,则差异不,则差异显著;反之,则差异不显著。显著。第9页,讲稿共46张,创作于星期日不同测验分数的差异比较举例不同测验分数的差异比较举例某被试在韦氏成人智力测验中言语智商为某被试在韦氏成人智力测验中言语智商为100,操作智商为,操作智商为105,已知两

5、个分数都是,已知两个分数都是以以100为平均数,为平均数,15为标准差的标准分数,为标准差的标准分数,假设言语分量表和操作分量表的分半信度假设言语分量表和操作分量表的分半信度为为0.87和和0.88,问言语智商和操作智商是否,问言语智商和操作智商是否存在显著性差异(存在显著性差异(=0.05)。第10页,讲稿共46张,创作于星期日需要注意的问题需要注意的问题一个测验可以有多个信度估计值,因而其误一个测验可以有多个信度估计值,因而其误差估计值也会有多个。差估计值也会有多个。本理论假定同一个团体中所有人的测量误差本理论假定同一个团体中所有人的测量误差是相同的,但实际上水平高的人与水平低是相同的,但

6、实际上水平高的人与水平低的人在做测量时会有不同的随机误差。的人在做测量时会有不同的随机误差。测量的结果不能僵硬地看成是一个点,而应测量的结果不能僵硬地看成是一个点,而应看成是一个以该点为中心,以看成是一个以该点为中心,以SE的某个倍的某个倍数为半径上下波动的一个范围。例如,真数为半径上下波动的一个范围。例如,真正正IQ一般在实得一般在实得IQ5的范围内波动。的范围内波动。第11页,讲稿共46张,创作于星期日第二节第二节 信度的估计方法信度的估计方法重测信度重测信度复本信度复本信度分半信度分半信度同质性信度同质性信度分半信度和同质性信度也叫内部一致性系数。分半信度和同质性信度也叫内部一致性系数。

7、评分者信度评分者信度成套测验综合分数的信度成套测验综合分数的信度第12页,讲稿共46张,创作于星期日一、重测信度一、重测信度定义:定义:同一测验对同一批被试先后施测量两次所得结同一测验对同一批被试先后施测量两次所得结果的一致性程度,其大小为两次分数的积差相果的一致性程度,其大小为两次分数的积差相关系数。关系数。也叫稳定性系数。用于考查测量结果也叫稳定性系数。用于考查测量结果跨时间的稳定性。跨时间的稳定性。计算公式:计算公式:第13页,讲稿共46张,创作于星期日举例:举例:假设有一份考试焦虑调查表,先后两次施测于假设有一份考试焦虑调查表,先后两次施测于10名名学生,时间间隔为半年,结果如表所示,

8、求该测验学生,时间间隔为半年,结果如表所示,求该测验的重测信度。的重测信度。第14页,讲稿共46张,创作于星期日使用条件使用条件所测心理品质相对稳定,否则无法判断是量所测心理品质相对稳定,否则无法判断是量具信度低,还是品质本身稳定性差。具信度低,还是品质本身稳定性差。前后间隔时间要恰当,遗忘和练习的效果基前后间隔时间要恰当,遗忘和练习的效果基本上相互抵消。时间间距依问题的性质和测量本上相互抵消。时间间距依问题的性质和测量目的而定。通常,以目的而定。通常,以2-4周为宜。智力测验的间周为宜。智力测验的间隔一般在隔一般在6个月左右。个月左右。间隔期间被试在所测品质方面无更多学习和间隔期间被试在所测

9、品质方面无更多学习和训练。训练。有被试的真诚合作。有被试的真诚合作。第15页,讲稿共46张,创作于星期日需要注意的问题需要注意的问题当某个测验涉及多个年龄或年级等不同层次的当某个测验涉及多个年龄或年级等不同层次的考生(被试)时,重测信度不能直接用测验的考生(被试)时,重测信度不能直接用测验的原始分数进行估算,而必须使用经过常模量表原始分数进行估算,而必须使用经过常模量表转换之后的量表分数或其他类型的标准分数进转换之后的量表分数或其他类型的标准分数进行估算。否则会高估。行估算。否则会高估。当极少数考生的前测分数与后测分数相差特别当极少数考生的前测分数与后测分数相差特别明显时,应去除这些异常的极端

10、值(控制在明显时,应去除这些异常的极端值(控制在2%以内),以避免低估重测信度。以内),以避免低估重测信度。第16页,讲稿共46张,创作于星期日评价评价优点:能提供有关测验是否随时间而变异的资优点:能提供有关测验是否随时间而变异的资料,可作为被试将来行为表现的依据。料,可作为被试将来行为表现的依据。缺点:难以消除记忆和练习及学习的影响;难缺点:难以消除记忆和练习及学习的影响;难以取得被试的全面合作。以取得被试的全面合作。第17页,讲稿共46张,创作于星期日二、复本信度二、复本信度定义定义两个平行测验测量同一批被试所得结果的一致性程度。其大小两个平行测验测量同一批被试所得结果的一致性程度。其大小

11、为两次分数的积差相关系数。为两次分数的积差相关系数。分类分类等值性系数(通常指复本信度):两个复本测验同时连续施测。等值性系数(通常指复本信度):两个复本测验同时连续施测。稳定性与等值性系数(通常指重测复本信度):两个复本测验相稳定性与等值性系数(通常指重测复本信度):两个复本测验相距一段时间分两次施测。是对信度的最严格的检验。距一段时间分两次施测。是对信度的最严格的检验。实施实施平衡设计:将被试随机分成两半,一半先测平衡设计:将被试随机分成两半,一半先测A卷,再测卷,再测B卷;另卷;另一半先测一半先测B卷,再测卷,再测A卷。卷。第18页,讲稿共46张,创作于星期日计算公式计算公式类似于重测信

12、度。类似于重测信度。举例举例假设用假设用A、B两型智力复本测验对五年级两型智力复本测验对五年级10个学个学生施测。结果见下表。试求该测验的复本信度。生施测。结果见下表。试求该测验的复本信度。第19页,讲稿共46张,创作于星期日测验 被试 1 2 3 4 5 6 7 8 9 10 X1 16 17 18 14 15 13 12 20 11 9 X2 15 16 19 18 16 12 11 19 10 8第20页,讲稿共46张,创作于星期日使用前提条件使用前提条件要命制出真正等值的平行测验。要命制出真正等值的平行测验。被试要有条件(时间、经费等)接受两个测验。被试要有条件(时间、经费等)接受两个

13、测验。评价评价优点:能减少练习和记忆效应。优点:能减少练习和记忆效应。缺点:很难构造出两份以上的平行测验;只能缺点:很难构造出两份以上的平行测验;只能减少而不能消除练习效应;无法消除迁移效应。减少而不能消除练习效应;无法消除迁移效应。第21页,讲稿共46张,创作于星期日三、分半信度三、分半信度定义:定义:将一个测验随机分为对等的两半(常用奇偶分将一个测验随机分为对等的两半(常用奇偶分半),所有被试在这两半测验上得分的一致性半),所有被试在这两半测验上得分的一致性程度。程度。计算计算通常也采用积差相关系数求取。通常也采用积差相关系数求取。由于测验长度变短,通常需要校正,公式为:由于测验长度变短,

14、通常需要校正,公式为:,其中,其中 为两半的相关系数。为两半的相关系数。第22页,讲稿共46张,创作于星期日举例举例已知某量表的分半信度为已知某量表的分半信度为0.63,请算出原长,请算出原长度的信度系数。度的信度系数。第23页,讲稿共46张,创作于星期日上式为上式为Spearman-Brown公式,使用条件为两公式,使用条件为两半分数的方差(变异数)相等。如果不等,可半分数的方差(变异数)相等。如果不等,可采用下列两个等价公式直接计算。采用下列两个等价公式直接计算。Flanagan公式:公式:Rulon公式:公式:其中其中、为两半测验分数方差,为两半测验分数方差,为两半测验分为两半测验分数之

15、差数的方差,数之差数的方差,为总方差。为总方差。第24页,讲稿共46张,创作于星期日使用条件使用条件随机分成的两半必须是对等的两半。随机分成的两半必须是对等的两半。通常在只能施测一次或没有复本的情况下使用。通常在只能施测一次或没有复本的情况下使用。评价评价优点:只需施测一次便能求取信度。优点:只需施测一次便能求取信度。缺点:有些题目,很难分为对等的两半,比如缺点:有些题目,很难分为对等的两半,比如语文考试里的作文,就没办法分半;分半方法语文考试里的作文,就没办法分半;分半方法很多,所估信度很可能有差异。很多,所估信度很可能有差异。第25页,讲稿共46张,创作于星期日四、同质性信度四、同质性信度

16、定义定义测验内部所有题目间的一致性程度。测验内部所有题目间的一致性程度。一致性包一致性包含两重含义:含两重含义:所有题目都是测同一种心理特质。所有题目都是测同一种心理特质。所有题目得分之间都有较高的正相关。所有题目得分之间都有较高的正相关。两者的关系:正相关高是同质性高的必要而非充分两者的关系:正相关高是同质性高的必要而非充分条件。条件。第26页,讲稿共46张,创作于星期日计算计算求所有分半信度的平均值。求所有分半信度的平均值。缺点:分半的方法太多,有缺点:分半的方法太多,有Cnn/2个,计算太麻烦。个,计算太麻烦。例如,有例如,有20个题目,则分半的数量有:个题目,则分半的数量有:C2010

17、个。个。先求所有题目间相关系数的平均值,再用下列先求所有题目间相关系数的平均值,再用下列公式计算:公式计算:其中其中K为一个测验题目个数,为一个测验题目个数,为所有题目间相关为所有题目间相关系数的平均值。系数的平均值。第27页,讲稿共46张,创作于星期日Kuder-Richardson(K-R)公式公式K-R20公式(只适用于两级评分,例如公式(只适用于两级评分,例如0,1):):其中其中K为题目数,为题目数,为答对第为答对第i题的人数比例,题的人数比例,为为答错第答错第i题的人数比例,题的人数比例,为测验总分的变异。为测验总分的变异。K-R21公式(在公式(在KR20基础上要求各题难度相同)

18、:基础上要求各题难度相同):其中其中 为所有题平均答对率,为所有题平均答对率,为所有题目平均为所有题目平均答错率。答错率。第28页,讲稿共46张,创作于星期日克龙巴赫克龙巴赫 系数(适用所有题目):系数(适用所有题目):其中,其中,Si2为每个题目的方差。为每个题目的方差。注意:注意:大,信度必高,但大,信度必高,但 小,信度不一定低。小,信度不一定低。荷伊特信度(采用方差分量比方法):荷伊特信度(采用方差分量比方法):第29页,讲稿共46张,创作于星期日克龙巴赫克龙巴赫 系数计算举例系数计算举例 语文测验模拟资料如表,试求内部一致性系数语文测验模拟资料如表,试求内部一致性系数的的值(注:第一

19、行数字为被试编号,第一列为项目编值(注:第一行数字为被试编号,第一列为项目编号)。号)。1234567891035263436545416423562864957587589610786910712141015111313151512第30页,讲稿共46张,创作于星期日荷伊特信度举例荷伊特信度举例第31页,讲稿共46张,创作于星期日五、评分者信度五、评分者信度定义定义多个评分者给同一批人的答卷进行评分的一致多个评分者给同一批人的答卷进行评分的一致性程度。性程度。计算计算两个评分者:采用积差相关或等级相关两个评分者:采用积差相关或等级相关多个评分者:多个评分者:无相同等级情况:肯德尔无相同等级情

20、况:肯德尔W系数系数有相同等级情况:校正之后的肯德尔有相同等级情况:校正之后的肯德尔W系数。系数。W系数的显著性检验:查系数的显著性检验:查W表(表(K:320人,人,N:37个);计算个);计算2值:值:2=K(N-1)W,df=N-1。第32页,讲稿共46张,创作于星期日肯德尔肯德尔W系数系数校正后的校正后的W系数(略)系数(略)第33页,讲稿共46张,创作于星期日评分误差产生的原因评分误差产生的原因试题原因试题原因试题答案不唯一,评分标准还客观,要依赖于评分试题答案不唯一,评分标准还客观,要依赖于评分者主观经验,因此评分误差严重主要在自由反应性者主观经验,因此评分误差严重主要在自由反应性

21、试题上,特别是论文式试题。试题上,特别是论文式试题。评分者原因:评分者原因:评分者专业知识水平不够;影响对试题和答案的评分者专业知识水平不够;影响对试题和答案的理解,尤其是综合性试题,创造性答案。理解,尤其是综合性试题,创造性答案。评分者评判能力不够;缺乏评判能力,特别是缺评分者评判能力不够;缺乏评判能力,特别是缺乏计量评判能力,评分勿高忽低,或偏高、偏低。乏计量评判能力,评分勿高忽低,或偏高、偏低。评分者个性倾向影响:宽、严不同,导致评分不评分者个性倾向影响:宽、严不同,导致评分不一致。一致。评分者心理状况和工作态度不同。评分者心理状况和工作态度不同。第34页,讲稿共46张,创作于星期日评分

22、阅卷中各种客观效应的影响:评分阅卷中各种客观效应的影响:“名片效应名片效应”“光环效应光环效应”“对比效应对比效应”“先后效应先后效应”环境与组织管理的影响。环境与组织管理的影响。第35页,讲稿共46张,创作于星期日控制论文式试题评分误差的方法。控制论文式试题评分误差的方法。命题进尽量控制作答的发散范围,预先制定好命题进尽量控制作答的发散范围,预先制定好评分规则,并尽是客观、精细,但不吹毛求疵。评分规则,并尽是客观、精细,但不吹毛求疵。选择和培训阅卷人员,统一评分标准,规范阅选择和培训阅卷人员,统一评分标准,规范阅卷行为。卷行为。流水作业评分。流水作业评分。分因素评分。分因素评分。第36页,讲

23、稿共46张,创作于星期日组织复查。组织复查。自觉防止各种客观效应的影响。自觉防止各种客观效应的影响。在规模阅卷中可考虑采用统计手段控制和调整在规模阅卷中可考虑采用统计手段控制和调整评分误差。评分误差。均数、标准差。均数、标准差。网上阅卷。网上阅卷。电子阅卷员。电子阅卷员。第37页,讲稿共46张,创作于星期日六、成套测验综合分数的信度六、成套测验综合分数的信度略略第38页,讲稿共46张,创作于星期日第三节第三节 提高测量信度的方法提高测量信度的方法影响测量信度的主要因素影响测量信度的主要因素提高测量信度的常用方法提高测量信度的常用方法几点说明几点说明第39页,讲稿共46张,创作于星期日一、影响测

24、量信度的主要因素一、影响测量信度的主要因素被试方面:被试方面:单个被试心理的稳定性;单个被试心理的稳定性;团体被试水平的离散程度及平均水平的过高或团体被试水平的离散程度及平均水平的过高或过低。过低。主试者方面主试者方面施测人员不按规定施测或给学生加压、暗示。施测人员不按规定施测或给学生加压、暗示。阅卷人员标准掌握一致、不准确。阅卷人员标准掌握一致、不准确。第40页,讲稿共46张,创作于星期日施测情境方面施测情境方面考场条件声、光、空间、桌面、仪器质量等。考场条件声、光、空间、桌面、仪器质量等。测量工具方面:测量工具方面:量具性能是否稳定,包括试题取样代表性、稳量具性能是否稳定,包括试题取样代表

25、性、稳定性,试题同质性,试题难度及其分布。定性,试题同质性,试题难度及其分布。两次施测估计信度的间隔时间。两次施测估计信度的间隔时间。时间间隔会影响重测信度和稳定性与等值性系时间间隔会影响重测信度和稳定性与等值性系数(有时也叫重测复本信度)数(有时也叫重测复本信度)时间间隔越长则信度越低。时间间隔越长则信度越低。第41页,讲稿共46张,创作于星期日二、提高信度的常用方法二、提高信度的常用方法适当增加测验长度。(其本质是加大行为样适当增加测验长度。(其本质是加大行为样本容量)本容量)注意:加长部分必须与原测题同质,而且不可注意:加长部分必须与原测题同质,而且不可无限加长。无限加长。加长测验的效果

26、可用加长测验的效果可用rkk=krxx/1+(k-1)rxx计算,计算,其中其中k为改变后的测验长度与原来长度之比,为改变后的测验长度与原来长度之比,rxx为原测量的信度,为原测量的信度,rkk为测验长度增加为为测验长度增加为k倍后的倍后的测量信度。测量信度。加长效果遵循报酬递减律。加长效果遵循报酬递减律。第42页,讲稿共46张,创作于星期日举例举例有一个包括有一个包括20个题目的测验,信度为个题目的测验,信度为0.60,若把测验增加到,若把测验增加到50个题目,其信度将增个题目,其信度将增加到多少?加到多少?一个包含一个包含60个题目的测验信度是个题目的测验信度是0.80,欲,欲将信度提高到

27、将信度提高到0.90,需要增加多少题目?,需要增加多少题目?第43页,讲稿共46张,创作于星期日控制试题难度分布为正态,并把难度控制在中等水平。控制试题难度分布为正态,并把难度控制在中等水平。此时,被试得分方差增大,会提高信度。此时,被试得分方差增大,会提高信度。努力提高每一试题的区分度。努力提高每一试题的区分度。维持试题所测内容的同质性。维持试题所测内容的同质性。统一规范施测程序和施测环境。统一规范施测程序和施测环境。保证被试有充裕的作答时间。保证被试有充裕的作答时间。严格按照标准给分,控制评分误差。严格按照标准给分,控制评分误差。努力提高被试中各同质亚团体的测验信度。努力提高被试中各同质亚团体的测验信度。第44页,讲稿共46张,创作于星期日三、几点说明三、几点说明本章所讲为测量的信度,而不是测验的信度本章所讲为测量的信度,而不是测验的信度这就要求测验在不同被试群体上,不同时间施这就要求测验在不同被试群体上,不同时间施测时均要重新计算信度。测时均要重新计算信度。有多少种误差来源就有多少种信度估计方法有多少种误差来源就有多少种信度估计方法原则是哪种测量误差最大,就选用相应的信度原则是哪种测量误差最大,就选用相应的信度估计方法。有时需要同时估计几种信度。估计方法。有时需要同时估计几种信度。第45页,讲稿共46张,创作于星期日感谢大家观看第46页,讲稿共46张,创作于星期日

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 资格考试

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁