《信度与效度精选PPT.ppt》由会员分享,可在线阅读,更多相关《信度与效度精选PPT.ppt(81页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、关于信度与效度第1页,讲稿共81张,创作于星期日5.1测评信度及检验5.1 测评效度的概念1、信度概念:测评结果的前后一致性。又称可靠性程度。2、信度系数:用一样本在两种不同时间、不同情景条件下或两组不同评价材料的评定结果之间的相关系数(rxx)。信度系数越大,则说明该测量或评定方法的可靠性越强,反之,则可靠性弱。简单地说信度就是指测量数据和结论的可靠性程度,也就是说测量工具能否稳定地测量到它要测量的事项的程度。第2页,讲稿共81张,创作于星期日我们可以举例说明信度的问题:如果想知道某人的体重,我们可以叫两个人来估计,一个人的估计为150镑,另一个人的估计为300镑,那么我们就可以认为,叫别人
2、来估计体重是非常不可信的方法。如果用磅秤,连续测量两次的结果都是相同的,因而我们可以说,在测量体重方面,用磅秤的方法要比叫人来估计更可信。我们可以用信度系数来表示信度的大小。第3页,讲稿共81张,创作于星期日 对信度系数要注意三点:对信度系数要注意三点:第一,在不同情况下,对不同样本,采用不同方第一,在不同情况下,对不同样本,采用不同方法会得到不同的信度系数,因此一个测验可能不止一个法会得到不同的信度系数,因此一个测验可能不止一个信度系数;信度系数;第二,信度系数只是对测量分数不一致程度的估计,第二,信度系数只是对测量分数不一致程度的估计,并没有指出不一致的原因;并没有指出不一致的原因;第三,
3、获得较高的信度系数并不是心理测量追第三,获得较高的信度系数并不是心理测量追求的最终目的,它只是迈向目标的一步,是使测验有求的最终目的,它只是迈向目标的一步,是使测验有效的一个必要条件。效的一个必要条件。第4页,讲稿共81张,创作于星期日信度系数要达到多高才可以接受呢?信度系数要达到多高才可以接受呢?一般能力与学绩测验的信度系数在一般能力与学绩测验的信度系数在0.90 0.90 以上;人格以上;人格测验的信度系数通常在测验的信度系数通常在0.80 0.80 以上。以上。当当r rxxxx 0.700.70时,时,不能用测验对个人作评价,也不能在团体间作比较;不能用测验对个人作评价,也不能在团体间
4、作比较;当当 r rxxxx 0.70 0.70时,可用于团体间比较时,可用于团体间比较;当当r rxxxx 0.85 0.85 时,可用于鉴别个人。时,可用于鉴别个人。第5页,讲稿共81张,创作于星期日为何要进行信度的衡量?为何要进行信度的衡量?我们知道在进行测量时,误差是难免的,这就使得真实值和测量值之间是不可能完全一致。我们可以这样来表示真实值和测量值之间的关系。X=T+B+ET表示真实值,B表示偏差即系统误差,E表示测量误差即随机误差。由于系统误差很难分解,因而有些书中的分解式将系统误差包括在真实值之中,因而X可以简单地概括为X=T+E第6页,讲稿共81张,创作于星期日5.1.2测评信
5、度的分类测评信度的分类(一)重测信度又称稳定性信度,它用于分析两次间隔一定时间的评定或测定结果之间的相关关系。这种方法通常是重复同样的测量来检验信度信度系数可以用相关系数来表示。假如我们第一次测量时的观测值是X,第二次的观测值是Y,那么重测信度就等于X与Y的相关系数。但重复测量时,我们要注意两次测量的时间间隔要恰当。如果时间间隔太久,可能会发一些变故,影响到被调查者的态度,那么前后的测量就会有很大的差异。第7页,讲稿共81张,创作于星期日5.1.2测评信度的分类测评信度的分类(二)折半信度(二)折半信度通常是在无副本且不准备重测的情况下,我们就用折半信度来计通常是在无副本且不准备重测的情况下,
6、我们就用折半信度来计算信度系数。算信度系数。举例来说,如果有一份问卷,其中有十个问题涉及到女性歧视现举例来说,如果有一份问卷,其中有十个问题涉及到女性歧视现象。利用折半信度时,可将是个问题随机分成两组,每组有五个象。利用折半信度时,可将是个问题随机分成两组,每组有五个问题,然后根据每组的测量结果来计算两组的相关系数,就问题,然后根据每组的测量结果来计算两组的相关系数,就是折半信度是折半信度,Rhh。但整个问卷的信度需要用校正公式来得到:。但整个问卷的信度需要用校正公式来得到:Rxx=2Rhh/(1+Rhh)第8页,讲稿共81张,创作于星期日5.1.2测评信度的分类测评信度的分类(三)等值信度(
7、复本信度)等值信度是指以两个平行型的测评量表在最短时距内施行两次所的结果的相关系数来评估的。什么是平行型量表:内容、形式和长度相同,难度(即有相同的平均数)和差异程度(相同的标准差)也相同。A型量表B型量表最短时距相关系数为等值信度第9页,讲稿共81张,创作于星期日5.1.2测评信度的分类测评信度的分类等值信度的实施技巧:为了抵消测评先后顺序效应,一般要求有一半人先用A型量表进行测定,然后再用B型量表进行测定;另一半人则先用B型,再用A型。二者间隔时间要求保持在最短时距内。其范围为几分钟到几小时。第10页,讲稿共81张,创作于星期日5.1.35.1.3影响信度的因素影响信度的因素主体客体第11
8、页,讲稿共81张,创作于星期日 影响信度的主体的因素不严格按照规定实施测验、制造紧张气氛、给予特别协助、评分主观第12页,讲稿共81张,创作于星期日来自客体的影响因素:被试方面:身心健康状况、动机、注意力、持久性、求胜心、作答态度等均随时在变化中测验内容方面:试题取样不当、内部一致性较低、题数过少、题意模糊等施测环境方面:施测现场条件,如通风、温度、光线、噪音、桌面好坏、空间的阔窄等 第13页,讲稿共81张,创作于星期日另外几个重要的影响因素:一、分数分布范围二、测验长度三、测验的难度四、间隔时间第14页,讲稿共81张,创作于星期日 误差变异越大,信度越低。除前面谈到的几种误差来源外,误差变异
9、越大,信度越低。除前面谈到的几种误差来源外,还有以下几个因素会影响信度系数的大小:还有以下几个因素会影响信度系数的大小:一、被试样本(分数分布范围)一、被试样本(分数分布范围)(一)团体的异质性(一)团体的异质性 信度系数受分数的分布范围(全距)的影响,而分数范围信度系数受分数的分布范围(全距)的影响,而分数范围与被试团体的异质程度有关。一个团体越异质,其分数范围越与被试团体的异质程度有关。一个团体越异质,其分数范围越大,信度系数也就越高。相反,相对同质的团体分数则较为均大,信度系数也就越高。相反,相对同质的团体分数则较为均匀。如图所示匀。如图所示:第15页,讲稿共81张,创作于星期日 图中大
10、方框显示的是一个较大的异质团体在两次施图中大方框显示的是一个较大的异质团体在两次施测中的分数分布测中的分数分布,显然有很高的正相关显然有很高的正相关.在小方框中显示的在小方框中显示的是一个高度同质的亚团体是一个高度同质的亚团体,两次分数几乎呈随机变化两次分数几乎呈随机变化,相关相关接近于零接近于零.第16页,讲稿共81张,创作于星期日 (二)团体的平均水平(二)团体的平均水平 对于不同的团体,题目具有不同的难度。每个题目在难度上的对于不同的团体,题目具有不同的难度。每个题目在难度上的微小差异积累起来便会影响信度。微小差异积累起来便会影响信度。例如,同一量表对不同年龄,不同例如,同一量表对不同年
11、龄,不同IQ水平的被试,信度则水平的被试,信度则不尽相同。不尽相同。因此,我们在编制测验量表,抽选被试时,往往要考虑选取因此,我们在编制测验量表,抽选被试时,往往要考虑选取不同层次的被试,以使得测验团体呈异质性,从而使得信度提高。不同层次的被试,以使得测验团体呈异质性,从而使得信度提高。反之,当需要同质团体的信度时,就应该尽量选取同一层次的被反之,当需要同质团体的信度时,就应该尽量选取同一层次的被试。试。第17页,讲稿共81张,创作于星期日 二、题目的数量二、题目的数量 一般说来,在一个测验中增加同质的题目,可一般说来,在一个测验中增加同质的题目,可以使信度提高。即测验越长,信度越高。这是因以
12、使信度提高。即测验越长,信度越高。这是因为测验加长,加大了分数分布的范围,可能改进为测验加长,加大了分数分布的范围,可能改进项目取样的代表性,从而能更好地反映受测者的项目取样的代表性,从而能更好地反映受测者的真实水平。即测验的项目越多,在每个项目上的真实水平。即测验的项目越多,在每个项目上的随机误差就可以互相抵消。随机误差就可以互相抵消。第18页,讲稿共81张,创作于星期日 增加测验长度的效果可以用斯皮尔曼增加测验长度的效果可以用斯皮尔曼布朗公式来计布朗公式来计算:算:rxx=Krxx/1+(K-1)rxx 式式中中,K为为改改变变后后的的长长度度与与原原来来长长度度之之比比,rxx为为原原测
13、测验验的的信信度度,rxx为为测测验验长长度度是是原原来来的的K倍倍时时的的信信度度估估计计。一一般般来说,题目数量对相关系数的影响是递增的。如表所示来说,题目数量对相关系数的影响是递增的。如表所示题目数量相关系数10 50 100 200 300 400 5000.50 0.83 0.91 0.95 0.968 0.976 0.980第19页,讲稿共81张,创作于星期日 但是,增加测验长度的效果遵循报酬递减率,测验过长是但是,增加测验长度的效果遵循报酬递减率,测验过长是得不偿失的,可以通过上式确定一个测验究竟要增长多少才得不偿失的,可以通过上式确定一个测验究竟要增长多少才能达到理想的信度水平
14、。能达到理想的信度水平。注意:只有当新题目是与原题目选自同一总体,增长测验注意:只有当新题目是与原题目选自同一总体,增长测验才能改进信度。才能改进信度。第20页,讲稿共81张,创作于星期日随堂练习随堂练习 1.假设有一份由假设有一份由20题组成的测验,题组成的测验,rxx=0.50,若测验增加同质性题目,若测验增加同质性题目80道,道,则增长后的测验信度则增长后的测验信度rxx是多少?是多少?按照公式:按照公式:rxx=Krxx/1+(K-1)rxx=0.8 第21页,讲稿共81张,创作于星期日 随堂练习随堂练习2.假设有一个包括假设有一个包括 10个题目的测验,信度为个题目的测验,信度为0.
15、60,若把测验增加到若把测验增加到80个题目,其信度将增加到多少个题目,其信度将增加到多少?3.一个包含一个包含40个题目的测验信度为个题目的测验信度为0.8,欲将信度提高,欲将信度提高到到0.90,需要增加多少题目?,需要增加多少题目?第22页,讲稿共81张,创作于星期日5.1.4信度检验:计算不同的信度系数 第23页,讲稿共81张,创作于星期日一、重测信度(稳定性系数)一、重测信度(稳定性系数)(一)定义与计算(一)定义与计算定义定义 用同一种测验,对同一组受试者,前后施测用同一种测验,对同一组受试者,前后施测两次,再根据受试者两次测验分数计算其相关系两次,再根据受试者两次测验分数计算其相
16、关系数,即得重测信度。数,即得重测信度。即测验即测验时距(几分几年)时距(几分几年)再测验再测验 此种信度能表示两次测验结果有无变动,反映测此种信度能表示两次测验结果有无变动,反映测验分数的稳定程度,故又称稳定性系数。验分数的稳定程度,故又称稳定性系数。第24页,讲稿共81张,创作于星期日 计算方法计算方法 计算使用皮尔逊积差相关公式的变式:计算使用皮尔逊积差相关公式的变式:第25页,讲稿共81张,创作于星期日(二)误差来源(二)误差来源 1.测验本身:测验所测的特性本身就不稳定,例如测验本身:测验所测的特性本身就不稳定,例如情绪。情绪。2.被试方面:成熟、知识的发展并非人人都等被试方面:成熟
17、、知识的发展并非人人都等量增长,且练习因素、记忆效果也存在个体差异。量增长,且练习因素、记忆效果也存在个体差异。3.施测情境:偶发因素的干扰,如计时错误,情绪波施测情境:偶发因素的干扰,如计时错误,情绪波动,健康状况,动机变化等。动,健康状况,动机变化等。重测信度高,说明分数受被试状况和测验情境变化重测信度高,说明分数受被试状况和测验情境变化影响小。这里题目取样并不影响重测信度。影响小。这里题目取样并不影响重测信度。第26页,讲稿共81张,创作于星期日所测量的特性必须是所测量的特性必须是 稳定的;稳定的;遗忘与练习的效果相同;遗忘与练习的效果相同;两次施测期间被试的学习效果没有差别。两次施测期
18、间被试的学习效果没有差别。(三)计算重测信度的几个假设(三)计算重测信度的几个假设第27页,讲稿共81张,创作于星期日 (四)使用重测信度的优缺点(四)使用重测信度的优缺点 优点:优点:能提供有关测验结果是否随时间而变异的资料,能提供有关测验结果是否随时间而变异的资料,可作为预测受测者将来行为的依据。可作为预测受测者将来行为的依据。缺点:缺点:容易受练习和记忆的影响,前后两次施测间隔的长短容易受练习和记忆的影响,前后两次施测间隔的长短必须适度必须适度;第一次尝试所发现的错误也可能导致第二次反第一次尝试所发现的错误也可能导致第二次反应的变化而增加误差变异。应的变化而增加误差变异。第28页,讲稿共
19、81张,创作于星期日 (五)注意事项(五)注意事项 两次测验的时间间隔要适当。最适宜的时距随两次测验的时间间隔要适当。最适宜的时距随测验目的、性质及被试特点而异;测验目的、性质及被试特点而异;此方法适用于速度测验或人格测验,不适于此方法适用于速度测验或人格测验,不适于难度测验;难度测验;注意提高被试的积极性。注意提高被试的积极性。第29页,讲稿共81张,创作于星期日 二、复本信度(等值系数)二、复本信度(等值系数)(一)定义与计算(一)定义与计算 1.定义定义 根据一组被试在两个平行(等值)测验上的得分计根据一组被试在两个平行(等值)测验上的得分计算相关系数算相关系数。测验复份测验复份A 测验
20、复份测验复份B 因为它反映的是两个测验之间的等值程度,故又因为它反映的是两个测验之间的等值程度,故又称等值系数。称等值系数。最短时距最短时距第30页,讲稿共81张,创作于星期日 2.计算方法计算方法 AB A B/N r rxxxx =NAB 式中,式中,A A、B B为同一被试在两个测验复份为同一被试在两个测验复份A A、B B上的分数,上的分数,A A 、B B为为A A、B B两型测验的平均分数,两型测验的平均分数,A A、B B为为A A、B B两型测验的标准差,两型测验的标准差,N N为被试人为被试人数。数。第31页,讲稿共81张,创作于星期日 (二)误差来源(二)误差来源 1.测验
21、两种形式是否等值:测验两种形式是否等值:(1)测题取样是否匹配;)测题取样是否匹配;(2)格式是否相同;)格式是否相同;(3)内容、题数、难度、平均数、标准差是否一致。)内容、题数、难度、平均数、标准差是否一致。2.被试方面情绪波动、动机变化等。被试方面情绪波动、动机变化等。3.测验情境的变化测验情境的变化,偶发因素的干扰。偶发因素的干扰。第32页,讲稿共81张,创作于星期日 (三)等值测验应符合的条件(三)等值测验应符合的条件 等值测验可避免重测法的缺点,但所使用的必须是真正等值测验可避免重测法的缺点,但所使用的必须是真正的复本。复本应符合以下条件:的复本。复本应符合以下条件:1.各份测验测
22、量的是同一种心理特性;各份测验测量的是同一种心理特性;2.各份测验具有相同的内容和形式;各份测验具有相同的内容和形式;3.各份测验的题目不应有重复的地方;各份测验的题目不应有重复的地方;4.各份测验题目数量相等,并且有大体相等的难各份测验题目数量相等,并且有大体相等的难度、区分度;度、区分度;5.分数分布(平均数和标准差)大致相等。分数分布(平均数和标准差)大致相等。第33页,讲稿共81张,创作于星期日 (四)注意事项(四)注意事项 1.两个测验必须在项目的内容、形式、数量、两个测验必须在项目的内容、形式、数量、难易、时限、指导语等方面相同或相似;难易、时限、指导语等方面相同或相似;2.两次测
23、验的时间间隔要适当,若太短,由于测两次测验的时间间隔要适当,若太短,由于测验太相似被试可能厌倦,若太长可能又会因新的学验太相似被试可能厌倦,若太长可能又会因新的学习而产生干扰。习而产生干扰。第34页,讲稿共81张,创作于星期日 (五)使用复本信度的局限(五)使用复本信度的局限 1.只能减少但不能完全消除练习和记忆的影只能减少但不能完全消除练习和记忆的影响;响;2.由于第二个测验只改变了题目的具体内容,由于第二个测验只改变了题目的具体内容,已已经掌握的解题原则可以很容易地迁移到同类问题。经掌握的解题原则可以很容易地迁移到同类问题。3.对许多测验来说,建立复本是十分困难的。对许多测验来说,建立复本
24、是十分困难的。第35页,讲稿共81张,创作于星期日 三、分半信度三、分半信度 (一)定义和计算(一)定义和计算 在测验无复本且只能施测一次的情况下,通常用在测验无复本且只能施测一次的情况下,通常用分半法估计信度,即将测题分成对等的两半,根据各分半法估计信度,即将测题分成对等的两半,根据各人在这两半测验的分数,用皮尔逊积差相关公式计算人在这两半测验的分数,用皮尔逊积差相关公式计算其相关系数,作为信度指标。其相关系数,作为信度指标。分半信度考察的是两半题目之间的一致性,故分半信度考察的是两半题目之间的一致性,故这种信度系数也称内部一致性系数。计算分半信这种信度系数也称内部一致性系数。计算分半信度仍
25、然可用积差相关方法。度仍然可用积差相关方法。第36页,讲稿共81张,创作于星期日 (二)分半的方法(二)分半的方法 要计算分半信度,首先是如何将测验分半,要计算分半信度,首先是如何将测验分半,以便得到最接近的可比较的两半。通常采用奇偶以便得到最接近的可比较的两半。通常采用奇偶分半法。使用此方法应注意:分半法。使用此方法应注意:1一组解决同一问题或互相有牵连的题目应尽量安排在一组解决同一问题或互相有牵连的题目应尽量安排在同一半内。同一半内。2当试卷中有任选题时不宜使用分半法,速度测验也不当试卷中有任选题时不宜使用分半法,速度测验也不宜用。宜用。第37页,讲稿共81张,创作于星期日 (三)校正公式
26、(三)校正公式 分半法求得的相关仅是半个测验分数相关,应使分半法求得的相关仅是半个测验分数相关,应使 用用“斯皮尔曼斯皮尔曼布朗布朗”公式加以校正,藉以估计整个测验的信度。公式加以校正,藉以估计整个测验的信度。1.斯皮尔曼斯皮尔曼布朗公式布朗公式 rxx=2rhh/(1+rhh)其中,其中,rhh为两半分数的相关系数,为两半分数的相关系数,rxx为测验在原长度时的为测验在原长度时的信度估计。信度估计。此法假设:两半测验分数的变异性相等,但实际资料未必此法假设:两半测验分数的变异性相等,但实际资料未必符合此假设。符合此假设。当两半不等值时,即上述假设不满足时,可采用下面两公式之一:当两半不等值时
27、,即上述假设不满足时,可采用下面两公式之一:第38页,讲稿共81张,创作于星期日例题:例4:有一个由100题构成的量表施测于10个高三学生。测验一次后,应试者即毕业离校。现在怎样评介测验结果的信度?解:因不能再次测验,只能求分半信度。步骤:(1)计算出每个应试者的奇数题总分(X1)和偶数题总分(X2),见下表第39页,讲稿共81张,创作于星期日得分被试12345678910X138373841403638394035X237373639393438393936第40页,讲稿共81张,创作于星期日 随堂练习随堂练习 1.假设有一份主观幸福感调查表,先后两次假设有一份主观幸福感调查表,先后两次施测
28、于施测于10名学生,时间间隔为半年,结果如表所名学生,时间间隔为半年,结果如表所示,求该测验的重测信度。示,求该测验的重测信度。测验X1 16 15 13 13 11 10 10 9 8 7X2 16 16 14 12 11 9 11 8 6 7被 试 1 2 3 4 5 6 7 8 9 10 第41页,讲稿共81张,创作于星期日解:用计算器算出S1=2.82,S23.38,把以上数据代入公式,可得 第42页,讲稿共81张,创作于星期日 2.假设用假设用A、B两型创造力复本测验对初中一年两型创造力复本测验对初中一年级级10个学生施测。结果如表所示,个学生施测。结果如表所示,X1,X2 分别代分
29、别代表表A、B两型测验。求该测验的复本信度。两型测验。求该测验的复本信度。测验 被 试 1 2 3 4 5 6 7 8 9 10X1 20 19 19 18 17 16 14 13 12 10 X2 20 20 18 16 15 17 12 11 13 9第43页,讲稿共81张,创作于星期日解:先用计算器计算得出以下值:,代入公式可得:第44页,讲稿共81张,创作于星期日5.2测量的效度及检验测量的效度及检验第45页,讲稿共81张,创作于星期日案例一 美国杜克能源公司某蒸气站被美国杜克能源公司某蒸气站被12名黑人雇名黑人雇工告上了法庭,缘由是该公司把他们都当勤杂工工告上了法庭,缘由是该公司把他
30、们都当勤杂工使用,每天的任务就是扫地和清洁,他们原本指使用,每天的任务就是扫地和清洁,他们原本指望能被提升到像运煤工这样层次更高的岗位上,望能被提升到像运煤工这样层次更高的岗位上,但公司说他们的智力测验分数不够,而该公司的但公司说他们的智力测验分数不够,而该公司的14个黑人员工中有个黑人员工中有13个做勤杂工,诉讼的理由是个做勤杂工,诉讼的理由是智力测验有种族歧视。而公司说没有任何歧视,智力测验有种族歧视。而公司说没有任何歧视,岗位安排完全根据测验结果来定,没有歧视黑人。岗位安排完全根据测验结果来定,没有歧视黑人。法庭要求公司提供测验对职位胜任的预测力法庭要求公司提供测验对职位胜任的预测力。第
31、46页,讲稿共81张,创作于星期日案例二 某大学学生期终考试后向校方提出质某大学学生期终考试后向校方提出质疑,说教授给出的考试范围是教科书中的疑,说教授给出的考试范围是教科书中的110章,但考试内容却都集中于前三章,章,但考试内容却都集中于前三章,这样的考试无法检验真实的学习成绩,也这样的考试无法检验真实的学习成绩,也就是考试并没有提供一个让我展现所学全就是考试并没有提供一个让我展现所学全部知识的机会。部知识的机会。第47页,讲稿共81张,创作于星期日5.2.1 效度概述效度概述定义定义:测评实际上能够测得所测评对测评实际上能够测得所测评对象的真实程度象的真实程度.也就是测评本身也就是测评本身
32、所能达到期望目标的程度有多大。所能达到期望目标的程度有多大。效度反应了测验的准确性效度反应了测验的准确性第48页,讲稿共81张,创作于星期日 第49页,讲稿共81张,创作于星期日与目的有关的真分数在实测分数中所占的比与目的有关的真分数在实测分数中所占的比例例 (在实测分数中有效真分数所占的比率在实测分数中有效真分数所占的比率)实测分数实测分数=真分数真分数+误差误差(随机误差随机误差)与目的与目的 与目的与目的 有关有关 无关无关(系统误差系统误差)第50页,讲稿共81张,创作于星期日一个稳定但无效的智力测验一个稳定但无效的智力测验1.你出生在几月份?2.你母亲姓什么?3.1+1=?4.一个星
33、期有几天?5.下面哪个是三角形?A.B.C.第51页,讲稿共81张,创作于星期日信度与效度的关系信度与效度的关系 信度是效度的必要条件信度是效度的必要条件,但不是充但不是充分条件分条件.要想一个测验的效度高要想一个测验的效度高,其信其信度必须得高;但信度高度必须得高;但信度高,效度未必高效度未必高.第52页,讲稿共81张,创作于星期日影响效度的误差来源影响效度的误差来源1.测验题目不能反应要测量的特征测验题目不能反应要测量的特征.2.实施过程偏离了标准化的程序实施过程偏离了标准化的程序.3.被试不能如实回答被试不能如实回答.第53页,讲稿共81张,创作于星期日5.2.1测验效度的类型测验效度的
34、类型效标效度效标效度内容效度内容效度结构效度结构效度第54页,讲稿共81张,创作于星期日第二节第二节 效标效度效标效度(准则关联效度准则关联效度)什么是效标什么是效标:是假定的客观标准,反应测验是假定的客观标准,反应测验目的的行为参照目的的行为参照.它作为测评有效性它作为测评有效性的指标。的指标。什么是效标效度什么是效标效度:寻求测评结果与某项效标的相寻求测评结果与某项效标的相关程度来度量的效度。也称经验效关程度来度量的效度。也称经验效度或统计效度。度或统计效度。第55页,讲稿共81张,创作于星期日理想效标的四大条件理想效标的四大条件1.有效性有效性2.可靠性可靠性3.可操作性可操作性4.实用
35、性实用性第56页,讲稿共81张,创作于星期日预测性和同时性效度预测性和同时性效度预测性效度:测验分数和以后的某个效标之预测性效度:测验分数和以后的某个效标之间的相关间的相关同时性效度:同时获得测验分数和某个效标同时性效度:同时获得测验分数和某个效标之间的相关之间的相关第57页,讲稿共81张,创作于星期日如何选择效标如何选择效标上级部门或领导的评估上级部门或领导的评估工作实绩工作实绩总结评比的结果总结评比的结果综合标准综合标准第58页,讲稿共81张,创作于星期日效标效度的计算方法效标效度的计算方法1.相关法相关法 求取测验分数与效标变量之求取测验分数与效标变量之间的相关程度间的相关程度,即效度系
36、数即效度系数.第59页,讲稿共81张,创作于星期日1)积差相关积差相关 在两组数据都是连续变量在两组数据都是连续变量,且两者存在且两者存在线性关系时使用线性关系时使用公式公式:第60页,讲稿共81张,创作于星期日被被 试试12345678910测验测验(x)20 34 32 47 20 24 27 25 22 16销售额销售额(y)2.53.8340.712.23.52.81.2第61页,讲稿共81张,创作于星期日2.命中率命中率测验有效性的指标之一就是作出正确测验有效性的指标之一就是作出正确决定的比率决定的比率,即决策的命中率即决策的命中率.效标成效标成绩绩测验预测测验预测失败失败成功成功成
37、功成功(A)失误失误(B)命中命中失败失败(C)命中命中(D)失误失误第62页,讲稿共81张,创作于星期日第63页,讲稿共81张,创作于星期日例题某工交公司对240名司机进行了反应速度的测验,用1,8区间的不同数值代表个体反应时的差异。把三年中未发生事故的司机定义为成功,把发生一次以上事故的司机定义为不成功。240人成绩与安全性水平的分布如下表所示第64页,讲稿共81张,创作于星期日测验成绩成功(未发生)失败(发生1次以上)总人数8909717017637037545449445752327936281220141620总人数19248240如果把反应时的测验成绩以5分及以上为标准界限,则该表
38、可以转换为下表第65页,讲稿共81张,创作于星期日 安全水平反应时成功成功不成功成功1084不成功8444按照公式可得:Rct=第66页,讲稿共81张,创作于星期日第三节第三节 内容效度内容效度定义定义:测验题目对所要测量的内容测验题目对所要测量的内容范围的代表性程度,考验题目样范围的代表性程度,考验题目样本是否代表了内容总体本是否代表了内容总体。第67页,讲稿共81张,创作于星期日内容效度的两个要点内容效度的两个要点1.测题对测量对象的有效性测题对测量对象的有效性2.全部测题对测量对象的涵盖程度全部测题对测量对象的涵盖程度第68页,讲稿共81张,创作于星期日例子例子对一个优秀篮球运动员技能的
39、测量对一个优秀篮球运动员技能的测量测量目的测量目的:一个优秀篮球运动员需要具备的一个优秀篮球运动员需要具备的技能技能对内容领域的描述对内容领域的描述:投蓝,运球,抢篮板。投蓝,运球,抢篮板。测验测验A:在各个位置上投蓝在各个位置上投蓝40次次;测验测验B:各种情景下的运球各种情景下的运球30次次.第69页,讲稿共81张,创作于星期日确定内容效度的方法确定内容效度的方法专家判断专家判断 请某领域里的专家来评判测验的请某领域里的专家来评判测验的内容是否编排的合理内容是否编排的合理.缺点缺点:1)没有量化指标没有量化指标;2)对内容效度的判断不一致对内容效度的判断不一致;3)教育思想或心理学观点不同
40、教育思想或心理学观点不同,所以对所以对内容范围的理解也不同内容范围的理解也不同.第70页,讲稿共81张,创作于星期日内容效度比(内容效度比(CVR)内容效度比低的题目就应该被淘汰内容效度比低的题目就应该被淘汰.然然后计算全部测题的内容效度比的平均数后计算全部测题的内容效度比的平均数,作作为内容效度的指标为内容效度的指标.第71页,讲稿共81张,创作于星期日其他辅助的方法其他辅助的方法2.统计分析法统计分析法3.再测法再测法4.经验法经验法5.内在一致性内在一致性第72页,讲稿共81张,创作于星期日内容效度与表面效度的区别内容效度与表面效度的区别表面效度是指测验看起来所要测量表面效度是指测验看起
41、来所要测量的东西的东西,是被试或外行看来是有效的测是被试或外行看来是有效的测验验.表面效度与内容效度并不总是一致的表面效度与内容效度并不总是一致的.表面效度能间接影响测验的效度表面效度能间接影响测验的效度,所所以测验编制时也要适当关注表面效度以测验编制时也要适当关注表面效度.第73页,讲稿共81张,创作于星期日提高内容效度的有效方法:提高内容效度的有效方法:编制命题的双向细目表编制命题的双向细目表记忆记忆 了解了解 应用应用 分析分析 综合综合 评价评价 合计合计第一章第一章8210第二章第二章12621030第三章第三章 4422618第四章第四章 2101284642合计合计6262814
42、206100第74页,讲稿共81张,创作于星期日第四节第四节 结构效度结构效度定义定义:根据测评所假定的结构予以解根据测评所假定的结构予以解释的程度,主要用于人员功能结构释的程度,主要用于人员功能结构的理论概括和探讨。的理论概括和探讨。第75页,讲稿共81张,创作于星期日某一智力理论的四项假设某一智力理论的四项假设:1.智力随年龄而增长智力随年龄而增长;2.智商是稳定的智商是稳定的;3.智力与学业成绩有密切关系智力与学业成绩有密切关系;4.智力受遗传的影响智力受遗传的影响.第76页,讲稿共81张,创作于星期日某注意力的理论某注意力的理论,注意有如下特征注意有如下特征:1.稳定性稳定性2.集中性
43、集中性3.转移性转移性4.分配分配5.范围范围第77页,讲稿共81张,创作于星期日收集结构效度资料的方法收集结构效度资料的方法1.测验内方法测验内方法 研究测验的内部构造来界定所测量的研究测验的内部构造来界定所测量的结构范围结构范围.1)内容效度内容效度 2)内在一致性内在一致性 3)因素分析因素分析第78页,讲稿共81张,创作于星期日2.测验间方法测验间方法 研究几个同类测验间的相互关系来考研究几个同类测验间的相互关系来考察它们是否测量相同的心理结构察它们是否测量相同的心理结构.1)相容效度相容效度 2)会聚效度和区分效度会聚效度和区分效度第79页,讲稿共81张,创作于星期日谢谢!谢谢!第80页,讲稿共81张,创作于星期日感感谢谢大大家家观观看看17.10.2022第81页,讲稿共81张,创作于星期日