《心理测量学复习要点.doc》由会员分享,可在线阅读,更多相关《心理测量学复习要点.doc(20页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、心理测量学 第一节 概述 第一单元 测量与测量量表 一、什么是测量 测量就是依据一定的法则用数字对事物加以确定。 定义中包括三个主要的元素:(1)事物 (2)数字 (3)法则。 测量所用的数字具有自然数的特点,即具有:(1)区分性;(2)等级性;(3)等距性;(4)可加性。 二、测量要素 任何测量都应该具备两个要素:既参照点和单位。 1、参照点有两种:a.绝对零点 b.相对零点 2、好的单位必须具备两个条件:一为有确定的意义,即对同一单位,所有的人的理解意义要相同,不能出现不同的理解。二是有相同的价值。即相邻两个单位点之间的差别总是相等的。 三、测量量表 测量的本质是根据某一法则将事物数量化,
2、即在一个定有单位和参照点的连续体上把事物的属性表现出来,这个连续体称为量表。 根据量表的精确度,斯蒂文斯将量表从低级到高级分成四种水平: 命名量表: 这是测量水平最低的一种量表形式,只是用数字代表事物或把事物归类。 1、代号用数字来代表个别事物,如学生和运动员的编号等。 2、类别用数字来代表某一具有某种属性的事物的全体,即把某种事物确定到不同的性质的类别中。如用1代表男,用2代表女,或用不同的数字代表不同的职业等。 顺序量表:它比命名量表水平高,其中的数字不仅指明类别,同时指明类别的大小或含有某种属性的程度,如学生的考试名次、工资的级别、能力等级等。在顺序量表中,既无相等单位,双无绝对零点,数
3、字仅表示等级,并不表示某种属性的真正量或绝对值。 等距量表 :它比顺序量表又进了一步,不但有大小关系,而且具有相等的单位,其数值可以相互做加减运算,但没有绝对的零点,因此不能做乘、除运算。典型的类子就是摄氏温度。 等比量表:是最高水平的量表,既有相等单位又有绝对零点。此种量表在物理测量中容易见到,长度、重量、时间等都是等比量表。所得的数值可以做加减乘除运算。 一般说来,心理测量表是在顺序量表上进行的,因为对于人的智力、性格、兴趣、态度等,没有绝对零度是难以确定的,而且,在心理测量中,相等单位也是很难获得的。 第二单元 心理测验的基本概念 一、心理测验的定义 : 所谓心理测验,就是依据心理学理论
4、,使用一定的操作程序,通过观察人的少数有代表性的行为,对于贯穿在人的全部行为活动中的心理特点做出推论和数量化分析的一种科学手段。 四个要素: 1、心理测量的对象是人的行为; 2、心理测量必须选择有代表性的样本; 3、心理测量必须有相同的条件; 4、心理测量必须以常模作为测量依据。 二、心理测验的性质 (一)间接性 :只能通过一个人对测验项目的反应来推论出他的心理特质。特质是个人对刺激作反应的一种内在倾向。是个体特有的、稳定的、可辩别的特征,它又是一个抽象产物,一个构思,而不是一个直接测量到的有实体的个人特点。 (二)相对性 :对人的行为做比较,没有绝对标准。(三)客观性:包括(1)测验的刺激是
5、客观的;(2)对反应的量化是客观的;(3)对结论的推论是客观的。测验的客观性实际上就是测验的标准化问题。包括测验用的项目或作业标准化、评分记分的原则和手段的标准化、分数转换和解释经过了标准化。 测验的客观性不包括()的客观性。绝对的标准 第三单元 心理测验的分类 一、按测验的功能分类 (一)智力测验:其功能是测验人的一般智力水平。 (二)特殊能力测验:如音乐、绘画、机械技巧、文书才能测验。 (三)人格测验:个性中除能力以外的部分的测验。 二、按测验材料的性质分类 (一)文字测验:儿童和成人智力量表中的言语量表部分均属文字测验。缺点是容易受被试者文化程度的影响。 (二)操作测验:操作测验也称非文
6、字测验。多属于对图形、工具、模型的辨认和操作,无须使用言语作答,所以不受文化因素的限制,可用于学前儿童和不识字的成人。 三、按测验材料的严谨程度分类 (一)客观测验:无须发挥想像力来猜测和遐想。 (二)投射测验 1概念:投射法是指向被试者提供一些未经组织的刺激 情境,让他在不受限制的情境下,自由地表现出他的反应,分析反应的结果,便可推断出他的人格结构。 2投射技术的种类 (1)联想法罗夏墨迹测验 (2)构造法主题统觉测验 (3)表露法主要有: a.画人测验 b.知觉运动测验 (4)完成法(句子填充测验、逆境对话测验) 句子填充测验:我最喜欢 。 我最讨厌 。 四、按测验的方式分类 (一)个别测
7、验:以一对一的形式来进行。优点在于主试对被试的言语和情绪状态有仔细的观察,并且有充分的机会与被试者合作,所以结果可靠。缺点是时间不经济。 (二)团体测验:一个主试者同时对多个被试者实施的测验。如著名的陆军甲种和乙种测验。 五、按测验的要求分类 (一) 最高行为测验成就测验、学绩测验 。 (二) 典型行为测验一般人格测验等。 第四单元 如何看待心理测验 一、错误的测验观 (一)测验万能论 (二)测验无用论 二、正确的测验观 (一)心理测验是重要的心理学研究方法之一、是决策的辅助工具 (二)心理测验作为研究方法和测量工具尚不完善。 第五单元 心理测验在心理咨询中的应用 在我国目前情况下,心理门诊中
8、运用较多的大致有这样3类心理测验: 一、智力测验 ; 二、人格测验; 三、心理评定量表。 心理测验在咨询和心理治疗过程中并不是必不可少的一个环节,如果通过与咨询或治疗对象的交谈,对其问题已形成明确的看法,就可以放弃不必要的心理测验。有时过多的使用还会影响咨询、治疗的过程和效果。 第六单元 心理测验的发展史 一、科学心理测验的产生与发展 (一)三个重要人物:1、高尔登(F.Galton),首先倡导科学心理测验的学者 。英国生物学家和心理学家高尔顿的主要贡献:(1)提出了不同气质特点和智能是按身体特点的不同而遗传的; (2)研究差异的遗传性,便设计了测量差异的方法,典定了统计学基础;(3)第一个提
9、出了相关的概念,创立了积差相关法,这使判定心理测验的信度、效度和进行因素分析成为可能。 2、卡特尔(J.M.Cattell),卡特尔(1)在心理杂志上发表“心理测验与测量”一文,这是心理测验第一次出现于心理学文献中;(2)认为心理学应立足于实验与测验;(3)认为心理测验应有统一的标准。3、比内(A.Binet),编写了世界上第一个正式的心理测验。 (二) 20世纪心理测验的主要发展: 1、操作测验的发展 2、团体智力测验的发展 3、能力倾向测验的发展 4、人格测验的发展 二、现代心理测验在我国的发展(参见本课程教学参考资料:专栏5-1中国古代的心理测验思想) 九连环是一种中国民间的智力游戏,其
10、设计之巧妙,也可和现代的魔方、魔棍相配美。称为“中国的迷津”。七巧板 被称为唐图,即“中国的图板”。近些年来我国的心理学学正在致力于测验的本土化。 第二节 测验的常模 常模参照分数解释的测验:律师考试就是这样,即使大家考试都考得特别好,也只要前面的百分之几。根据大家的成绩。 标准参照分数解释的测验:国家心理咨询师的考试,出了两份卷子:基础理论,操作技能,满分一百,及格六十。两科都满60,可以得到分数。门槛已经设好了。大家都能跳过门槛,就都能通过。很多人都没有通过,也就不能过去了。通过与不通过,参照一个事先设定好的标准,来解释分数。叫做标准参照分数解释。 第一单元 常模团体 一、常模团体的性质
11、常模团体是由具有某种共同特征的人所组成的一个群体,或者是该群体的一个样本。它用一个标准的、规范的分数表示出来,以提供比较的基础。 任何一个测验都有许多可能的常模团体 。对测验编制者而言,常模的选择包括:确定一般总体、确定目标总体、确定样本。对测验的使用者来说,要考虑的问题是,现有的常模团体哪一个最合适。 二、常模团体的条件 (一)群体的构成必须明确界定 (二)常模团体必须是所测群体的代表性样本 (三)样本的大小要适当 。总体数目小,只有几十个人,则需要100%的样本。如果总体数目大,相应的样本也大,一般最低不小于30或100个。全国性常模,一般应有20003000人为宜。在实际工作中,应从经济
12、的或实用的可能性和减少误差这两个方面来综合考虑样本的大小。 (四)标准化样组是一定时空的产物(具有新近性) 三、取样的方法 简单随机抽样 系统抽样 :系统抽样方法的关键是计算组距。系统抽样要求目标总体无序可排,也无等级结构存在。 分组抽样 : 分层抽样 :有分层按比例抽样与分层非比例抽样之分。此方法最常用。 四、常模分数与解释 常模分数:常模分数就是施测常模样本被试后,将被试者的原始分数按一定规则转换出来的导出分数。 常模:常模分数构成的分布,就是通常所说的常模(norm),它是解释心理测验分数的基础。 常模表示一种最简单、最基本的且常用的呈现常模资料的方法,它的构成要素是:对常模团体的具体描
13、述;原始分数;导出分数。导出分数的特性:具有意义;与原始分数等值;等单位;具有参照点。取样是指从()中选择有代表性的样本。目标人群 第二单元 常模的类型 一、发展常模(年龄量表) (一)发展顺序量表 。最早的一个范例是葛塞尔发展程序表 。按月份显示儿童在运动水平、适应性、语言、社会性四个方面的大致发展的水平。 4周能控制眼球运动;16周能使头部保持平衡;28周能用手抓握东西并玩弄;40周能控制躯干、坐立或爬行;52周能控制腿脚运动、站立和行走。皮亚杰发现,儿童不同时期出现不同的守恒概念:5岁时理解质量守恒;6岁时掌握重量守恒;7岁时有容量守恒概念。 皮亚杰的研究着重于从婴儿到十多岁儿童认知过程
14、的发展,尤其注重某些特殊概念的形成,其中最著名的工作就是对()概念的研究。守恒 (二)智力年龄 比内-西蒙量表中首先使用智力年龄的概念。 计算方法:假如某儿童6岁组的题目全部通过,7岁组通过4题,8岁组通过3题,9岁组通过2题,其智龄为:6(岁)+42(月)+32(月)+22(月)=6岁+18月=7岁6个月。 智力年龄,简称智龄,一个儿童在年龄量表上所得到的分数,就是代表他的智力水平的年龄。 (三)年级当量 :年级当量实际上就是年级量表,测验结果说明属哪一年级的水平,在教育成就测验中最常用。 发展量表的基本要素;(1)一组可以区分不同年龄组的题目;(2)一个常模团体;(3)常模表。 二、百分位
15、常模 (一)百分等级:指在常模样本中低于这个分数的人数的百分比。公式(5-1):PR100(100R50N) 王红在30名同学中的物理成绩是80分,排名第5名,则其百分等级为(85)。 (二) 百分点: 也称百分位数。计算处于某一百分比例的人对应的测验分数是多少。 直线内插法:例:高考的最高分为695,其百分等级为100,最低分为103分,百分等级为1,要录取20的学生进入大学,百分等级为80的百分位数(PP)。按直线内插法:10080695PP801PP103 得PP575 (三)四分位数和十分位数 : 四分位数和十分位数只是百分位数的两个变式,其含义相似。百分位数是将量表分成100份,而四
16、分位则是将量表分成四等份,十分位则是分成十等份。 三、标准分常模 标准分数是将原始分数与平均数的距离以标准差为单位表示出来的量表。因为它的基本单位是标准差,所以叫标准分数。 标准差的作用:一是可以直接反映被测值的离散程度;二是可以直接作为一个单位反映被测值偏离平均值的情况。 1.线性转换的标准分数 公式(5-2)Z=(X-X)/SD 其中X 为任一原始分数,X样本平均分数,SD为样本标准差。由此可见Z可以用来表示某一分数与平均数之差的几倍。 因为存在小数和负数,而且单位过大,通常将z转换成另一形式: 公式(5-3):Z=A+BZ Z为转换后的标准分数,A、B为根据需要指定的常数。 2.非线性转
17、换的标准分数 。当原始分数不是常态分布时,也可以使之常态化,这一转换过程就是非线性的。步骤为:A、对每个原始分数值计算累计百分比;B、在常态曲线面积中,求出位于该百分比的z分数。 (1)T分数:以50为平均数(即加上一个常数50),以10为标准差(乘以一个常数10)来表示。(麦柯尔最早使用) 公式(5-4):T=50+10z 最早使用T分数的是麦柯尔。 (2)标准九分:是以5为平均数,以2为标准差的一个分数量表。 (3)标准十分:以5(5.5)为平均数,以1.5为标准差的一个分数量表。 (4)标准二十分:以10为平均数,以3为标准差的一个分数量表。 四、智商及其意义 1.比率智商 (斯坦福大学
18、推孟教授于1916年修订而成斯坦福-比内量表)。比率智商(IQ)等于心理年龄(MA)与实足年龄(CA)之比。为小数将商乘以100。 公式(5-5) IQ=MA/CA100 缺点:由于智力是由快到慢再到停止的一个过程,所以不适合年龄较大的被试。 2.离差智商 (韦克斯勒) :表示的是个体智力在年龄组中的位置。 离差智商的平均数为100,标准差定为15。 公式(5-6):IQ=100+15Z=100+15(X-X)/SD 必须指出:从不同的测验获得的离差智商只有当标准差相同或接近时才可以比较,标准差不同,其分数的意义便不同。(参见本课程教学参考资料:专栏5-2几种导出分数间的相互关系) 离差智商的
19、优点:(1)建立在统计学基础之上;(2)它表示的是个体智力水平年龄组中所处的位置;(3)是表示智力高低的一种理想指标。 若儿童的心理年龄高于其生理年龄,则智力较一般儿童高,若心理年龄低于其生理年龄,则智力较一般儿童低。但在实践中发现,单纯用心理年龄来表示智力高低的方法缺乏不同()儿童间的可比性。年龄 五、注意的问题 1、发展常模换算及解释时需要注意的问题 : 只适合于所测特质随年龄发展变化的情况,对成年人不适用;只适用于在典型环境下成长的儿童;一年的差异在不同年龄有不同的含义。 2、百分位换算及解释时需要注意的问题 :顺序量表,缺少相等单位。靠近中央的原始分数差异扩大,而两端的差异缩减。不能比
20、较和说明不同被试间分数差异的数量。 3、标准分数换算及解释时需要注意的问题 :计算非线性转换的标准分数时,特质的分数实际上应该是常态分布。标准差不同,其分数的意义不同。 第三单元 常模分数的表示方法 一、转换表法 :最简单而且最基本的表示常模的方法就是转换表,有时也叫常模表。 二、剖面图法 :剖面图就是将测验分数的转换关系用图形表示出来,效果更直观。 第三节 测验的信度 第一单元 信度的概念 一、信度的定义 信度是指同一被试者在不同时间内用同一测验(或用另一套相等的测验)重复测量,所得结果的一致程度。 信度只受随机误差的影响。随机误差越大,信度越低。 第一个测试的实际分数(X)总是由真实分数(
21、T)和误差(E)两部分构成。 (公式5-7):X=T+E 如果用方差代表具体分数,就得到(公式5-8)。 在测量理论中,信度被定义为:一组测量分数的真实分数方差与总方差(实得分数的方差)的比率。(公式5-9)。 真实分数是无法统计的,因此公式5-9还可以转化为(公式5-10)。 二、信度的指标 1.信度系数与信度指数 : 大部分情况下,信度是以信度系数为指标,它是一种相关系数。是真分数方差与实得方差的比值。(公式5-11)。 信度指数的平方就是信度系数。(公式5-12) 2.测量标准误 测量的标准误与信度之间有相互消长的关系:信度越高,标准误越小;信度越低,标准误越大。 第二单元 信度评估的方
22、法(四个) 一、重测信度 :使用同一测验,在同样条件下对同一组被试者前后施测两次测验,求两次得分间的相关系数,叫重测信度,又称稳定性系数。一般是两周到四周较宜,间隔时间最好不超过六个月。 由于人的多数心理特征如智力、性格、兴趣等,具有相对的稳定性,间隔一段时间,不会有很大的变化。 二、复本信度: 又称等值性系数。它是以两个等值但题目不同的测验(复本)来测量同一群体,然后求得被试者在两个测验上得分的相关系数。这个相关系数就代表了复本信度的高低。复本信度反映的是测验在内容上的等值性,故又称等值性系数。 复本信度也要考虑两个复本实施的时间间隔。如果两个复本几乎是在同一时间内施测的,相关系数反映的才是
23、不同复本的关系,而不掺有时间的影响。如果两个复本的施测相隔一段时间,则称重测复本信度或稳定与等值系数。 复本信度的缺点:(1)如果测量的行为易受练习的影响,则复本信度只能减少而不能完全消除这种影响;(2)由于第二个测验只改变了题的内容,已经掌握的解题原则可以迁移到同类的问题;(3)对于许多测验来说,建立复本是十分困难的。 三、内部一致性信度 1.分半信度:分半信度指采用分半法估计所得的信度系数。这种方法估计信度系数只需一种测验形式,实施一次测验。通常是在测验实施后将测验按奇、偶分为等值的两半,并分别计算每位被试在两半测验上的得分,求出这两半分数的相关系数。这个相关系数就代表了两半测验内容取样的
24、一致程度,因而属于内部一致性系数。 修正公式是斯皮尔曼-布朗公式:( 公式5-14)。 斯皮尔曼-布朗公式为经验公式,它的假设条件是两半测验的变异数相等,但实际资料有时未必完全符合这一条件。当假设不成立时,可采用弗朗那根公式或卢伦公式,直接求得测验的信度系数。 2.同质性信度:同质性主要代表测验内部所有题目间的一致性。当各个题目的得分有较高的正相关时,不论题目的内容和形式如何,则测验为同质的。 相反,即使所有题目看起来好象测量同一特质,但相关很低或为负相关时,则测验为异质的。 几个计算同质性信度的公式如下: (1)库德-理查逊公式 (用于0、1记分) 计算同质性信度,常用的是K-R20公式,在
25、各测题难度相同或近似的情况下,还可采用计算更为简便的K-R21公式。 K-R20公式、K-R21公式有别于克伦巴赫系数的是,它们只能用于()。是非题(2)克伦巴赫系数 (不适用于多重记分) 四、评分者信度 : 用于测量不同评分者之间所产生的误差。(0.90以上,才认为是客观的)。 为了衡量评分者之间的信度高低,可随机抽取若干份测验卷,由两位评分者按评分标准分别给分,然后再根据每份测验卷的两个分数计算相关,即得评分者信度。 当多个评分者评定多个对象,并以等级法记分时,可采用肯德尔和谐系数作为评分者信度的估计。 下列描述中正确的是:(1)随机抽取若干份测验卷,由两位评分者按评分标准分别给分,然后再
26、根据每份测验卷的两个分数计算相关,即得评分者信度;(2)所有题目看起来好象测同一特质,但相关很低或负相关时,则测验为异质的;(3)人的多数心理特征如智力、性格、兴趣等,具有相对的稳定性,间隔一段时间,不会有很大的变化;(4)不同信度反映测验误差的不同来源。 第三单元 信度与测验分数的解释 一、解释真实分数与实得分数的相关 信度系数可以解释为总的方差中有多少比例是由真实分数的方差决定的,也就是测验的总变异中真分数造成的变异占百分之几。 二、确定信度可以接受的水平 当rxx .70时,测验不能用于对个人作出评价或预测,而且不能做团体比较;当.70 rxx .85时,可用于团体比较;当rxx .85
27、时,才能用来鉴别或预测个人成就或作为。 三、解释个人分数的意义 作用:其一是估计真实分数的范围;其二是了解实得分数再测时可能的变化情形。 测量标准误可以通过第一次测验的结果及信度估计到:(公式5-15)。 例:在一个智力测验中,某个被试的iQ为100,这是否反映了他的真实水平?如果再测一次,他的分数将改变多少? X1.96SEXTX+1.96SE (公式5-16) 已知该智力测验的标准差为15,信度系数为.84,则其iq的测量标准误和可能范围为:套(公式5-15)得 SE= 6 , 即: IQ=1001.96610011.7688112 我们可以说这个被试的真实性IQ可能性落在88与112之间
28、,即若再测一次,他的智商低于88、高于112的可能性不超过5。 四、比较不同测验分数的差异 差异分数的标准误:(公式5-17)。 例;某被试在韦氏成人智力测验中言语智商为102,操作智商为110。已知两个分数都是以100为平均数,15为标准差的标准分数。假设言语测验和操作测验的分半信度分别为0.87和0.88。问其操作智商是否显著高于言语智商呢? 首先计算出差异分数的标准误:SED=7. 5 在统计上,经常要求两个分数的差异程度达到0.05的显著水平,才能承认不是误差的影响。因此,将差异标准误(7.5)乘以1.96,结果为14.7,这表明个体在韦氏测验两半得分的差异高于大约15分,才能达到0.
29、05显著水平。上述被试的差异分数110-102=8是不显著的。 第四单元 影响信度的因素 一、样本特征 (一)样本团体异质性的影响 若获得信度的取样团体较为异质的话,往往会高估测验的信度,相反则会低估测验的信度。 (二)样本团体平均能力水平的影响 因为每个题目具有不同的难度,对幼年者和能力水平较低者,其信度值相对较低。 二、测验长度 (一)测验越长,测题取样或内容取样越有代表性 (二)测验越长,被试的猜测因素影响就越小。 (三)测验太长,有时反而会引起被试者疲劳和反感而降低可靠性。 通过斯皮尔曼-布朗公式的导出公式可计算出最少应增加的题数:(公式5-18)。 例:一个包括40个题目的测验信度为
30、0.80,欲将信度提高到0.90,问至少需要增加多少题目? 根据斯皮尔曼布朗公式:K=0.90(10.80)/ 0.80(10.90)=2.25 即要取得0.90的信度,测验长度就为原来的2.25,即需要增加402.25=50个题目。 三、测验难度 (地板效应与天花板效应) 洛德(Lord)提出在学绩测验中,为了保证其可靠性,各类选择题的理想平均难度为:五择一测题,0.70;四择一测题,0.74;三择一测题,0.77;是非题,0.85。 只有平均难度水平为50时,才能使测验分数分布范围最大。 四、时间间隔: 两次测验相隔时间越短,其信度系数越大 注意事项 斯皮尔曼-布朗公式为校正分半信度的经验
31、公式,它的假设是两半测验分数的变异数相等。当假设不成立时,可以采用弗朗那根(Flanagan)公式或卢伦(kulon)公式之一,直接求得测验的信度系数。 对于一些复杂的、异质的心理学变量,采用单一的同质性测验是不行的,因而常常采用若干个相对异质的分测验。 第四节 测验的效度 美国心理学会在1974年发行的教育与心理测量之标准一书中将效度分为:(1)内容效度;(2)构想效度;(3)效标效度。 第一单元 效度的概念(有效性或者说准确性) 一、效度的定义 : 在心理测验中,效度是指所测量的与所要测量的心理特点之间符合的程度,或者简单地说是指一个心理测验的准确性。(是科学测量工具重要的必备条件)。 因
32、为测验分数的总方差等于真实方差与误差方差之和(公式5-8),而真实方差又分成两部分,即有关方差与无关的但稳定的方差:(公式5-19) 以公式5-19代入公式5-8得:(公式5-20) 在测验理论中,效度被定义为在一组测量中,与测量目标有关的真实方差(或称有效方差)与总方差的比率,即:(公式5-21) 二、效度的性质 1.效度具有相对性任何测验的效度是对一定的目标来说的,或者说测验只有用于与测验目标一致的目的和场合才会有效。效度具有相对性,在评鉴测验的效度时,必须考虑测验的(目的)与(功能)。 2.效度具有连续性 测验效度通常用相关系数表示,它只有程度上的不同,而没有“全有”或“全无”的区别。效
33、度是针对测验结果的。 测验效度是“测验结果”的有效性程度。 第二单元 效度评估的方法 一、内容效度(content-related validity) 什么是内容效度: 内容效度指的是测验题目对有关内容或行为取样的适用性,从而确定测验是否是所欲测量的行为领域的代表性取样。 内容效度的评估方法:(确定) 1专家判断法 (描述性语言) 请有关专家对测验题目与原定内容的符合性做出判断,看测验的题目是否代表规定的内容。如果专家认为测验题目恰当地代表了所测内容,则测验具有内容效度。由这种估计效度的方法,是一个逻辑分析的过程,所以内容效度又称“逻辑效度”。 为了使内容效度内容确定过程更为客观,弥补专家的不
34、足,可采用如下几个步骤: (1)定义好测验内容的总体范围,描述有关的知识与技能及所用材料的来源; (2)编制双向细目,确定内容和技能各自所占比例,并由测验编制者确定各题所测是何种内容与技能; (3)制定评定量表来测量测验的整个效度。2统计分析法 :包括(1)对评分者一致性的评定;(2)两个测验复本的相关性和课程内容的学习等分析;(3)再测法。 3经验推测法 :通过实践来检验效度。 内容效度的特性: 内容效度经常与表面效度(face validity)混淆。表面效度是由外行对测验作表面上的检查确定的,它不反映测验实际测量的东西,只是指测验表面上看来好像是测量所要测的东西;内容效度是由够资格的判断
35、者(专家)详尽地、系统地对测验作评价而建立的。 最高行为测验注重表面效度,测典型行为时则应该把表面效度降低,尽量不让你知道在测试的内容。这就是内容效度与表面效度的区别。 二、构想效度(construct-related validity) 构想效度指(1)测验能够测量到理论上的构想或特质的程度,(2)即测验的结果是否能证实或解释某一理论的假设、术语或构想,解释的程度如何。(3)涉及的是心理学的理论概念问题。(4)构思效度。 构想效度的估计方法: 1对测验本身的分析:可以作为构想效度的证据有:测验的内容有效;测验内部一致性;被试者对题目的反应特点 2测验间的相互比较:(1)相容效度:与其他测量同
36、一构思的测验有相关;(2)区分效度:与测量不同构思的测验无相关:(3)因素分析法:种因素与原先的理论构思一致,则说明构思效度很高。) 3效标效度的研究证明 4实验法和观察法证实 三、效标效度(criterion-related validity) 什么是效标效度 效标效度又称实证效度,反映的是测验预测个体在某种情境下行为表现的有效性程度。根据效标资料是否与测验分数同时获得,又可分为同时效度和预测效度两类。 一个好的效标必须具备以下条件: 效标必须能最有效地反映测验的目标,即效标测量本身必须有效; 效标必须具有较高的信度,稳定可靠,不随时间等因素而变化; 效标可以客观地加以测量,可用数据或等级来
37、表示; 效标测量的方法简单,省时省力,经济实用。 效标效度的评估方法 1相关法:相关法是评估效标效度最常用的方法,它是求测验分数与效标资料间的相关,这一相关系数称为效度系数。 效度系数的计算:积差相关法;点二列公式;二列公式; 贾思朋多系列公式。 2区分法:区分法是检验测验分数能否有效地区分由效标所定义的团体的一种方法。 3命中率法 : 命中率法是当测验用来做取舍的依据时,用其正确决定的比例作为效度指标的一种方法。四种情况:预测成功而且实际也成功;预测成功但实际上失败;预测失败而事实成功;预测失败且实际上也失败。称正确的预测为命中,不正确的预测为失误。 命中率高低常随划分测验分数成功与失败的临
38、界分数的高低面变化。临界分数越高,正命中率也越高;反之,临界分数越低,则正命中率也越低。 第三单元 效度的功能 一、预测误差 : 效度系数的实际意义常常以决定性系数来表示,意旨相关系数的平方,它表示测验正确预测或解释的效标的方差占总方差的比例。 二、预测效标分数 :如果X与Y两变量呈直线相关,只要确定出二者间的回归方程,就可以从一个变量推估出另一个变量。 三、预测效率指数 E=100(1-K) 预测效率指数E值的大小表明使用测验比盲目猜测能减少误差,如一个测验的效度系数为0、80,E=40,这表明由于该测验的使用,使得我们在估计被试的效标分数时减少了(40)的误差。 第四单元 影响效度的因素
39、一、测验本身的因素 : (1)测验取材的代表性;(2)测验长度;(3)试题类型、难度;(4)区分度以及编排方式等都会影响效度。 二、测验实施中的干扰因素 主试的影响因素 被试的影响因素 三、样本团体的性质 样本团体的异质性 :样本团体越同质,分数颁布分布范围越小,测验效度就越低;样本团体越异质,分数分布范围越大,测验效度就越高。 一般而言,若获得信度的取样团体较为异质的话,往往会(高估)测验的信度,否则就会低估测验的信度 干涉变量:对于不同性质的团体,同一测验的效度会有很大的不同。 美国心理学家吉塞利提出如何找出干涉变量的方法: 1、用回归方程求得每个人的预测效标分数,将该分数与实际效标分数相
40、比较,获得差异数D。如果D的绝对值很大,说明测验中的可能存在干涉变量。 2、根据样本团体的组成分析,找出对照组,分别计算效度,从而找出干涉变量。 3、对于欲测团体,根据某些易见的干涉变量将其区分为预测性高和预测性低的两个团体。对于预测性团体低的,存在干涉变量。 四、效标的性质 效标与测验分数之间的关系是否是线性关系是很重要的因素。皮尔逊积差相关系数的前题条件是假设两个变量的关系是线性分布。如果是非线性分布则皮尔逊积差相关系数会低估相关的大小。 效标测量本身的可靠性是值得考虑的一个问题。效标测量的可靠性即效标测量的信度。 (信度与效度的关系:信度是效度的必要而非充分的条件,效度是受信度的制约。)
41、 第五节 项目分析 包括定性分析和定量分析两个方面,定性分析包括考虑内容和效度,题目编写的恰当和有效性等;定量分析主要是指对题目难度和区分度等。 第一单元 项目的难度 一、定义 难度(difficulty),顾名思义,是指项目的难易程度。在能力测验中通常需要一个反映难度水平的指标,在非能力测验(如人格测验)中,类似的指标是“通俗性”。 难度的指标通常以通过率表示,即以答对或通过该题的人数百分比来表示(公式5-31):P=R/N100(用P 代表,P值越大,难度越低) 二、计算方法 二分法记分的项目:通过记1分,错误记0分,对这类题目可直接用公式5-31计算难度。 当被试人数较多时,则可根据测验
42、的总成绩将被试分成三组:分数最高的27被试为高分组,分数最低的27被试为低分组,中间46的被试为中间组。分别计算高分组和低分组的通过率,经两组通过率的平均值作为每一题的难度。(公式5-32) 由于选择题允许猜测,所以通过率可能因机遇作用变大,吉尔福特提出了一个难度校正公式(公式5-33): CP=KP-1/K-1 非二分记分的项目 当测验项目为问题答题或不能用二分法记分的形式时,一般用下面的公式计算难度。(公式5-34) 三、难度水平的确定 项目的难度: P值越接近0或接近1,越无法区分被试间能力的差异。相反,P值越接近于0.50,区别力越高。 在选择题目时,最好使试题平均难度接近050,而各
43、题难度在050020之间。 当测验用于选拔或诊断时,应该较多地选择难度值接近录取率的项目。对于选择题来说,P值一般应大于概率水平。对是非题其难度值应该为075最为合适;而对于四选一题,其难度值约为063时最为合适。 洛德(Lord)提出在学绩测验中,为了保证其可靠性,各类选择题的理想平均难度为:五择一测题,070;四择一测题,074;三择一测题,077;二择一题,()。0.85 测验的难度 如果样本具有代表性,对于中等难度的应该接近常态分配。但有些测验,如掌握性测验或标准参照测验,分数分布出现偏态是允许的。 数学测验的第7题满分为15分,该题考生的平均分为9.6分,测该题的难度为(0.64) P=R/N100 在340个学生中,答对项目的人数为120人,则该项目的难度为(0.6)在70名被试者中选为高分组和低分组的被试者各有100人,其中高分组有70人答对第一题,低分组有40人答对第一题,则第一题的难度为(0.55) 第二单元 项目的区分度 一、定义 项目区分度(item discrimination),也叫鉴别力,是指测验项目对被试的心理特性