《2022年教育测量与评价考试重点整理版.docx》由会员分享,可在线阅读,更多相关《2022年教育测量与评价考试重点整理版.docx(22页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选学习资料 - - - - - - - - - 课程性质和教学要求课程的性质 :训练测量与评判是训练测量学与训练评判学内容的整合并侧重于训练测量的一门综合性训练课程,它着力探讨对训练教学成效进行测量、评判的原理和方法,是一门带有综合性、技术性、实践性、应用性等特点的应用性学科,是实现训练科学讨论与训练管理科学化所必需借助的一门科学,础课程;也是训练学专业和学校训练专业所开设的一门必修专业基教学目标和要求:懂得训练测量与评判的基本概念、原理和方法,能正确使用各类标准化的训练测验、 会作测验质量分析、能正确说明分数的含义,并学会运用这些学问,对学校训练、 教学和讨论实践中的实际问题,做出比较正确
2、与合理的判定和评判,以促进训练治理现代化、训练讨论科学化;第一章 训练测量与评判的学科进展训练测量与评判的基本问题训练测量与评判的进展历史训练测量与评判的学科位置和作用1.测量的定义史蒂文斯曾对测量作出以下定义:“ 就其广义来说,测量是依据法就给事物指派数字;”我国有些学者认为: “ 测量是对客观事物进行某种数量化的测定”就,用数字方式对事物的属性进行描述的过程”;,“ 测量是依据肯定的法本书的观点: 从广义上讲, 测量就是依据某些法就与程序,用数字对事物在量上的规定性予 以确定和描述的过程;从以上对测量所下的各种定义可以看出,这种对事物进行区分的过程,必需是依据肯定法就的,区分的结果必需能够
3、用数字的方式进行描述的;2.测量的要素(1)测量的量具测量的量具是指依据某些科学原理和法就,进展出合适的量具或制定出科学的测量方案;(2)测量的单位不同的测量所采纳的单位是不同的;抱负的测量单位必需符合两个条件: 要有确定的意义; 要有相等的价值;训练测量的单位不够完善,既无统一的单位,也不符合等距的要求;(3)测量的参照点量的参照点系测量的起点;要确定事物的量,必需有一个测量的起点,这个起点就叫做测量的参照点;参照点有两种类型: 确定参照点(确定零点) ; 相对参照点(相对零点) ;抱负的参照 点是确定参照点,但训练测量中很难找到确定零点,多采纳人为指定的相对零点;3.训练测量的定义与特点
4、训练测量的定义训练测量, 就是针对学校训练影响下同学各方面的进展,描述的过程;训练测量的特点(1)本书的观点: 间接性和推断性; 测量对象的模糊性和测量误差的不行防止性;侧重从量的规定性上予以确定和名师归纳总结 - - - - - - -第 1 页,共 12 页精选学习资料 - - - - - - - - - 量表具有多样性,结果具有相对抽象性;(2)其他的观点:有人概括为:间接性; 相对性;(金瑜)有人概括为:间接性; 相对性; 客观性;(郑日昌)有人概括为:间接性; 不确定性; 明确的目的性; (朱德全、宋乃庆)4.量表及其种类 量表的概念 量表(量尺)是指确定了测量单位和参照点并具有取值
5、系统的测量工具;量表的类型 由于事物的属性(特点)不同,以及所制定的规章不同,致使用数的属性来描述事物属性(特点)所达到的程度不同,这就产生了不同测量水平的问题;史蒂文斯依据对测量结果数量化描述的不同水平,将测量分成四种不同水平:称名测量、 顺序测量、等距测量、比率测量;这四种不同水平的测量产生了相应的四种类型的量表;5.称名量表和次序量表 称名量表(命名量表或名称量表或类别量表)称名量表是最低水平的测量量表,它只是用数字代表事物或用数字对事物进行分类;在这种情形下,数字只是事物的符号,而没有任何数量的意义;适合于对称名量表进行统计分析的统计方法有百分比、次数、众数和 2 检验;次序量表(等级
6、量表)次序量表是次低水平的测量量表,它不仅能够指代事物类别,而且能够说明不同类别的大 在次序量表中, 数字只表示等级、 大小和程度的次序,小、等级或事物具有某种特点的程度;它既没有相等的单位,也没有确定的零点;适合于对次序量表进行统计分析的方法有中数、等;6.等距量表和比率量表 等距量表百分位数、 等级相关系数和肯德尔和谐系数等距量表是较高水平的测量量表,它不仅能够指代事物的类别、等级, 而且具有相等的单位;适合于对等距量表进行统计分析的方法有平均数、标准差、 积差相关系数以及t 检验和 F 检验;比率量表(等比量表)比率量表是最高水平的测量量表,它除了具有类别、 等级、等距的特点外, 仍具有
7、确定零点;适合于对比率量表进行统计分析的方法除了与等距量表相同外,仍有几何平均数、 变异系数;7.训练测量属于哪一种水平的测量,为什么?答: (1)训练测量属于次序测量的水平;(2) 从所使用的参照点来说,训练测量领域的参照点均为相对参照点; 从所使用的单位来说,训练测量的单位远没有其他测量的单位成熟和完善,既无统一的单位,也不符合等距的要求;8.训练评判的概念(如何懂得“ 训练评判” 的含义?)评判的含义广义的讲,评判泛指衡量、判定人物或事物的价值;训练评判的定义对于什么是训练评判,专家、 学者至今没有一个统一的熟悉;但具有代表性的观点有以下几种:名师归纳总结 - - - - - - -第
8、2 页,共 12 页精选学习资料 - - - - - - - - - 格兰朗德: 评判是为了确定同学达到教学目标的程度,评判包括对同学的定量描述和定性描述两方面;收集、分析和说明信息的系统过程;斯塔费尔比姆: 评判是一种规定、猎取和供应表达性和判定性的过程;这些信息涉及讨论对象的目标、设计、实施和影响的价值及优缺点,以便指导如何决策、满意教学效能核定的需要,并增加对讨论对象的明白;美国训练评判标准委员会:评判是某些现象的价值如优缺点的系统调查,为训练决策供应依据的过程;泰勒:评判评判的过程在本质上是确定课程和教学大纲在实际上实现训练目标的程度的过程;德雷斯:所谓评判,就是打算某种活动、目的及程
9、序的价值的过程;桥本重治: 评判是与训练的目标和价值有明确关系的概念,生的学习成果及训练方案的成效等进行测量的过程;是依据训练目标和价值观对学布鲁姆: 评判乃是系统地收集证据用以确定学习者实际上是否发生某些变化,确定同学个体变化的数量或程度;我国学者黄光扬: 训练评判是指依据肯定的价值标准和训练目标,利用测量和非测量的种种方法系统地收集资料信息对同学的进展变化及其影响同学进展变化的各种要素进行价值分析和价值判定,并为训练决策供应依据的过程;从上述对 “ 评判”概念在训练教学活动情境下的各种描述中不难发觉,训练评判包含以下几个共同的要点: 强调以训练目标为标准的价值判定过程; 强调运用多种方法系
10、统收集资料和信息; 训练评判的内容既要以是训练方案、也要以是同学的学习结果,也要以是某种训练现象、教学活动、训练目的或训练程序; 强调为同学进展和训练决策服务;9.训练测量与训练评判的关系测量与评判既有联系又有区分;训练评判最根本的特点是做出价值判定;而训练测量过程的完结,在给出数量事实的描述与判定之后,不肯定都要做出价值判定;从这个意义上说,训练测量可以为训练评判供应价值判定的基本数量事实,训练测量是训练评判的基础;而教育评判往往是训练测量过程的连续,是对测量结果的说明与应用,并朝着价值判定与释放教育功能的方向拓展;10.摸索题: 训练测量与训练评判有何区分?答: (1)训练评判最根本的特点
11、是做出价值判定;而训练测量在给出数量事实的描述与判定之后,不肯定都要做出价值判定;(2)训练测量可以为训练评判供应价值判定的基本数量事实,训练测量是训练评判的基础; 而训练评判往往是训练测量过程的待续,是对测量结果的说明与应用,并朝着价值判断与释放训练功能的方向拓展;11.训练评判与训练评估的关系训练评判与训练评估这两个概念既有联系又有区分;第一, 英语词源不同 (训练评判通常用“education evaluation” 表示,训练评估通常用“educational assessment” 表示),其意义就多少有所差别;其次,源出相同(训练测量运动、美国闻名的“ 八年讨论”),它们确定有想通
12、与交叉之处;第三,汉语词义相近(“ 评估” 一词,含有“ 评判”、“ 评量” 、“ 估测” 、“ 估算” 等意思;训练评估可能有价值判定,也可能没有价值判定)有区分;22.训练测量与评判的进展历史,它们在内容上有交叉,也名师归纳总结 - - - - - - -第 3 页,共 12 页精选学习资料 - - - - - - - - - (1)中国是考试制度的发源地(2)中国科举制度的世界位置(3)训练测量学科的产生(4)训练测量运动的蓬勃开展(5)美国的“ 八年讨论” 是训练评判的催生剂(6)训练测量与评判理论的进展13.训练测量与评判的学科位置和作用(1)训练测量与评判是现代训练科学讨论的三大领
13、域之一;(2)训练测量与评判在训练改革中具有重要的作用;(3)训练改革呼吁训练测量与评判更加科学化;(4)训练测量与评判是老师的专业素养和才能;其次章 训练测量与评判的类型和功能训练测量与评判的主要类型 训练测量与评判的主要功能1.训练测量与评判的类型 1.按测量与评判在教学中运用的时机分类,训练测量与评判可分为:(1)形成性测量与评判:形成性测量与评判是在教学活动过程中常常实施的,其目的:其一,老师藉此获得教学过程中连续性的反馈,明白同学的学习成效、学习历程、 学习特点、学习困难等信息, 作为随时修正自己教学的参考;其二, 同学依据反馈的结果获知自己学习 后的表现情形,从而确定或修正自己以后
14、的学习方式;(2)诊断性测量与评判:诊断性测量与评判是对常常表现出学习困难的同学所作的测量与评判, 它的目的是对个人的问题行为及其缘由进行诊断;诊断性测量与评判多半是在形 成性测量与评判之后实施;(3)终结性测量与评判:终结性测量与评判是用于教学终止后,其目的:其一,在教 学目标之下,检查同学一学期的学业达到了什么样程度,从而判定教学成效的得失;其二,依据终结性测量与评判的结果,评定同学的学业成果,并将评定结果通知同学家长或记入档案;2.按说明测量结果或评判结果时的参照点分类,训练测量与评判可分为:(1)常模参照测量与评判:常模参照测量与评判是将被试水平与测验常模相比较,以 评判被试在团体中的
15、相对位置的一种测量与评判类型;(2)标准参照测量与评判(目标参照测量与评判):标准参照测量与评判是将被试的表现与既定的训练目标或行为标准相比较,以评判被试在多大程度上达到该标准;(3)潜力参照测量与评判:潜力参照测量与评判是将被试实际水平与其自身潜在水平(潜力)相比较,以评判被试有无充分发挥自身潜力为目的;在强调人性化、动态化和个别 化的现代训练测评潮流下,潜力参照测量与评判理应发挥更大的作用3.按测量与评判被试行为表现的性质分类,训练测量与评判可分为:(1)正确行为测量与评判:正确行为测量与评判是以测量正确行为表现为目的;凡是 以成就或才能的高低为评判基础的,都属于正确行为测量与评判;(2)
16、典型行为测量与评判:典型行为测量与评判的目的不在测量与评判被试才能的高 低,而是测量与评判其是否具备某种(或某些)典型行为;在这些测量过程,期望被试以其平常的典型状况来回答,无所谓正确与错误之分;在重视同学个性进展和全人训练的现代教育理念下,典型测量与评判的方法具有特殊的意义;4.按测量与评判的内容分类,训练测量与评判可分为:名师归纳总结 - - - - - - -第 4 页,共 12 页精选学习资料 - - - - - - - - - (1)智力测量与评判: 智力测量与评判的目的在于测量被试的智力并对被试的智力发展水平和特点做出评判;(2)才能倾向测量与评判:才能倾向测量与评判的目的在于测量
17、与评判个人的潜在才能,猜测个人的才能进展倾向;才能倾向测量与评判一般可分为两种:一种是关于一般才能倾向的测量与评判,旨在探测个人多方面的潜能;另一种是特殊才能倾向测量与评判,旨在探测个人某方面的特殊潜在才能;(3)成就测量与评判: 成就测量与评判的目的在于测量并评判个人在接受训练或训练后的成就; 成就测量与评判有两种类型:一是学科成就测验,旨在测量与评判被试在某一科目上的学习成就; 二是综合成就测验,就;旨在测量与评判被试在多个学科或综合学科上学习成(4)人格测量与评判(个性测量与评判):人格测量与评判的目的在于测量与评判被试的人格心理特点,诸如气质、性格、爱好、态度、动机、适应性等方面的心理
18、特点;用于人格测量与评判的量具主要分为两类:一类是自陈人格问卷;另一类是投射测验;5.按测量与评判的对象分类,训练测量与评判可分为:(1)个别测量与评判: 个别测量与评判是指同一主试在同一时间内只能测量一个被试;这种形式的测量与评判,主试对被试行为反应有较多的观看和掌握机会,主试与被试有更多的沟通, 这可让主试获得更多的信息,也可以建立较融洽的主被试合作关系,有利于测量与评判的进行;但是个别测量与评判费时、费劲,特殊是主试必需经过严格的训练才能胜任;(2)团体测量与评判: 团体测量与评判是指在同一时间内由一位主试测量很多位被试;这种形式的测量与评判突出的优点是节约时间,可以在短时期内收集到大量
19、的测量数据;但由于同一时间内接受测量的被试多,不易有效地掌握被试的行为,简单产生测量误差,从而影响测量的信度和效度;6.按测量与评判的材料(测验材料)分类,训练测量与评判可分为:(1)文字测量与评判(文字测验、纸笔测验):文字测量与评判的测验内容是以文字的形式表现的, 被试也用文字作答的一种测量与评判的方式;对于不同训练背景的被试,这种测量与评判的有效性将受到肯定程度的影响;(2)非文字测量与评判(非文字测验、操作测验):非文字测量与评判的测验内容是通过图形、仪器、工具、实物、模型等形式表现的,被试通过指认、手工操作向主试供应答 案的一种测量与评判的方式;这种形式的测量与评判不受或较少受文化背
20、景的影响与限制;7.按测量与评判量具有的标准化程度分类,训练测量与评判可分为:(1)标准化测量与评判(标准化测验):标准化测量与评判的测验是指由测量专家严格依据测验编制程序而细心编制的一种测验;通常标准化测验都具有肯定的编制程序,包括试题的抽样,难度、区分度指标分析,明确的施测指导语和施测程度,计分标准,说明分数的常模,以及信度、效度等指标资料;(2)非标准化测量与评判:非标准化测量与评判的测验编制相对自由,没有严格依据测验编制程序进行; 老师自编测验常由老师依照自己的教学需要和教学目标而自行编制的测验,是一种非标准化测验;2.训练测量与评判的功能(1)实现训练判定的功能训练测量与评判的最基本
21、、最原始、最现实、最普遍的功能,就是实现训练判定,详细来 说就是实现测量评定、事实判定、价值判定、问题诊断和区分选拔等功能;(2)改进老师教学的功能通过训练测量与评判的结果,老师能够明白同学的起点行为,作为改进教学、 补救教与学的依据,确保教学目标的达到,从而充分发挥其改进老师教学的功能;名师归纳总结 - - - - - - -第 5 页,共 12 页精选学习资料 - - - - - - - - - (3)促进同学学习的功能训练测量与评判具有鼓励同学的学习动机、帮忙同学的记忆和促进迁移、促进同学自我评判等促进同学学习的功能;(4)行使训练治理的功能 训练测量与评判具有掌握、指挥、导向、方案、检
22、查、考核、评估和监督等方面的作用,通 过对老师、目标和过程等方面治理来行使其训练治理的功能;第三章 训练测量与评判的质量特性训练测量与评判的信度 训练测量与评判的效度 训练测量与评判中项目的难度 训练测量与评判中项目的区分度1.信度的意义信度是指测量结果的稳固性程度,记为rXX ;换一句话说,信度是指用同一测量工具反复测量同一种物质对象所得多次测量结果间的一样性程度;测验信度是对测验工具及其操作的整体质量的一种量度,是测验性能的重要质量指标;假如测验本身抗干扰才能强,测验实施过程各方面误差因素都掌握得好,多次施测所得分数(测值)的一样性就高,那么测量信度高,人们在使用所得测值时就会感觉牢靠;2
23、.信度的统计定义定义 1:信度是一个被测团体真分数方差与观看分数方差之比;即: XX= 2T / 2X 定义 2:信度是一个被试团体的真分数与观看分数的相关系数的平方;即:XX= 2TX 定义 3:信度是一个被试团体在测验 X(A 卷)上的观看分数与在测验 X 的任意一个 “ 平行测验”X (B 卷)上观看分数的相关系数;即:XX= XX 3.重测信度(稳固性系数)(1)重测信度是指用一个量表(测验或评判表)对同一组被施测两次所得结果的一样性程度,其大小等于同一组被试在两次测验上所得分数的相关系数;(2)重测信度基本假设:某测验所要测量的潜在特质,短期内不会随着时间推移而转变;(3)重测信度适
24、用于异质性测验(一个测验包括几个不同的部分,这几个部分分别测量几个不同的心理特质,它们之间可能并不存在相关或相关较低)能测验;4.复本信度(等值性系数或等值稳固性系数),也适用于速度测验和运动技(1)复本信度是指两个平行测验(在试题格式、题数、难度、指导语说明、施测要求等方面都相当, 并且都用来测量相同潜在特质或属性,但试题又是不相同的测验)测量同一批被试所得结果的一样性程度,其大小等于同一批被试在两个复本测验上所得分数的相关系数;( 2)实施复本测验的方式:一是在同一个时间连续施测(此时所得的复本信度叫等值性 系数),二是间隔一段时间后施测(此时所得复本信度叫等值稳固性系数);( 3)使用复
25、本信度第一要构造出两份或两份以上的真正的平行测验;这是一个很难达到 的条件;另外,重测信度的一些不足,在复本信度中仍旧存在,需要加以克服;(4)复本信度不仅适用于难度测验,也是估量速度测验信度的好方法;5.同质性信度的概念(1)同质性信度(内部一样性信度)是指测验内部全部题目间的一样性程度;这里题目间的一样性含有两层意思:其一是指全部题目测的是同一种心理特质;其二是全部题目得分之间都具有较高的正相关;(2)同质性信度的基本假设:当一个测验具有较高的同特性信度时,说明测验主要测的是名师归纳总结 - - - - - - -第 6 页,共 12 页精选学习资料 - - - - - - - - - 某
26、一单个心理特质,由于众多的题目测试了同一心理特质,那么实测结果就是该特质水平的反映;( 3)同质性信度不适用于异质测验和速度测验;6.同质性信度的估量方法(1) 分半信度 分半信度指是的将一个测验分成对等的两半后,全部被试在这两半上所得分数的一样性 程度;分半信度的运算方法和等值复本信度的方法类似,只不过分半信度运算的是两个“ 半测验”上得分的相关系数,只是半个测验的信度,仍必需用斯皮尔曼布朗公式加以校 正;(2) 库德理查逊信度 该方法适合于测验题目全部为二分记分题的测验的内部一样性信度分析;常用的库德理查逊公式有:(3)克龙巴赫系数当测验题型较多,并非都是二分记分题时,估量测验信度可采纳克
27、龙巴赫系数;其运算公式为:(4) 荷伊特信度 1941 年荷伊特提出用方差重量比来估量测验内部一样性的方法,其估量值为:7.评分者信度 评分者信度的含义 评分者信度是指多个评分者给同一批人的答卷进行评分的一样性程度;评分者信度的运算( 1)当评分者人数为两人时,评分者信度等于两个评分者给同一批被试的答卷所评分数 的相关系数;依据数据形式,可采纳不同的相关系数运算方法;( 2)当评分者人数多于两人时,评分者信度可用肯德尔和谐系数进行估量;8.标准参照测验的信度分析()百分比一样性指标(PA)百分比一样性指标是指同一测验或两平行测验先后两次施测,其对被试的分类结果 一样的比例;其运算公式为:()
28、K 一样性系数 K 一样性系数是指实际被评定为一样的百分比与在理论上被评定为一样的最大可能 次数百分比的比率;其运算公式:() K2 指数 标准参照测验关注决断的牢靠性,而这种决断明显与被试团体的平均水平亲密相关;在考虑到这个因素的基础上,心理统计学家莱芬斯顿提出了 测验信度的指标;其运算公式为:9.测量标准误 测量标准误的含义K2 指数作为考察标准参照测量标准误是指测验中所得测值偏离真分数的程度,记为 SE;测量标准误与测验信度的关系测量标准误的意义测量标准误是反映测量结果精确性和牢靠性的又一指标,数的科学依据;同时也是人们正确说明测验分名师归纳总结 - - - - - - -第 7 页,共
29、 12 页精选学习资料 - - - - - - - - - 10.效度的概念效度的意义效度是指一个测验或量表实际能测出其所要测量的特性的程度;从以下几个方面来懂得 : 效度始终是针对肯定测量目的而言的; 效度只有程度上的差异; 效度是针对测量结果而言的; 评判一个测量是否有效要多角度、多方面地收集证据;效度的统计定义对这一概念, 我们可以效度可定义为目标真分数方差与观看分数方差之比: XY= 2V / 2X 效度与信度的关系()信度高是效度高的必要而非充分条件()效度系数不会大于信度系数的平方根 11.如何懂得“ 效度” 的意义?效度是指一个测验或量表实际能测出其所要测量的特性的程度;下几个方
30、面来懂得:(1)效度始终是针对肯定测量目的而言的;(2)效度只有程度上的差异;(3)效度是针对测量结果而言的;对这一概念, 我们可以从以(4)评判一个测量是否有效要多角度、多方面地收集证据;12.内容效度内容效度的含义及应用范畴内容效度是指测验题目样本对于应测内容与行为领域的代表性程度;假如是教学情境下的成就测验,那么其内容效度就是看测验题目样本能表达教学目标与教材要求的程度;内容效度主要适用于训练测量(特殊是学业成就测验)的情境中,也适合于某些用于选拔和分类的职业测验,但不适合某些心理测验(如智力测验、人格测验);内容效度的分析方法 规律分析的方法内容效度的规律分析法,即依靠有关专家对测验题
31、目与应测内容范畴的吻合程度作出判断; 内容效度的量化分析方法该方法要求专家在认真批阅测验目标的基础上,独立地对测验的每个题目作出判定:“ 该题目实际测到的内容与其欲测量的目标内容之间相关程度如何,并用四点量表 (用完全无关、有点相关、相关较亲密、完全相关来表示)来表示这种相关的程度大小”;当两位专家完成此项工作后,统计弱相关(完全无关、有点相关)目数,就此测验的内容效度系数为:内容效度系数 判定为强相关的题目数)13.结构效度 结构效度的含义、强相关(相关较亲密、完全相关)的题 =D/(A+B+C+D )( D 表示两位专家都结构效度是指一个测验或量表实际测到所要测量的理论结构(结构是指心理学
32、或社会学 上的一种理论构想或特质)的程度;结构效度的验证一般步骤 提出有关理论结构的说明,并据此设计测量用的试题; 提出可以验证该理论结构是存在的假设说明;名师归纳总结 - - - - - - -第 8 页,共 12 页精选学习资料 - - - - - - - - - 采纳各种方法收集实际的资料,以验证其次步提出的假设的正确性; 收集其他类型的帮助证据,剔除与理论结构相反的试题,或是修正理论, 并重复其次和第三步,直到下述的假设得到验证,即测验的结构效度获得支持为止;结构效度的验证方法 测验内部查找证据法 这种方法是通过讨论测验内部结构来验证测验的结构效度;它主要包括内容效度、作答 过程分析、
33、测验的同质性和因素分析等四个方面; 测验之间查找证据法 这一方法的特点是同时考察两个或多个测验间的相互关系,从而来验证测验的结构效度;它包括相容效度、聚合效度、区分效度和“ 多种特质多种方法矩阵法” 等详细方法; 考察测验的实证效度法 假如一个测验有实证效度,就可以拿该测验所猜测的效标的性质与种类作为该测验的结构效度指标, 至少可以从效标的性质与种类来推论测量的结构效度;较法和先后测试分析法;14.试比较内容效度、结构效度、效标关联效度的异同 . 主要方法有差异被试比相同点:三者都是作为检验测验有效程度的指标,都可以作为评判一个测验优劣的标准;不同点: 考察的角度不同; 内容效度是指测验题目样
34、本对于应测内容与行为领域的代表性程度; 结构效度是指一个测验或量表实际测到所要测量的理论结构(结构是指心理学或社会学上的一种理论构想或特质)的程度; 效标关联效度是指一个测验对于处于特定情境中的个体行为进行猜测时的有效性; 应用的范畴不同;内容效度主要适用于训练测量(特殊是学业成就测验)的情境中,也适合于某些用于选拔和分类的职业测验,但对于某些特质的心理测验(如智力测验、 人格测验),内容效度并不适合;结构效度主要用于智力测验、人格测验等一些心理测验方面;效标关联效度适用于能够找到有效效标的测验,常用的效标主要有:学业成就、等级评定、临床诊断、特地的训练成果、实际的工作表现、对团体的区分才能以
35、及其它现成的有效测验; 确定的方法不同;内容效度确定的主要方法是规律分析法、量化分析法; 结构效度确定的主要方法是测验内部查找证据法、测验之间查找证据法和考察测验的实证效度法;效标关联效度确定的主要方法有相关法、显著差异法、命中率;15.难度的概念题目或项目的难度,就是指被试完成题目或项目任务时所遇到的困难程度;定量刻画被试作答一个题目的困难程度的量数,就叫做题目的难度系数,也常称犯难度值,用符号 P 表示;16.难度系数的运算方法()以全体被试得分率犯难度系数假如一个题目的难度大,就被试得高分的可能性小;反之,假如题目的难度小,就被试得高分的可能性就大;因此,用得分率可以作犯难度系数的指标;
36、其运算公式为:假如题目是挑选题的话,被试有可能猜对而得分,因此, 对挑选题的难度系数有人建议需用下面的公式进行校正:CP =( P-1)( -1)()以全体被试失分率犯难度系数直接建立在通过率基础上的难度系数,P 值越大试题越简单,P 值越小试题越难做;这与人们观念可能不一样,因此有人提议用失分率q 来表示难度,运算公式为:q = 1-P ()以两端组被试得分率的均值犯难度系数该方法是分别运算高分组被试和低分组被试的得分率,然后求取二者的平均值作犯难度系数,公式为:P =(PH+PL ) 2 以两端组被试的得分率作犯难度系数的详细运算步骤:名师归纳总结 - - - - - - -第 9 页,共
37、 12 页精选学习资料 - - - - - - - - - 按被试的总分,将全体被试从高到低进行排序; 从高分往下找,找出高分组;由低分往上找,找出低分组;两组人数分别占总人数的 ; 分别运算高分组、低分组的被试在该题目上的平均得分; 代入公式和 PL ,分别运算分组和低分组被试在同一个题目上的难度系数; 把 PH 代入公式P =(PH+PL ) 2 ,运算这个题目的难度系数;17.难度的等距变换 用上述方法运算出来的难度系数,都属于次序变量,不具有相等的单位;因此,通过 P 值 的比较并不能客观指出难度之间差异大小,这对我们作进一步的难度分析带来了困难;为明白决这个问题,人们常假设每个试题所
38、要测量的潜在特质或才能是呈正态分布的,然后就可以依据正态分布曲线,将试题的难度值P 作为正态曲线下的(概率)面积,转换成具有相等单位的等距量表,即 Z 分数(标准分数) ;由于标准分数具有相等单位,属于等距量表;所以,用标准分数作为题目难度的指标,为进一步作难度分析带来了一些便利;18.测验题目的恰当难度和恰当难度分布测验由多个题目所组成,明显, 全部这些题目的难度取值都应当力求恰当,而且这些题目分布状态也应合理;到底怎样的题目难度与难度分布是合适的,这主要取决于测验的目的与性质;19.常模参照测验、标准参照测验所要求的项目恰当难度及难度分布是什么?为什么?(1)常模参照测验的项目恰当难度是P
39、 值尽量接近0.50,由于只有在这种情形下题目的区分性能最好; 常模参照测验所要求的项目恰当难度分布是,环绕这个点, 有一个适当宽的全距;这样做的缘由有以下两个:一是测验时,通常期望开头有几个难度较低的题目来稳固被试心情,末尾用几个难度稍大的题目以便只有少数高水平者才能通过,二是让全部项目都取 0.50 的难度, 通常难以实现;当然,在答应有适当宽的全距的前提下,仍旧要力争大多数项目难度取值接近 0.50;(2)标准参照测验的目的是要考察被试的水平是否达到应有要求,因而测验项目的难度,就不应由被试的实际通过率来打算,而应由项目的考核要求是否表达了应有标准或教学目标来打算; 无论项目通过率是高仍
40、是低,只要表达了应用的标准或教学目标,项目的难度就是合理的恰当的;20.区分度的意义题目区分度是指题目区分被试水平才能的量度,记为 D ;区分度的分析方法,大约可以归纳成两类:一是外在效标法,即分析被试在测验题目上的得分与外在客观标准上的表现之间的关系;二是内部一样性法;即分析被试在测题上的得分与在整个测验总分之间的一样性程度;区分度的值域范畴在-1.00 至 +1.00 之间;通常 D 为正值, 称作积极区分; D 为负值,称作消极区分;D 为 0 ,称作无区分作用;具有积极区分作用的项目,其 D 值越大,区分的成效越好;21.区分度的运算(1)相关法区分度的实质是题分与总分的相关,因此,各
41、种运算相关系数的方法都可以用于运算区分度;但详细采纳哪一个,应依据题分、总分的数据形式而定;(2)高低分组法名师归纳总结 被试在测验分数序列中两端高分、低分组被认为是两个极端效标组;这两个极端效标组第 10 页,共 12 页间在特定题目上的反应差别程度可以刻画题目的区分才能;因此,类似于前面谈及应用两端- - - - - - -精选学习资料 - - - - - - - - - 分组的方法来估量题目的难度系数一样,可用高分组在特定题目上的得分率和低分组在相同题目上的得分北之差作为题目区分度的指标(高分、 低分组人数比例各占总人数的),被称为鉴别度指数,记为 D ;运算公式为:D = PH - P
42、L ;为运算便利,仍可采纳公式:22.区分度伪相关的校正对多级记分的论文型试题,求积差相关后剔除伪相关因素做校正,其校正公式为:对二分记分的挑选题如有必要作校正,采纳点双列相关系数时其校正公式为:23.标准参照测验题目区分度的其他讨论方法(1)以在后测中正确回答某题目的同学的比例减去在前测中正确回答该题目的同学的比例所得之增益数为区分度指标;(柯克斯)(2)以指导组中正确回答某题目的同学的比例减去未指导组中正确回答题目的同学的比例而得之增益数为区分度指标;(克列恩)(3)以前测中错误回答而在后测中正确回答某题目的被试的比例为指标;(罗登巴赫)(4)以在前测中错误回答而在后测中正确回答某题目的被
43、试比例,减去在前测和后测中均错误回答某题目的被试比例而得增益数为区分度指标;(考塞考夫和克列恩)24.训练测量与评判方案的可用性训练测量与评判方案可用性的概念训练测量与评判方案的可用性是指方案质量性能牢靠稳固,针对性强, 对于全部被测量与评判的对象是客观公正的,同时在操作上具有可行性、易用性、经济性等特点;训练测量与评判方案可用性的评判指标训练测量与评判方案的可用性可以从科学性、公正性、可行性、针对性、区分性和简洁性等六个方面来衡量;25.假设某学者自编了一套神经类型测验,并且在几十万人中进行了试用,试问该测验是否肯定有效 . 这个测验不肯定是有效的;这是由于判定一个测验是不是有效的指标是效度;它是指一个测验或量表实际能测出其所要测的心理特质的程度;对于一个自编的神经类型测验可以通过确定它的结构效度和效标关联效度来获得效度资料;该学者可以考察该测验的内容效度,假如该测验所测得的内容或行为范畴的定义或说明类似于理论构想的说明,就这个测验具有肯定的效度; 也可以考察这个测验与已知的能有效测量相同特质的旧测验之间的相关,假如两者相关较高,就说明新测验也有较高的效度;第四章 编制训练测验的一般原理与方法测验题目类型与测量功能测验目标与训练目标分类测验蓝图设计与测验编制要领测验题目的分类(1)依据要求被试是挑选答案仍是自己供应答案来分,测验