《第十二章学习结果的测量与评价.ppt》由会员分享,可在线阅读,更多相关《第十二章学习结果的测量与评价.ppt(30页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1教育心理学 第十二章 学习结果的测量与评价苏州大学心理学系范庭卫 2本章学习目标n定义测量、测评和评价定义测量、测评和评价n指出测验与其他测量工具的区别指出测验与其他测量工具的区别n指出信度和效度的区别指出信度和效度的区别 n定义档案袋定义档案袋n定义真实测验定义真实测验n什么是常模参照测验与标准参照测验什么是常模参照测验与标准参照测验n测验选择的原则测验选择的原则n评定测量信度的方法评定测量信度的方法n效度的类型有哪些效度的类型有哪些n说明客观测验与主观测验说明客观测验与主观测验n对传统测验的革新对传统测验的革新3测量和评价n测量测量指收集信息,并用数字表示的过程。指收集信息,并用数字表示
2、的过程。n如表示距离,我们用如表示距离,我们用3米,米,5公里,公里,1光年。表示时间,用光年。表示时间,用15秒,秒,30分钟等。分钟等。n测评测评是包含测量的更大的概念。即它要用数字表示,是包含测量的更大的概念。即它要用数字表示,还 要 形 成 判 断 和 决 策 。 前 者 是 指 测 量还 要 形 成 判 断 和 决 策 。 前 者 是 指 测 量(measurement),后者指评价(),后者指评价(evaluation)。)。n测量的结果是测评的依据,测评过程就是依据测量测量的结果是测评的依据,测评过程就是依据测量的结果,对学生的反应行为及其原因进行分析和评的结果,对学生的反应行为
3、及其原因进行分析和评价。价。n测量、测评和测验这三个过程解决了不同的问题:测量、测评和测验这三个过程解决了不同的问题:测量是用量化资料来描述学生的学习情况;测评是测量是用量化资料来描述学生的学习情况;测评是根据量化的资料作出判断。根据量化的资料作出判断。测验测验(test)是指测量的活是指测量的活动或工具。动或工具。 4常模参照测验与标准参照测验n常模常模是指有代表性的被试样本在测验上的分数是指有代表性的被试样本在测验上的分数模式。大多数的测验常模就用平均数和标准差模式。大多数的测验常模就用平均数和标准差来描述。来描述。n常模参照性测验(常模参照性测验( Norm-referenced tes
4、t )是将测验分数参照常模加以解释,也就是将每是将测验分数参照常模加以解释,也就是将每一个人的分数同团体中的其他人进行比较,这一个人的分数同团体中的其他人进行比较,这是一种相对的比较。是一种相对的比较。n标准参照性测验(标准参照性测验( Criterion-referenced testing )是将测验结果同事先规定的标准进是将测验结果同事先规定的标准进行比较,对被试个体的分数作出解释。行比较,对被试个体的分数作出解释。 5测验的类型2. 情感测验情感测验 Affective Instruments3. 投射测验投射测验 Projective Instruments1. 认知测验认知测验 C
5、ognitive Instruments6认知测验n测验学生在学业方面达到的程度。测验学生在学业方面达到的程度。n学业成绩测验学业成绩测验 (achievement tests)n能力测验能力测验 (aptitude tests)7测验的选择 2. 需要具体哪种测验需要具体哪种测验1. 需要哪种类型的测验需要哪种类型的测验 3. 对测验分析、比较对测验分析、比较 4. 选择最好的测验选择最好的测验 8测验选择的原则2. 要有最好的效度要有最好的效度 1. 要有最好的信度要有最好的信度3. 施测、计分、解释分数方便施测、计分、解释分数方便4. 被测者没有做过该测验被测者没有做过该测验9测验的施测
6、 2. 确保良好的测验环境确保良好的测验环境 1. 事先做好安排事先做好安排 3. 准备所有可能的费用准备所有可能的费用10一个好的测验的两个特性n1. 效度效度:指能否测出所要测量内容的程度。指能否测出所要测量内容的程度。 the degree to which the instrument measures what it purports to measure。n2. 信度信度:指测验的一致性程度。指测验的一致性程度。 the degree to which the instrument consistently measures what it purports to measure。
7、11信度和效度的关系12评定测量信度的方法n重测信度重测信度Test-retest reliabilityn等值复本信度等值复本信度Equivalent forms reliabilityn内部一致信内部一致信度度Internal reliabilityn折半信度折半信度/分半信分半信度度Split-half methodn评分者信度(评分者信度(inter-scorer )Inter-rater reliability13重测信度/再测信度(test-retest reliability)n用同一种测验,对同一组受试者,前后施用同一种测验,对同一组受试者,前后施测两次,再根据受试者两次测验分
8、数计算测两次,再根据受试者两次测验分数计算其相关系数,即得其相关系数,即得再测信度再测信度。n两次测验分数的误差变异主要来自测验条两次测验分数的误差变异主要来自测验条件和受试者身心状况的改变。再测信度高,件和受试者身心状况的改变。再测信度高,说明分数受被试状况和测验情境变化的影说明分数受被试状况和测验情境变化的影响小。响小。n初测与再测的间隔最好不超过初测与再测的间隔最好不超过 6 个月个月。14等值复本信度(equivalent forms reliability)n任何测验只是所有可能题目中的一份取样,所任何测验只是所有可能题目中的一份取样,所以编制许多平行的等值测验,叫做复本。以编制许多
9、平行的等值测验,叫做复本。n等值:题目内容,数量,形式,难度,区分度,等值:题目内容,数量,形式,难度,区分度,指导语,时限,所用的例题、公式,测验的其指导语,时限,所用的例题、公式,测验的其他方面都应该相同或相似。他方面都应该相同或相似。n一种测验有两个以上的复本,根据一群受试者一种测验有两个以上的复本,根据一群受试者接受两个复本测验的得分计算相关系数,即得接受两个复本测验的得分计算相关系数,即得等值复本信度等值复本信度。n两个等值测验可同时连续施测或相距一段时间两个等值测验可同时连续施测或相距一段时间分两次施测。分两次施测。15折半信度/分半信度 (split-half method)n折
10、半信度折半信度是在测试以后对测验项目按奇项、是在测试以后对测验项目按奇项、偶项或其他标准分成两半,分别记分,偶项或其他标准分成两半,分别记分,以两半分数之间的相关系数作为信度系以两半分数之间的相关系数作为信度系数。数。n折半信度折半信度split-half reliability n斯皮尔曼斯皮尔曼布朗公式布朗公式Spearman-Brown correction formula 。16内部一致信度(internal consistent reliability)n构成测验的各测题间的相互关系,即测验内部一致构成测验的各测题间的相互关系,即测验内部一致性。性。n不是题目内容或形式的一致,是指分
11、数的一致。不是题目内容或形式的一致,是指分数的一致。n测验的各个题目得分有较高的正相关,不论题目内测验的各个题目得分有较高的正相关,不论题目内容和形式如何,测验的内部一致性高。容和形式如何,测验的内部一致性高。n测验题目看来好象一致,但相关为零或复值,测验测验题目看来好象一致,但相关为零或复值,测验的内部一致性低。的内部一致性低。n内部一致性的测量:内部一致性的测量:n库德库德理查森(理查森( Kuder-Richardson )公式)公式20 n克劳伯克(克劳伯克( Cronbacks Alpha ) 系数系数17评分者信度(inter-scorer /inter-rater reliabi
12、lity)n心理测验一般都有一套标准化的评分程序,采心理测验一般都有一套标准化的评分程序,采用客观性题目,由评分引起的误差变异是可以用客观性题目,由评分引起的误差变异是可以忽略的。忽略的。n对一些无法完全客观记分的测验来说,评分者对一些无法完全客观记分的测验来说,评分者之间的变异会带来误差。之间的变异会带来误差。n如创造性思维测验,人格测量投射测验。如创造性思维测验,人格测量投射测验。n方法:随机抽取相当份数的试卷,由两位评分方法:随机抽取相当份数的试卷,由两位评分者按记分规则分别给分。然后根据每份试卷的者按记分规则分别给分。然后根据每份试卷的两个分数计算其相关系数,即得评分者信度。两个分数计
13、算其相关系数,即得评分者信度。n评分者之间平均一致性达到评分者之间平均一致性达到 .90以上,才认为评以上,才认为评分是客观的。分是客观的。18效度类型 2. 效标关联效度效标关联效度Criterion-related validity 3. 构思效度构思效度 Construct validity1. 内容效度内容效度Content validity19内容效度内容效度:内容效度20例:n“电电”这个单元包括的主题有:这个单元包括的主题有:n导体(导体(10%),电阻(),电阻(5%),电流),电流(20%)、电极()、电极(10%),电磁(),电磁(5%)、)、电解质(电解质(20%),绝缘
14、材料(),绝缘材料(15%)发电)发电方法(方法(15%)。)。n编制这部分学业成就测验,就要按比例编制编制这部分学业成就测验,就要按比例编制测验项目。如果能按比例编制,你所编项目测验项目。如果能按比例编制,你所编项目是所覆盖内容的样本,那么具有是所覆盖内容的样本,那么具有内容效度内容效度。 21预测效度预测效度(predictive validity)指测验分数)指测验分数对于未来的行为或作业测量能够预测得多么对于未来的行为或作业测量能够预测得多么好。如用学习能力测验预测大学生的平均成好。如用学习能力测验预测大学生的平均成绩。这种预测的准确性的指标就是测验的效绩。这种预测的准确性的指标就是测
15、验的效度。度。与预测效度有关的最重要方面是标准,因而与预测效度有关的最重要方面是标准,因而又称为又称为效标关联效度效标关联效度。效标关联效度22构思效度构思效度:涉及的是一个测验所测量的心理特质涉及的是一个测验所测量的心理特质或属性。或属性。构思效度就是要检验是不是测量了人们提出的理构思效度就是要检验是不是测量了人们提出的理论构思。论构思。 如智力测验的编制。理论认为:智力随年龄而增如智力测验的编制。理论认为:智力随年龄而增长;与学业成绩密切相关;智商相对稳定;受遗长;与学业成绩密切相关;智商相对稳定;受遗传影响。如果测验的分数随年龄而增加;智力与传影响。如果测验的分数随年龄而增加;智力与学业
16、成绩有正相关,智商在一定时间保持相对稳学业成绩有正相关,智商在一定时间保持相对稳定,同卵双生子的智力的相关高于一般兄弟姐妹定,同卵双生子的智力的相关高于一般兄弟姐妹,这些材料成为肯定测验构思效度的证据。,这些材料成为肯定测验构思效度的证据。构思效度23客观测验与主观测验n多项选择题,匹配题,判断题,简答题多项选择题,匹配题,判断题,简答题和填空题都属于和填空题都属于客观测验客观测验( Objective Testing ) ,其特点是答案确定,评分,其特点是答案确定,评分不需要解释。不需要解释。n论述题属于论述题属于主观测验主观测验(Subjective Testing),其特点是要求学生创造
17、性地其特点是要求学生创造性地写出自己的答案。写出自己的答案。24客观测验项目的编制n题干要明确、简洁题干要明确、简洁n题干中的问题用肯定表述题干中的问题用肯定表述n不要写明显错误的选项不要写明显错误的选项n避免使用一些具有绝对意义的词避免使用一些具有绝对意义的词n避免出现两个相同意义的干扰项避免出现两个相同意义的干扰项n避免按原样使用课本中的表达词避免按原样使用课本中的表达词25主观测验的编制n适合对复杂学习成果的评估适合对复杂学习成果的评估n测验要有足够的答题时间测验要有足够的答题时间n主观题和客观题相结合主观题和客观题相结合26对传统测验的革新n真实测验(真实测验(Authentic te
18、sts)n档案袋(档案袋(Portfolios)27真实测验(Authentic test)n真实测验真实测验是指是指 测试学生在实际生活中的技巧和能测试学生在实际生活中的技巧和能力的一种评估方法。力的一种评估方法。n真实测验的一些特点:真实测验的一些特点:n1.1.更开放更开放n2.2.不受时间限制不受时间限制n3.3.提供已知的问题提供已知的问题n4.4.更象一系列作业更象一系列作业n5.5.需要与他人的一些合作需要与他人的一些合作n6.6.评分体系是多维的评分体系是多维的n7.7.给学生的学习风格、学习态度和学习兴趣留下空给学生的学习风格、学习态度和学习兴趣留下空间间28档案袋(Port
19、folio) n档案袋档案袋是指体现学生某些方面的成长、自我反思是指体现学生某些方面的成长、自我反思和成绩的作业集。和成绩的作业集。n例:例:n“今天看了作文本里从今天看了作文本里从9 9月份以来自己写月份以来自己写的所有故事,觉得有所提高。现在对它们的所有故事,觉得有所提高。现在对它们做了修订,加了句号和引号。过去有的故做了修订,加了句号和引号。过去有的故事写得比较长,有错别字,现在我查字典事写得比较长,有错别字,现在我查字典和问朋友。能写出激动人心的、让人害怕和问朋友。能写出激动人心的、让人害怕的故事,故事的结尾也写得不错了。的故事,故事的结尾也写得不错了。”29档案袋的创建原则n1.学生参与学生参与n2.包含反思和自我批评包含反思和自我批评n3.反映学习活动反映学习活动n4.在不同的阶段,起不同作用在不同的阶段,起不同作用n5.体现学生的成长体现学生的成长n6.教会学生如何建立和使用教会学生如何建立和使用30Chapter12Endn