《大规模教育考试理论和实践问题课件.ppt》由会员分享,可在线阅读,更多相关《大规模教育考试理论和实践问题课件.ppt(166页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 大规模教育考试大规模教育考试理论和实践问题理论和实践问题雷雷 新新 勇勇上海市教育考试院上海市教育考试院考试考学生什么?考试考学生什么?考试分数准确、可靠吗?考试分数准确、可靠吗?考试对所有的考生公平、公正吗?考试对所有的考生公平、公正吗?考试的价值观与社会的公认价值观一致吗?考试的价值观与社会的公认价值观一致吗?考试对学校的教育、教学有正面的作用吗?考试对学校的教育、教学有正面的作用吗?大规模教育考试关注的基本问题大规模教育考试关注的基本问题抽象出的考试理论和实践问题抽象出的考试理论和实践问题考试的信度考试的信度可靠性或分数的误差可靠性或分数的误差考试的效度考试的效度考试的有效性或对考试结
2、果的解考试的有效性或对考试结果的解 释和适用是否适当、有效。释和适用是否适当、有效。考试的公平、公正性考试的公平、公正性考试平等对待所有考生考试平等对待所有考生考试的后效影响考试的后效影响考试对社会价值观、对学校考试对社会价值观、对学校 教育教学有何影响教育教学有何影响教育考试的心理学基础教育考试的心理学基础基本假设基本假设假设假设1 1:人的心理特质是存在的:人的心理特质是存在的心理特质:一个个体与其他个体不同的、可以识别的、心理特质:一个个体与其他个体不同的、可以识别的、相对稳定的特征(相对稳定的特征(Any distinguished,relatively Any distinguish
3、ed,relatively enduring way in which one individual varies from enduring way in which one individual varies from anotheranother)。例如,人的智力、认知方式、适应性、兴。例如,人的智力、认知方式、适应性、兴趣、态度、价值观、一般个性、特殊个性等趣、态度、价值观、一般个性、特殊个性等根据对人的行为样本的观察可以确定心理特质及其强度。根据对人的行为样本的观察可以确定心理特质及其强度。观察方式:观察方式:direction observationdirection observ
4、ation analysis of self-report statements analysis of self-report statements testing testing教育考试的心理学基础教育考试的心理学基础基本假设基本假设假设假设1 1:人的心理特质是存在的:人的心理特质是存在的心理结构(心理结构(constructconstruct):):an informed,scientifican informed,scientific concept to explain behavior.concept to explain behavior.知识与技能、过程与方法、情感、态度和价
5、值观知识与技能、过程与方法、情感、态度和价值观相对稳定相对稳定(relatively enduring):(relatively enduring):个体在某种程度上表现出个体在某种程度上表现出某一特质是具有环境依赖性的某一特质是具有环境依赖性的.一个个体与其他个体不同的特征(一个个体与其他个体不同的特征(one individual varies one individual varies from anotherfrom another):心理特质的这个属性说明心理特征是一个):心理特质的这个属性说明心理特征是一个相对现象,在教育和心理测试与评价中,评价者也要将对象相对现象,在教育和心理测
6、试与评价中,评价者也要将对象的评价情况与假设的一般人,做出比较,或者直接将同一评的评价情况与假设的一般人,做出比较,或者直接将同一评价群体中的不同个体作比较。价群体中的不同个体作比较。教育考试的心理学基础教育考试的心理学基础基本假设基本假设假设假设2 2:心理特质或心理结构是可以量化并且测量的:心理特质或心理结构是可以量化并且测量的定义心理结构定义心理结构行为目标:根据什么样的行为来判断对象具备的心理结构的行为目标:根据什么样的行为来判断对象具备的心理结构的强度。强度。如何使考生表现出要观察的行为:用何内容的试题如何使考生表现出要观察的行为:用何内容的试题如何对行为进行量化:赋分如何对行为进行
7、量化:赋分如何用数学模型进行处理如何用数学模型进行处理教育考试的心理学基础教育考试的心理学基础基本假设基本假设假设假设3 3:与考试相关的行为可以预测非考试相关的行为:与考试相关的行为可以预测非考试相关的行为预测什么非考试环境下的行为预测什么非考试环境下的行为?高考:高等教育条件下的行为高考:高等教育条件下的行为考试中,创造哪种测试环境考试中,创造哪种测试环境 英语:真实的交际语言环境英语:真实的交际语言环境 数学:抽象的、数学:抽象的、academic circumstancesacademic circumstances 物理:真实的、抽象的、物理:真实的、抽象的、academicacad
8、emic、experimentalexperimental 化学:真实的、抽象的、化学:真实的、抽象的、academicacademic、experimentalexperimental 地理:真实的、地理:真实的、earth-relatedearth-related教育考试的心理学基础教育考试的心理学基础基本假设基本假设假设假设4 4:每种测试方法或技术都有其优势和弱势:每种测试方法或技术都有其优势和弱势Paper and pencil TestingPaper and pencil TestingOral TestOral TestInterviewInterviewClass Obser
9、vationClass ObservationSchool ObservationSchool Observation常模参照和标准参照考试常模参照和标准参照考试教育考试的心理学基础教育考试的心理学基础基本假设基本假设假设假设5 5:测量过程中必然会产生误差。:测量过程中必然会产生误差。误差是指测量心理结构以外的因素所产生的效应。误差是指测量心理结构以外的因素所产生的效应。教育考试中考生的行为表现除受到测量的心理结构影响外,教育考试中考生的行为表现除受到测量的心理结构影响外,还会受到其他因素的影响,这些因素所产生的效应就是误差。还会受到其他因素的影响,这些因素所产生的效应就是误差。误差是所有测
10、量过程一定存在的。误差是所有测量过程一定存在的。误差是测量过程必须要考虑的一个变量,由该变量产生的分误差是测量过程必须要考虑的一个变量,由该变量产生的分数变化称为误差方差。数变化称为误差方差。经典的真分数理论、概化理论、项目反应理论经典的真分数理论、概化理论、项目反应理论教育考试的心理学基础教育考试的心理学基础基本假设基本假设假设假设6 6:测试和评价可以是公平的、无偏的:测试和评价可以是公平的、无偏的这是心理测量领域争议最大的一个假设这是心理测量领域争议最大的一个假设公平、无偏就是要平等地对待每一个考生,无论其性别、公平、无偏就是要平等地对待每一个考生,无论其性别、民族、居住地如何;考生的与
11、测量的心理结构无关的个性民族、居住地如何;考生的与测量的心理结构无关的个性特征对考试结果以及结果的解释没有明显的影响。特征对考试结果以及结果的解释没有明显的影响。公平、无偏的关键是所有考生对测试、评价有足够的了解公平、无偏的关键是所有考生对测试、评价有足够的了解教育考试的心理学基础教育考试的心理学基础基本假设基本假设假设假设7 7:测试和评价可以造福社会:测试和评价可以造福社会没有测试和评价就没有甑别,就会出现社会混乱没有测试和评价就没有甑别,就会出现社会混乱。学校教师无法诊断、无法因材施教学校教师无法诊断、无法因材施教社会无法选择适合各行各业的人才社会无法选择适合各行各业的人才测试和评价可以
12、对社会的价值观产生影响测试和评价可以对社会的价值观产生影响 测试和评价可以对学校的教育、教学产生积极影响。测试和评价可以对学校的教育、教学产生积极影响。考试的效度考试的效度有效性有效性效度是指各种证据和理论对考试结果的解释和使用的支效度是指各种证据和理论对考试结果的解释和使用的支持程度。持程度。有效性是一种价值判断有效性是一种价值判断建立价值判断的标准建立价值判断的标准收集支持价值判断的证据收集支持价值判断的证据标准标准测量目标测量目标证据来源证据来源考试大纲、试题、试卷、考试考试大纲、试题、试卷、考试 结果数据等。结果数据等。证据类型证据类型内容、应答过程、内部结构、与其它变量的关系、内容、
13、应答过程、内部结构、与其它变量的关系、考试的后果。考试的后果。课程标准课程标准课程标准中学习目标的基本要求课程标准中学习目标的基本要求可评估性可评估性可理解性可理解性可执行性可执行性可完成性可完成性教育考试的测量目标教育考试的测量目标来源来源中外课程标准学习目标的对比中外课程标准学习目标的对比美国课标美国课标中国课标中国课标注重目标好注重目标好内容规定较笼统内容规定较笼统教学建议较笼统教学建议较笼统无教材编写建议无教材编写建议目标规定较笼统目标规定较笼统内容规定很细内容规定很细有教学建议有教学建议有教材编写建议有教材编写建议教材编写目标明确教材编写目标明确教学目标明确教学目标明确需要选择教材或
14、内容需要选择教材或内容课难上课难上好评价好评价教材与目标不完全一致教材与目标不完全一致不太关注总的教学目标不太关注总的教学目标不需要选择教材或内容不需要选择教材或内容课好上课好上不太好评价不太好评价三个层次的目标体系三个层次的目标体系目标层次混乱目标层次混乱考试的测量目标考试的测量目标构成构成测量目标测量目标GoalsGoals are broad statements which specify what the students are supposed to be able to know and to do.具体目标具体目标ObjectivesObjectives are specif
15、ic statements which specify what behaviors the students are supposed to show to demonstrate their knowledge and abilities.表现水平标准表现水平标准Performance StandardsPerformance Standards specify how good of the students behaviors is good.考试的效度考试的效度证据类型证据类型考试或试卷的内容考试或试卷的内容应答过程应答过程内部结构内部结构与其它变量的关系与其它变量的关系考试的后果考
16、试的后果考试的效度考试的效度内容方面的证据内容方面的证据试卷覆盖的学科知识、学科的思维方法(过程)、试卷覆盖的学科知识、学科的思维方法(过程)、学科的(实验)技能的主要行为;这些行为是否学科的(实验)技能的主要行为;这些行为是否进行了适当的描述;进行了适当的描述;这些需要由学科专家和测量专家共同做出的判断。这些需要由学科专家和测量专家共同做出的判断。试题样本是否适当地代表一定的内容领域。试题样本是否适当地代表一定的内容领域。这一证据主要关注的是试题内容的代表性,即试这一证据主要关注的是试题内容的代表性,即试题覆盖的学科知识、学科的思维方法(过程)、题覆盖的学科知识、学科的思维方法(过程)、学科
17、的(实验)技能等,是否足以反映学科知识、学科的(实验)技能等,是否足以反映学科知识、思维方法和(实验)技能。思维方法和(实验)技能。考试的效度考试的效度应答过程方面的证据应答过程方面的证据考生的应答或在考试中的表现与考试欲测量的心考生的应答或在考试中的表现与考试欲测量的心理结构的一致程度理结构的一致程度 这一证据主要通过观察、交流以及应答结果分析这一证据主要通过观察、交流以及应答结果分析获得。获得。考生应答过程的理论和经验分析考生应答过程的理论和经验分析 这个证据需要既有学科背景,又有测量学背景的这个证据需要既有学科背景,又有测量学背景的专家来分析专家来分析 考生应答过程的观察记录考生应答过程
18、的观察记录 考试的效度考试的效度应答过程方面的证据应答过程方面的证据试题及试题包测量的行为与考试欲测量的心理结构的一试题及试题包测量的行为与考试欲测量的心理结构的一致程度致程度 试题要有明确的测量具体目标试题要有明确的测量具体目标命题要按照确定的具体目标命题命题要按照确定的具体目标命题要对命题教师命制的试题,尤其是设问进行检查要对命题教师命制的试题,尤其是设问进行检查要对试题的具体目标与总的测量目标的一致性进行评价要对试题的具体目标与总的测量目标的一致性进行评价内部结构内部结构统计结果统计结果试题包之间的相关关系试题包之间的相关关系因子分析结果。因子分析结果。考试的效度考试的效度与外部变量关系
19、的证据与外部变量关系的证据考试分数与外部变量之间的关系所揭示出的与考试欲测量的考试分数与外部变量之间的关系所揭示出的与考试欲测量的心理结构之间的关系,对大规模教育考试而言,外部变量主心理结构之间的关系,对大规模教育考试而言,外部变量主要是指与考试测量的心理结构相关或不同的变量。要是指与考试测量的心理结构相关或不同的变量。一致性关系(一致性关系(convergent evidence)不一致性(不一致性(discriminant evidence)心理结构心理结构A A成绩成绩心心理理结结构构A A成成绩绩心理结构心理结构B成绩成绩心心理理结结构构A成成绩绩考试的效度考试的效度与外部变量关系的证
20、据与外部变量关系的证据考试与标准测试之间的关系,关注考试结果可以多大程度考试与标准测试之间的关系,关注考试结果可以多大程度上准确地预测考生在标准测试中的行为上准确地预测考生在标准测试中的行为。预测有效性预测有效性同期有效性同期有效性 现在的考试成绩现在的考试成绩未未来来考考试试成成绩绩现在的考试成绩现在的考试成绩同同期期考考试试成成绩绩考试的信度考试的信度传统的认识传统的认识信度信度不同测量的一致性不同测量的一致性 Temporal stability 相关系数相关系数rForm equivalence 相关系数相关系数rInternal consistencyalpha信度系数信度系数内部一
21、致性信度内部一致性信度 内部一致性系数一般是指内部一致性系数一般是指Cronbach系数、系数、KR-20系数或分系数或分半系数,最广泛使用的是半系数,最广泛使用的是Cronbach系数系数 Cronbach系数系数信度是效度的前提条件信度是效度的前提条件 没有高的信度就没有高的效度没有高的信度就没有高的效度考试分数的信度考试分数的信度 经典的真分数理论经典的真分数理论 基本方程基本方程 观察分数观察分数 真分数真分数 误差分数误差分数考试分数的信度考试分数的信度 经典的真分数理论经典的真分数理论 信度系数的解释(信度系数的解释(Nunaally 1967Nunaally 1967)信度系数信
22、度系数解解 释释0.900.90或以上或以上信度很好,达到了最好的标准化测试的水平。信度很好,达到了最好的标准化测试的水平。0.800.80到到0.900.90对学校测试而言,已经是非常好了。对学校测试而言,已经是非常好了。0.700.70到到0.800.80对学校测试而言,大部分试题都很好;可能有对学校测试而言,大部分试题都很好;可能有少数试题需要改进。少数试题需要改进。0.600.60到到0.700.70信度偏低,需要补充其他测试以确定分数或等信度偏低,需要补充其他测试以确定分数或等第。部分试题可能需要改进。第。部分试题可能需要改进。0.500.50到到0.600.60信度低。建议对试卷进
23、行修改,除非试卷的试信度低。建议对试卷进行修改,除非试卷的试题量很少(题量很少(1010题或少于题或少于1010题)。需要补充其他题)。需要补充其他考试来可靠地确定分数或等第考试来可靠地确定分数或等第小于小于0.500.50信度有问题。考试基本无效,需要修改。信度有问题。考试基本无效,需要修改。考试的信度考试的信度新的认识新的认识不能再将不能再将CronbachCronbach系数公式看作是检查大部分考试数据系数公式看作是检查大部分考试数据可靠性的最适宜方法可靠性的最适宜方法 。标准测量误差标准测量误差 是衡量考试结果可靠性的唯一指标。是衡量考试结果可靠性的唯一指标。根据考试结果使用的目的设置
24、可以接受的最低测量误差根据考试结果使用的目的设置可以接受的最低测量误差最低测量误差决定了试卷的结构,如试题的数量、试题的最低测量误差决定了试卷的结构,如试题的数量、试题的题型及其比例等等。题型及其比例等等。试题样本采集的独立性试题样本采集的独立性局部独立局部独立测试内容的不均匀性测试内容的不均匀性单维单维/多维多维评价结果可靠性的方法不一样评价结果可靠性的方法不一样如何使用测试结果如何使用测试结果 绝对决策绝对决策/相对决策相对决策考试的信度考试的信度新的实践新的实践首先根据考试结果使用的目的确定可以接受的测量误差首先根据考试结果使用的目的确定可以接受的测量误差正式考试推出前,要试测,抽出代表
25、性样本,检查试测正式考试推出前,要试测,抽出代表性样本,检查试测卷的测量误差,以便对试卷结构进行修改。卷的测量误差,以便对试卷结构进行修改。命题之前要根据分数合成的要求,确定试卷的维度。命题之前要根据分数合成的要求,确定试卷的维度。单一合成分数单一合成分数单维试卷单维试卷多维试卷多维试卷根据测量的能力目标、内容领域分别报道分数。根据测量的能力目标、内容领域分别报道分数。试题难度、区分度、测量误差的评价方法不一样。试题难度、区分度、测量误差的评价方法不一样。命题中要避免局部依赖性命题中要避免局部依赖性 相当部分试卷都存在这种情况相当部分试卷都存在这种情况常模参照考试与标准参照考试测量误差评价方法
26、不一样。常模参照考试与标准参照考试测量误差评价方法不一样。经典的真分数理论中经典的真分数理论中 测量的标准误差与信度的关系测量的标准误差与信度的关系CTTCTT中考试的标准差与信度、测量的标准误差关系中考试的标准差与信度、测量的标准误差关系012345678123456789考试的标准差考试的标准差测量的标准误差测量的标准误差r=0.850.85r=0.900.90r=0.950.95考试的信度考试的信度概化理论概化理论 误差方差是多来源的误差方差是多来源的评分者评分者试题试题其它其它概化理论的重要贡献之一概化理论的重要贡献之一 就是研究不同来源的误差就是研究不同来源的误差典型的考生分数变化可
27、以归结为以下因素:典型的考生分数变化可以归结为以下因素:概化理论通过估计出这些来源的方差,就可以对这些方差概化理论通过估计出这些来源的方差,就可以对这些方差作出比较,确定不同来源的方差对考生分数方差的贡献。作出比较,确定不同来源的方差对考生分数方差的贡献。对一个信度较高的考试,其全域分数方差要大,其他来源对一个信度较高的考试,其全域分数方差要大,其他来源的方差(潜在的误差方差)要小。的方差(潜在的误差方差)要小。2 2(Xpir)=2 2(p p)+2 2(i i)+)+2 2(r r)+)+2 2(pipi)+2 2(prpr)+)+2 2(irir)+)+2 2(pirpir)考生考生方差
28、方差试题试题方差方差评分者评分者方差方差交互作用方差交互作用方差考试的信度考试的信度概化理论概化理论 相对误差方差相对误差方差考试的信度考试的信度概化理论概化理论 概化系数概化系数可靠性指数可靠性指数绝对误差方差绝对误差方差这些系数和误差方差是我们研究考试分数可靠性、这些系数和误差方差是我们研究考试分数可靠性、控制测量误差、对考试作出改进的主要依据。控制测量误差、对考试作出改进的主要依据。相对误差方差相对误差方差考试的信度考试的信度概化理论概化理论 绝对误差方差绝对误差方差考试的信度考试的信度项目反应理论项目反应理论可以估计每个考生的能力水平可以估计每个考生的能力水平能力分数能力分数真分数理论
29、和概化理论均不能估计被试个体的能力水平。两种方法真分数理论和概化理论均不能估计被试个体的能力水平。两种方法都是围绕观察分数,确定一个置信区间内,合理的推测被试个体的都是围绕观察分数,确定一个置信区间内,合理的推测被试个体的能力水平能力水平真分数或全域分数真分数或全域分数位于该区间之内,区间的大小位于该区间之内,区间的大小是由置信度和测量误差共同确定的。是由置信度和测量误差共同确定的。确定置信区间时,是以被试群体的表现为基础的,因此无论被试个确定置信区间时,是以被试群体的表现为基础的,因此无论被试个体的能力是高,还是低,或是中等,置信区间对每个被试是相同的。体的能力是高,还是低,或是中等,置信区
30、间对每个被试是相同的。如果测量同一特质的试题数达到一定的数量,则被试的能力估计如果测量同一特质的试题数达到一定的数量,则被试的能力估计就与考试采用的试题无关。就与考试采用的试题无关。如果用来进行参数估计的样本达到一定的数量,则估计出的试题如果用来进行参数估计的样本达到一定的数量,则估计出的试题参数就与估计采用的样本无关。参数就与估计采用的样本无关。试题和考试提供的信息量或试题和考试的测量精度与考生群体无试题和考试提供的信息量或试题和考试的测量精度与考生群体无关。关。考试的信度考试的信度项目反应理论项目反应理论考试信息函数:考试信息函数:试题信息函数试题信息函数:两参数模型两参数模型:三参数模型
31、三参数模型:考生能力估计值的标准误差考生能力估计值的标准误差确定能力分数的测量误差确定能力分数的测量误差考试的信度考试的信度项目反应理论项目反应理论考试的公平性考试的公平性考生的与测量的心理结构无关的个性特征对考试结考生的与测量的心理结构无关的个性特征对考试结果以及结果的解释没有明显的影响果以及结果的解释没有明显的影响不同的考生群体,如男、女考生,城市与农村或郊不同的考生群体,如男、女考生,城市与农村或郊区的考生,不同省市的考生之间考试结果的统计差区的考生,不同省市的考生之间考试结果的统计差异只能是由考试要测量的心理结构的差异引起的,异只能是由考试要测量的心理结构的差异引起的,其他因素对其没有
32、明显的可以探测出的影响。其他因素对其没有明显的可以探测出的影响。试题的情景材料,包括有声、图像材料,对所有的试题的情景材料,包括有声、图像材料,对所有的考生群体都是公平的。考生群体都是公平的。所有考生都能同等地获取考试的信息,考生不会因所有考生都能同等地获取考试的信息,考生不会因为其所就读的地区、学校的差异,生活的家庭的差为其所就读的地区、学校的差异,生活的家庭的差异,不能同等地获得考试的相关信息。异,不能同等地获得考试的相关信息。试题功能偏差(试题功能偏差(DIF&DTF)不同子群体分数有明显差异,或者分数相近但能力不同子群体分数有明显差异,或者分数相近但能力测度有明显差异测度有明显差异差异
33、来源差异来源能力上的差异能力上的差异两个群体的确有差异两个群体的确有差异试题功能偏差试题功能偏差试题或试卷对不同子群体不公平试题或试卷对不同子群体不公平试题或试卷功能偏差试题或试卷功能偏差试题或试卷的多维性试题或试卷的多维性对试题或试卷进行多维性分析对试题或试卷进行多维性分析影响维度影响维度与测量的心理结构相关的维度与测量的心理结构相关的维度干扰维度干扰维度与测量的心理结构无关的维度与测量的心理结构无关的维度考试的公平性考试的公平性试题功能差异试题功能差异考试的公平性考试的公平性试题功能差异试题功能差异PDDL考试对社会、学校教育教学的影响考试对社会、学校教育教学的影响大规模教育考试结果的使用
34、会对社会、对学校的教育、教大规模教育考试结果的使用会对社会、对学校的教育、教学产生深刻的影响。学产生深刻的影响。大规模教育考试本身的情景材料、内容、题型、难度以及大规模教育考试本身的情景材料、内容、题型、难度以及蕴含在其内容、材料以及考查目标中的价值观,对社会、蕴含在其内容、材料以及考查目标中的价值观,对社会、对学校教育、教学也会产生巨大影响。对学校教育、教学也会产生巨大影响。考试目标的设计、试题情景材料的选择、试题的设问等不考试目标的设计、试题情景材料的选择、试题的设问等不但要考虑其测量学要求,也要考虑其蕴含的价值观是否与但要考虑其测量学要求,也要考虑其蕴含的价值观是否与社会的主流价值观相一
35、致,从教育的角度看是否有积极意社会的主流价值观相一致,从教育的角度看是否有积极意义。义。考试的学科内容、题型、难度既要符合测量学要求,又要考试的学科内容、题型、难度既要符合测量学要求,又要考虑有利于学校按照课程标准要求组织教育和教学,有利考虑有利于学校按照课程标准要求组织教育和教学,有利教师改进教学策略和教学方式,提高教育和教学质量;有教师改进教学策略和教学方式,提高教育和教学质量;有利于学生改进学习方式,提高学习效果。利于学生改进学习方式,提高学习效果。理论问题引发的实践思考理论问题引发的实践思考 命题的问题命题的问题效度效度题题 型型题题 量量 内内 容容(知识技能,过程方法)(知识技能,
36、过程方法)目标和行为标准目标和行为标准 难度和区分度难度和区分度及格和等第标准及格和等第标准情情 景景 材材 料料 选选 择择公平公正公平公正信度信度后效影响后效影响试试卷卷结结构构评评分分标标准准和和评评分分操操作作试卷结构试卷结构 测量目标和内容领域问题测量目标和内容领域问题试卷层面的问题试卷层面的问题试卷要测量哪些目标、覆盖哪些行为标准?试卷要测量哪些目标、覆盖哪些行为标准?在哪些知识内容领域测量该目标?在哪些知识内容领域测量该目标?每一测量目标、行为标准和内容领域的题量?每一测量目标、行为标准和内容领域的题量?试题层面试题层面试题要测量何具体目标?试题要测量何具体目标?在哪个知识内容领
37、域测量该目标?在哪个知识内容领域测量该目标?如何设问才能引导学生表现出期望表现的行为?如何设问才能引导学生表现出期望表现的行为?(排除法只是考试技巧,不是测量的目标或行为标准)(排除法只是考试技巧,不是测量的目标或行为标准)试卷结构试卷结构难度问题难度问题考试的难度问题是科学问题,也是社会问题考试的难度问题是科学问题,也是社会问题。难度影响到考生分数分布,因此影响到招生录取决难度影响到考生分数分布,因此影响到招生录取决策误差。策误差。难度影响学生和家长的应试心理,因此影响社会稳难度影响学生和家长的应试心理,因此影响社会稳定定难度影响学校教学深度和广度,影响学生学习的深难度影响学校教学深度和广度
38、,影响学生学习的深度和广度。度和广度。难度涉及到两个层面难度涉及到两个层面试卷层面试卷层面试题层面试题层面难度难度科学问题科学问题难度对考生成绩分布的影响难度对考生成绩分布的影响难度系数为难度系数为0.5时,考生成绩大致呈正态分布,时,考生成绩大致呈正态分布,试卷的标准差也相应大致达到最大,此时,考生试卷的标准差也相应大致达到最大,此时,考生成绩在平均分两侧的分布最分散。因此,依据考成绩在平均分两侧的分布最分散。因此,依据考试成绩对考生进行选择决策时,发生决策误差的试成绩对考生进行选择决策时,发生决策误差的人数也会最少。人数也会最少。难度系数越高,考生成绩越向高分一端集中,分难度系数越高,考生
39、成绩越向高分一端集中,分布范围变小,因此,依据考试成绩对考生进行选布范围变小,因此,依据考试成绩对考生进行选择决策时,发生决策误差的人数也会增多。择决策时,发生决策误差的人数也会增多。难度难度科学问题科学问题0500100015002000020406080100110130150考试分数人数图图11.3 考试分数概率分布(平均分考试分数概率分布(平均分105,标准差,标准差17)图图11.1 考试分数概率分布(平均分考试分数概率分布(平均分75,标准差,标准差20)050010001500200002040607590110130150考试分数人数难度难度科学问题科学问题曲曲线线1:均均分分
40、423,难难度度系系数数0.67;曲曲线线2:均均分分378,难难度度系系数数0.60;曲曲线线3:均均分分315,难难度度系系数数0.50;实实线线相相当当于于第第一一批批分数线位置;虚线相当于第二批分数线位置。分数线位置;虚线相当于第二批分数线位置。曲线曲线1曲线曲线3曲线曲线2图图4 4 选择决策卡帕指数与考试平均分、录取分数线的关系选择决策卡帕指数与考试平均分、录取分数线的关系0.800.850.900.951.00270290310330350370390410430450470490510530分数卡帕指数试卷结构试卷结构试题难度试题难度4.003.503.002.502.001.
41、501.00.500.00-.50-1.00-1.50-2.00-2.5020100试题难度参数分布图11.5样本考生能力参数分布频数2.001.501.00.500.00-.50-1.00-1.50-2.00-2.50-3.00频数3002001000考生能力参数分布试卷结构试卷结构试题难度试题难度204060801001200.20.40.60.81.0试卷长度(题数)试卷长度(题数)信信度度图图1 1 试卷长度与信度关系(据谢小庆试卷长度与信度关系(据谢小庆 2019 2019)试卷结构试卷结构题量题量 平行试题模型法平行试题模型法真分数等值试题模型真分数等值试题模型试卷结构试卷结构题量
42、的计算题量的计算)1(1212Xmiimmmssa=-=多元概化理论模型多元概化理论模型试卷结构试卷结构题量的计算题量的计算全卷最佳题量全卷最佳题量部分最佳题量部分最佳题量常模参照考试常模参照考试标准参照考试标准参照考试全卷最佳题量全卷最佳题量部分最佳题量部分最佳题量=nnnnnnss)()(22piwpiwnnii=nnnnnns)(96.1222piwnnNi+=nnnnnnnss)()(96.12222piiwnnNi+=nnnnnnnnssss)()()()(2222piiwpiiwnnii试卷结构试卷结构题量的计算题量的计算大大 题题听力听力语语法法词汇词汇CLOCLOZEZE阅读阅
43、读翻翻译译过过 去去202010355理理论论情况情况常模常模参照参照条件条件212110105 53939101085+1标标准准参照参照条件条件262611115 5404013139595现现在在常模常模参照参照2424202040406 690+190+1大规模教育考试:命题与评价(大规模教育考试:命题与评价(2019)考试数据的统计分析和解释考试数据的统计分析和解释(2019)雷新勇雷新勇 华东师大出版社华东师大出版社试卷结构试卷结构题型题型题型代表了测量方法,它与教育考试关注的核心问题题型代表了测量方法,它与教育考试关注的核心问题密切相关。密切相关。题型与考试的效度和信度有相当强的
44、关系。题型与考试的效度和信度有相当强的关系。大规模教育考试的题型对学校的教学方式和教学训练大规模教育考试的题型对学校的教学方式和教学训练方式有明显的影响。方式有明显的影响。从经济的角度看,大规模教育考试题型对评分的成本从经济的角度看,大规模教育考试题型对评分的成本也有很大的影响。也有很大的影响。最常见的题型分类:客观题、主观题最常见的题型分类:客观题、主观题试卷结构试卷结构客观题与主观题的比较客观题与主观题的比较 客客 观观 型型 主主 观观 型型 测量的学测量的学 能有效地测量事实性知识。某些能有效地测量事实性知识。某些 能够测量理解、思维技能和其他复杂能够测量理解、思维技能和其他复杂 习成
45、果习成果 题型也能测量理解、思维技能和题型也能测量理解、思维技能和 的行为目标。测量与现实贴近的行为的行为目标。测量与现实贴近的行为 其他复杂的行为目标。但是不适其他复杂的行为目标。但是不适 目标比较有效,但不适合用来测量事目标比较有效,但不适合用来测量事合测量选择和组织观点的技能、合测量选择和组织观点的技能、实性知识。实性知识。写作能力或某些问题解决技能。写作能力或某些问题解决技能。命题的命题的 考试所考试所需的试题需的试题量量较大,命题时较大,命题时 考试要求的题量少,命题相对比较容考试要求的题量少,命题相对比较容 准备准备 间长,难度比较大。间长,难度比较大。易易 内容领内容领 由于试题
46、量较大,内容覆盖面较由于试题量较大,内容覆盖面较 由于考试的试题量较少,内容覆盖面由于考试的试题量较少,内容覆盖面 域样本域样本 广,考试内容领域样本代表性较广,考试内容领域样本代表性较 较小,考试内容领域样本的代表性有较小,考试内容领域样本的代表性有 好。好。限。限。对学生应对学生应 完全结构化的试题限制了考生的完全结构化的试题限制了考生的 考生可以按照自己的理解进考生可以按照自己的理解进 行自由应行自由应 答的控制答的控制 应答类型,能够防止许多非测量应答类型,能够防止许多非测量 答,可以使考生表现自己的创造力,答,可以使考生表现自己的创造力,目标因素,如写作能力的影响,目标因素,如写作能
47、力的影响,有效地减少猜测的概率。有效地减少猜测的概率。但选择题有一定的猜测概率。但选择题有一定的猜测概率。试卷结构试卷结构客观题与主观题的比较客观题与主观题的比较评分评分 客观,信度高,试题越严谨,客观,信度高,试题越严谨,主观评分,多人评分的不一主观评分,多人评分的不一 误差越小。误差越小。致,降低了评分结果的信致,降低了评分结果的信 度,增加了误差。度,增加了误差。对学习对学习 通常鼓励考生掌握具体的通常鼓励考生掌握具体的 鼓励学生关注大的内容单元,鼓励学生关注大的内容单元,的影响的影响 细节内容,注重对具体概细节内容,注重对具体概 注重对所学内容的整合和建构。注重对所学内容的整合和建构。
48、念、原理的区分。如果试念、原理的区分。如果试 强调组织、整合和有效表达思强调组织、整合和有效表达思 题设计的好,也可以促进题设计的好,也可以促进 想的能力。想的能力。学生发展理解力,思维能学生发展理解力,思维能 力以及其他的高级认知能力以及其他的高级认知能 力。力。信度信度 考试设计的越严谨,结果考试设计的越严谨,结果 信度通常低于客观题型,主要信度通常低于客观题型,主要 信度越高。信度越高。是因为评分信度较低以及试题是因为评分信度较低以及试题 数量有限。数量有限。试卷结构试卷结构题型选择的原则题型选择的原则从认知特征、试题和考试的特征以及考试的经济性来看,每从认知特征、试题和考试的特征以及考
49、试的经济性来看,每种题型都有其优势,也有其缺点,任何一种题型都不能独自种题型都有其优势,也有其缺点,任何一种题型都不能独自完成所有的教育测量目标。因此,考试中应该采用多种题型,完成所有的教育测量目标。因此,考试中应该采用多种题型,发挥每种题型的优势,减少其劣势。发挥每种题型的优势,减少其劣势。如果两种题型的测量结果有很强的类似性时,选择测量效率如果两种题型的测量结果有很强的类似性时,选择测量效率高的题型(通常是选择型题型)是合理的;如果两种题型的高的题型(通常是选择型题型)是合理的;如果两种题型的测量结果类似性比较低时,应该考虑试题的在认知过程、内测量结果类似性比较低时,应该考虑试题的在认知过
50、程、内容等方面与测量目标的一致程度,通常选择一致程度高的题容等方面与测量目标的一致程度,通常选择一致程度高的题型型建构型题型。建构型题型。题型的选择要考虑试题测量的行为或者认知过程、涉题型的选择要考虑试题测量的行为或者认知过程、涉及到的内容以及需要的条件,即题型应该与测量目标及到的内容以及需要的条件,即题型应该与测量目标的行为要求一致。这反映了考试的效度为第一考虑的的行为要求一致。这反映了考试的效度为第一考虑的观点。观点。题型的选择要保证考试结果达到预先设定的信度要求,题型的选择要保证考试结果达到预先设定的信度要求,即必须考虑不同题型试题的比例。这反映了考试结果即必须考虑不同题型试题的比例。这