教育教学测量与评价.doc-淘文阁

资源描述

《教育教学测量与评价.doc》由会员分享，可在线阅读，更多相关《教育教学测量与评价.doc（14页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、-/第一章、教育测量与评价的学科发展教育测量与评价一.教育测量1、测量:根据法则给事物赋予数量。(史蒂文斯)测量：客观事物及其属性；所依据的规则或方法；数量化的结果。2、教育测量：广义：对于教育领域内的事物或现象，根据一定的客观标准，作缜密地考核，并依据一定的规则将考核的结果予以数量的描述。狭义：是指对学生某些学科经过学习和训练之后，所获得的知识、技能的测量。又称成就测量、学业成绩测量或学科测量。3、教育测量的特点： 1.间接性和推断性 2.测量对象的模糊性和测量误差的不可避免性 3.量表具有多样性,结果具有相对抽象性 4.测量目的的针对性二.教育评价评价：评：评定；价：价值教育价值教育评

2、价：注重效果：美国的泰勒；注重资料的获得：美国的克龙巴赫、斯塔弗尔比姆；注重评价方法、手段：中国的张秀理、日本的长谷川容1、教育评价的概念：教育评价是评价者对教育活动或行为主客体价值关系、价值实现过程、结果及其意义的一种认识活动过程，其核心内容是揭示教育活动或行为中的客体对主体的需要、目标的价值意义。三.教育测量与评价的关系联系: 教育测量就是指根据一定的理论、规则，运用一定的测量工具对教育现象进行数量化描述的过程教育评价是对教育现象状态和价值的判断，这一判断是以对评价对象的客观描述为前提的，没有对评价对象的客观描述，就不会有对评价对象价值的客观判断教育测量是教育评价的基础，教育评价

3、要在教育测量所获得的客观信息的基础上进行.同时，教育测量的结果要通过评价才能获得实际意义教育测量与评价的区别：第一，测量是对事物数量特征的获得。而教育评价则是对教育现象客体的价值进行判断。第二，教育测量是一种纯客观的过程，其突出特点是客观性。而教育评价则具有两种属性，即客观性和主观性第三，测量的任务是对事物的量的认识，而评价作为一种认识活动，是人的意识对实践活动及其结果的综合反映，它反映的是活动的过程和终点，又是新的实践活动的起点。教育测量与评价的产生与发展过程：一.教育测量的产生1904年以前（教育测量的萌芽期）中国的科举制（隋炀帝大业二年，公元606年）科举制的特征：逐级考核

4、、制度完备、考场严格、命题规范科举制的考核方法：口试、贴经、墨义、策间、诗赋产生在中国、发展在西方美国贺拉斯曼 1845年将“笔试”引入美国英国费舍在1864年作业量表集美国赖斯在1897年的拼字实验19041915年教育测量的开拓期：美国桑代克的巨著精神与社会测量导论问世。标志着以科学理论为指导的教育测量理论的诞生。桑代克在这本巨著中提出：无论什么东西，只要存在，总存在于数量之中麦克尔提出：任何东西，存在于数量中的，都可以被测量这就是后来人们说的“凡存在的东西必有数量；凡有数量的东西都可以测量” 这两句话，看成是构成一切测验和量化评价的公理。 1909年，桑代克根据“等距原理”发明

5、了编制量表的单位，编制了标准化的测验量表。1915-1930年教育测量的兴盛期：在桑代克的影响下，教育测量的运动轰轰烈烈的开展测验品种有算术测验、书法测验、学科测验、智力测验、个性测验、兴趣测验等，在数量上已有3000多种标准化测验的问世1930-1940年教育测量的批判期：对教育测量批判的原因：教育测量虽然能使教育成就定量化、客观化、标准化；但毕竟不能测量出人的学力和人格的全部内容。第一次大战以后，人们的教育观点发生了很大的变化，不在将教育看成是单纯的传授知识，而是将人的全面发展作为教育目标。而人的全面的重要因素如：社会道德、人的情绪态度、动机兴趣、鉴赏力等是不能光靠测量的。教育

6、测量存在的弊端：为测量而测量，盲目追求量化，忽视教育服务对象的整体目标与价值。教育测量的理论基础只有心理学、统计学和测量学，而没有教育学原理。二.教育评价的产生1、教育评价产生的社会背景： 19291933年席卷美国、波及全球的经济大萧条社会与教育危机四起生产过剩、工厂倒闭、工人下岗学校因经济不景气，部分学校关闭，有些学校的班级减少。整个社会和教育皆处于反省之中 1930年美国有25%的失业，青年近乎100%找不到工作，1910年1417岁的青年17%上大学，而到1930年上升到51%。有相当一部分人上高中并不想上大学，而当时的美国高中设课就是为了上大学服务的，为此中学设课与失业

7、青年的需求就产生了尖锐的矛盾2、教育评价的起源：美国进步主义联盟负责人艾钦于19331940年领导了中学课程改革实验研究，其中课程评价委员会由俄亥俄州的州立大学教授泰勒主持，这就是美国教育历史上著名的“八年研究”，也是教育评价问世的开始。八年研究的内容：泰勒教授选了30所参加实验的高中学生，对这些学生进行了4年中学、4年大学学习的追踪研究，历时“八年”，这也是“八年”研究的由来。当时选进步学校和和传统学校学生各1475人，按性别、年龄、种族、学业能力倾向、家庭、社会环境、职业兴趣和嗜好等基本原则进行一一配对，进行比较。评价是八年研究的有机组成部分，泰勒认为课程计划和编制必须回答以下四个基本

8、问题 1、应帮助学生达到什么目标？ 2、为达到目标应帮助学生学习那些预期的知识？ 3、怎样组织学习过程才能使学生的学习成效最大？ 4、怎样评价教学方案结果发现：来自实验的学生在大学四年中，每年获学术性荣誉略多；具有更强的理智、好奇心和学习动机；思维更精密、更系统、更客观；对教育的意义有更清晰的看法；对新情况有更强的应变能力；具有更有效的解决问题的办法；更多的参加有组织的学习团体；获得非学术的荣誉更多些；对职业的选择有更好的定向；更积极的关注全国和全世界的事物。新旧课程比较结论：前三项经统计检验均存在显著性差异记忆活动传统的高于进步学校，但经统计检验两者没有显著性差异教育

9、评价的问世：八年研究后泰勒等人的研究结论是：旧课程及其教育测验是教科书主义，测验内容只是要求学生记诵教材中的知识，是片面的，不能反映学生的全面发展。泰勒提出：以全面发展的教育目标为核心和依据的两条相互依存的原理，即课程编制原理和评价活动原理，也就是泰勒原理教育评价的创始人泰勒：在八年工作报告中第一次提出教育评价这个报告被称为“划时代的教育评价宣言” 宣布了教育评价的诞生给出了教育评价的原理、方法和手段奠定了泰勒-教育评价之父的地位同时也迎来了美国教育史上“泰勒时期的到来”3、评价的发展：19401957年教育评价的平稳期：特点：教育评价的理论在不断的进行深入研究布鲁姆完成教育

10、目标分类学教育评价活动没有普及这与当时美国的历史背景有关，二战后，美国处于“筹划与享受生活的时代”。社会对教育的发展很少提出新的要求。19571972批判泰勒模式时期：特点： 1957年前苏联的人造卫星上天引发美国对教育的不满开始批判泰勒教育模式1972-现在专业化时期特点：高等学校出现了许多教育评价的硕士、博士、博士后专业点各类教育评价研究中心纷纷建立如：美国有西密执安大学评价中心、洛杉矶加里福尼亚大学研究中心等教育评价专著、杂志大量出版如：评价研究评价评论评价信息等4、教育测量与评价的发展趋势及特点教育测量的政治性得到强化教育测量的重心发生了变化教育测量的理论得

11、到飞跃发展计算机技术的发展提高了测验的效率测验的统计模型为教育测量学科发展提供强有力的理论支持更加重视测量结果的解释教育测量内容的发展：评价方法由注重相对评价转向重视绝对评价重视教育目标研究教育评价研究中不断引入新的研究方法越来越重视发展性教育评价理念和被评价者的参与越来越重视元评价越来越重视对评价结果的全面解释和慎重处理第二章、教育测量与评价的基本原理教育评价与测量的类型一、教育评价的分类1、根据评价对象的层次和内容来划分：宏观评价：指对影响到全社会的那些指导、规范教育活动的各种因素进行的评价。微观评价：指对某项具体的教育活动过程，对实施、管理教育活动的组织与个人对教育

12、活动指向的具体对象等内容进行的评价2、按评价内容的复合程度来划分：单项评价：指针对教育评价对象某一方面状况进行的评价。综合评价：指对评价对象状况的方方面面作整体评价。3、按评价的功能及用途来划分：诊断性评价：为使教育活动的形式、内容、过程等更适合活动对象的自身条件及需要而进行的评价。如：摸底考试。形成性评价：在教育活动过程中为不断了解活动进行的状况以便能及时对活动进行调整，进而提高活动质量进行的评价。如：单元测验。终结性评价：指对教育活动的效果进行的评价。如：期末考试4、按评价参照的标准来划分：相对评价：根据评价对象的实际状况设定评价标准。评价标准在被评对象群体内部产生。绝对评价：依据某种需

13、要或要求设定评价标准。评价标准在被评对象群体外部产生，且标准固定。个体内差异评价：以评价对象某一状况作为设定评价标准依据的评价。 5、按评价主体来划分：他人评价：由活动实施者以外的人作为评价主体进行的评价。自我评价：由活动实施者作为评价主体进行的评价。 6、按评价方法来划分：定性评价：采用开放的形式来获取评价信息、对评价结果的性质进行说明的评价活动。定量评价：采用结构式的方法，预先设定操作化的评价内容，收集评价对象可以量化的信息，得出数量化结果的评价活动。二、教育测量的分类1、根据测验目标来划分成就测验:目标在于测量学生在各学习阶段学到了什么，旨在检测教育目标希望学生能达到的具体行为。

14、如:学科测验如：教学阶段测验（诊断和总结性测验）能力测验：旨在测量个体的不因外界环境影响而轻易改变的、较稳定的、表现在认知能力方面的心理特质.比如观察力、记忆力、理解力、概括力、空间能力、判断推理能力等等。也被称为“智力测验”。能力倾向测验：目的在于测量学生的潜在学习能力及学术发展趋向。潜在能力是指个体从未来教育或训练中可能受益的能力。这类测验主要用于预测学生的未来成就和能力，从而可以帮助决策者和学生自己选择合适的学校、专业及最佳职业。能力倾向测验分为：一般学习能力测验、特殊能力倾向测验。2、根据测验分数的解释标准来划分常模参照测验：目的在于考查被试的个体差异，一般用于衡量被试相对水平的

15、，以选拔为目的的大规模测验。标准参照测验：目的在于考查被试是否已达到某种标准。一般用于以教学目标为标准考查学生实际水平的测验。常模团体n 总体要明确n 常模团体必须是被试总体的一个代表性样本 n 样本的大小要适当n 注意常模团体的更新n 测验手册中必须详尽描述取样过程常模参照测验与标准参照测验的比较：1、从考试的目的和用途来看，它们都通过测量学生的学习成绩，考查其优劣，但常模参照性测验将考生成绩做横向比较，着眼于个别差异，主要用于选拔性测验和总结性测验等。2、从考核目标的陈述来看，都明确具体，为编制测验提供依据，但常模参照性测验可采用一般目标或具体目标，而标准参照性测验必须采取非常具体且详细

16、的目标。 3、从题型的选择和题目的分配来看，都需采用各种不同题型，试题必须是教学目标的有代表性的样本；常模参照性测验多采用选择题，题目分散在全学科的全部知识领域内，题目按从易到难的顺序排列；标准参照性测验较少依赖选择题，题目分别分布在一定目标中，题目按教学目标顺序排列即可。 4、从考试及考题的质量要求来看，它们都按照标准化考试的编制原则，保证考试有较高的信度和效度；常模参照测验题目要求难易适中，强调题目的鉴别力，测验信度的估计适合用统计方法；标准参照测验的题目和学习结果直接联系，不强调题目的鉴别力，测验信度的估计不适合用统计方法。 5、从解释考试结果的依据及分数的意义来看，两种考试各有其依据

17、；常模参照性测验的常模是解释分数的标准，用地位量数表示考生在团体中的相对位置；标准参照性测验中教学目标是解释分数的标准，以考生完成题目数量的百分比来表示考生的学习效果。 3、根据教育测量的标准化程度来划分：标准化测验：指测验的编制、实施、记分、分数的解释有统一标准和严格规定的大规模的测验标准化测验的程序：确定考试目的；编制考试蓝图（命题双向细目表）；命题、组卷、试测、入库；实测；评分，统计分析；写出指导书。教师自编测验：教师根据教学情况自己编制测题对学生进行的测验。 4、以测量人数多少来划分：n 团体测验n 个人测验 5、根据所使用的材料和形式来划分：n 语言文字测验n 非语言文字测验教育测

18、量与评价量表心理学家史蒂文斯根据测量的精确程度把量表从低级到高级分成名称量表、顺序量表、等距量表和比率量表。名称量表：n 意义：依照某种法则给事物及属性指派名称或类别的量表。 n 功能：区分性。n 数量化结果的含义：不能比较大小。n 适用的统计方法：次数的统计，如次数、众数、百分比、离散相关、卡方检验等。顺序量表：n 含义：依照某种法则给事物或人的心理现象指派名称或类别，还可以将分类结果按数量大小进行排序。n 功能：区分性、顺序性n 数量化结果的含义：比较大小，不能进行运算。n 适用的统计方法：中位数、百分位数、等级相关系数、肯德尔和谐系数以及秩次的方差分析。等距量表（区间量表）：n

19、含义：在给事物及属性指派数字和符号时，要求各数字或等级之间的差距是相同的，即具有相等的单位。 n 功能：区分性、顺序性、等距性n 数量化结果的含义：不仅能分类、排序，还可以进行加减运算。n 适用的统计方法：均数、标准差、相关系数，t、F检验等比率量表：n 含义：有相等单位和绝对零点的量表。n 功能：区分性、顺序性、等距性、绝对零点。n 数量化结果的含义：可以进行加减乘除四则运算。n 适用的统计方法：均数、几何平均数、标准差、相关系数，变异系数、t、F检验等。教育测量与评价的基本原则1、教育测量与评价原则的性质（1）教育测量与评价原则是在教育测量与评价实践活动中总结出来的具有普遍性问题基

20、础上提出的。（2）教育测量与评价原则反映了人们对开展教育测量与评价活动的总体要求。（3）教育测量与评价原则具有相对稳定性。2、基本原则（1）方向性原则：指通过评价内容和标准等的制定、评价过程的侧重、评价结果的肯定与否定等推动教育活动贯彻国家的教育方针，进而满足社会需求，保持良性发展的方向。（2）客观性原则：指评价主体要以真实的资料为基础，对教育活动过程和成果作出客观的价值判断。（3）激励性原则：指教育评价应促使评价对象形成继续努力或在进一步的活动中改善不足之处，提高活动效果的动机或期望。（4）计划性原则：指教育评价活动的开展及教育评价活动过程应根据教育活动的开展而有计划有序地进行。

21、（5）实效性原则：指教育评价过程应根据评价的目的与内容、评价对象的具体情况、具体的社会环境背景等作出切合实际的评价计划，采用适宜的评价方法使评价能有效地对教育活动提供指导与帮助。（6）平等性原则：指教育评价实施者应以与评价对象共同探讨教育活动得失的平等身份进入评价活动，使评价对象将评价者作为朋友接受其评价，采纳其意见或建议。第三章、编制教育测验的一般原理和方法布鲁姆的教育目标分类系统把教育目标分成三个领域：1、认知领域；2、情感领域；3、动作技能领域。1、认知领域目标分类：布卢姆把认知领域的教育目标分为六级：知道、领会、运用、分析、综合、评价。1、知道：指对先前学习过的知识材料的简单回

22、忆.“知道”又叫“知识”，是认知领域中最低水平的认知结果，它所要求的心理过程主要是记忆。2、领会领会亦称理解或领悟，是指将一种语言准确地转化成另一种语言。它又可分为转化、解释和推断三种。3、运用指在具体的情境中使用抽象概念，是对所学知识的初步运用.运用代表了较高水平的理解，比如用二元一次方程解答工程性质的应用题，又如把其它文献中已经提出来的新论点用来引证自己类似的实验结果。4、分析指将一种传播内容分解成为它的组成因素和组成部分，以便弄清各种观念之间的关系。5、综合指将各种要素及组成部分组成一个整体，以构成更为清楚的模式或结构。综合强调的是创造能力。6、评价指为了一定的目的，对某些观念

23、和方法等的价值作出判断。包含根据内部准则判断和依据外部准则判断两方面的内容。2、对布鲁姆教育目标分类的评价：从教育目标划分标准来看，布鲁姆所用的标准是测量学的，无论是知识、领会、应用、分析、综合还是评价每一个教育目标都是围绕着如何测量或操作的角度提出的。布鲁姆的教育目标分类便于全面描述教学目标和评定教学，但未揭示各级层次的智力技能的心理机制，因而无法指导教师用什么方法或提供什么学习条件来实现教学目标。总结：教育目标分类系统对认知领域中的教学目标由低到高进行划分，符合能力由简单到复杂发展原则。认知领域分类标准是测量学的，有利于指导学习结果的测量与评价。3、测验题目类型与测量功能：测验题目

24、分类:选择型和供答型。选择型一般要求被试在几个选项中选择正确的答案，如是非题、匹配题、选择题等，后者要求被试自己提供答案，如论文题、简答题、填空题等。若根据被试作答的范围和评分方法不同，又可分为主观性试题和客观性试题。客观性试题主要是因为评分客观而得名，它的正确答案在测验前就已准备好，不同评分者各自独立评分，所得结果基本上是相同的。客观性试题一般适用于测量知识的掌握、理解、应用、分析几个层次的教学目标。客观性试题的答案明确，作答简便，因而在限定的时间内测验可以包含足够数量的试题，能保证对知识内容的覆盖。主观性试题主要包括论述题、操作题和作文题等。它们适合于测量较高层次的教学目标，尤其适合

25、于测量综合、评价等目标层次。主观性试题鼓励被试积极地组织所学的资料，表达自己的观点。被试在作答时，耗费的时间较长，在限定的时间内，试题数量不可能太多，对知识的覆盖面较小。由于没有明确统一的标准答案，评分易受评阅者的主观因素影响，因而误差较大。一、客观性试题的类型及其编写技巧(一)选择题 1结构选择题是由一个题干和几个选项组成。题干一般是问题或待完成的句子，选项是几个真假不明的答案，让被试从中选出正确的答案。 2优缺点优点：(1)可以用来测量学生各种不同层次的学习结果。 (2)评分标准统一、客观，可以利用电脑评卷，提高评卷的速度和自动化水平。 (3)可以加大试题容量，抽取广泛有效的代表性样本

26、，使试题覆盖的知识范围广。 (4)有利于考查被试思维的敏捷性和准确的判断力。（5）采用大量的似真选择项使结果易于诊断，通过对学生错误选项的分析便于发现学生在学习中存在的问题，以便及时纠正。缺点: (1) 编制选择题较花费时间，且需要专门的命题技巧。 (2)难以考核被试完全的推理能力、综合运用所学知识的能力、有效的总结能力、严密的表述能力和写作能力和被试的发散思维(或求异思维)能力。 (3)无法测量被试的思维(解题)过程。 (4)被试可以凭猜测而选中正确答案。3编写原则 (1)题干意义完整并能表达一个确定的问题。(2)题干简明，尽量不使用过于复杂的字词与语句结构，也不要使用过长的语句。(3)题

27、干尽量不使用否定结构。(4)诱答项应具有似真性。使用学生共同的错误观念或过失来作为诱答项。以学生惯用的模糊性用语叙述诱答项。在正确选项和诱答项中使用同样“精确的”、“重要性”等词语来叙述。诱答项的长度和措辞的复杂性与正确选项相似。在诱答项中使用额外的线索。如固定的用词，具有科学味道的答案，以及和题干有语义上的联系等。保持选项之间的同质性。(5)不能对正确答案有任何暗示 (6)同一测验中每一个测验试题之间应相互独立避免牵连 (7)选项的文字表述，力求简短精炼。 (8)应尽量避免“以上皆是”、“以上皆非”的选项 (二)是非题是非题又叫做二项选择题，它通常是给被试一个句子要被试作出正误

28、的判断。1、优点: (1)编制容易。 (2)记分客观，取样广泛。缺点: (1)仅能测量知识层次中最基本的结果，无法测量高层次的学习结果。 (2)受猜测因素的影响很大。 2编写原则 (1)考核的内容应是重要的知识，应有考核价值。 (2)题目应多是测量理解能力，而不应测验记忆性的知识，更不要直接抄录教科书中的句子。 (3)一个题目中只能有一个中心问题，或一个重要概念，避免两个以上的概念在同一题中出现。 (4)试题应做到是非界限分明，用词准确，避免模棱两可的语句。 (5)题目陈述应简单明了，避免使用复杂的句子结构，以减少因被试的阅读能力而对测量产生的不良影响，应尽量采用正面叙述，避免用否定和双重否定

29、的语句。(三)填空题 1、优缺点：填空题可用来考查被试对知识的记忆和理解能力，在诊断性测验中特别适用。受被试猜测的影响小，评分比较客观。但填空题偏重于测量被试的知识记忆程度，使用过多容易养成被试死记硬背的习惯。2、编制原则：（1）题意要明确、限定要严密，使空白处应填的答案是唯一的。 (2)空白中所填写的应是关键词语，并且要和上下文有密切的关系 (3)题目中空白地方不能太多，以免句子变得支离破碎，不利于被试理解题意。通常一个填空题不应超过两个空白。(4)尽量将空白放在句子的后面或中间，而不要放在句子开头。(5)所有空白处的线段长度应当一致，不能随正确答案文字的多少而长短不一，以免产生暗示作用。(

30、6)若答案是数字，应指明单位和数字的精确程度。 (四)简答题 1特点简答题适合测量被试对基本知识、概念和原理的掌握、记忆情况。编制较为简单、灵活，可以从不同角度、不同方向考虑，增大对知识考核的准确度和深度，并且不受猜测因素的影响。但其无法考核综合、分析、评价等高层次的教学目标;且评分也不够客观，有不同程度的正确或部分正确的答案而影响评分的客观性。 2编制原则： (1)问题的叙述要明确，要确实能使被试用简单的语言来回答。 (2)问题的答案应该只有一个，并且答案要简短具体。 (3)避免出只考机械记忆的题，应注重知识的应用。 (4)在考查某公式的应用时，不要给太复杂的数字，以免给计算带来麻烦。 (

31、5)尽可能使用直接问句来提出问题。二、主观性试题的类型及其编写要领 (一)论述题论述题就是向被试提出问题，需要被试用自己的语言组成一份较长答案的试题。1、优点: (1)可以用来进行高层次的、复杂的学习结果的测量，可以用在各种学科领域，特别适用于社会科学、人文科学等。 (2)可以增进学生的思考、应用及解决问题的能力，对于被试的学习态度和学习方式可以产生积极的影响。 (3)可以促进学生写作能力的提高。 (4)试题的编制比较容易，并且受猜测因素的影响很小。缺点： (1)由于论述题一般都比较大，在一次考试中试题的数量不可能有很多，因此，其取样范围比较小且不均匀，影响测验的效度。 (2)评分的主观

32、性强。 (3)因被试回答过于自由，回答方向又不尽相同，难于测得预期结果，重点容易失控。 (4)被试作答和评分阅卷都相当费时。 2编制原则: (1)试题应该用来测量较高层次的教学目标。如要求学生提出理由、解释变量间的关系、描述与评价资料、有系统地陈述结论等。 (2)要明确而系统地陈述问题，使被试能清楚地了解题目的要求。 (3)应采用答案具有统一定论的试题。 (4)一般不允许被试选择问题回答。 (5)为避免被试将时间集中在某一个他所不会做的题目上而影响对其他题目的回答，因此而影响考试成绩的真实性，最好在题目中能给出回答本题所需的参考时间。 (二)作文题作文是对人的逻辑思维、形象思维、书面表达等多

33、种能力的一种综合考查。编制原则： (1)根据考试的目的和需要确定考试作文的文体要求。 (2)根据社会的需要、现实生活和学生的实际设计命题。 (3)要根据被试的特点确定选材范围与写作意图，在确定选材和写作意图时，要考虑对所有被试都是公平的，并且试题应符合被试的心理特征。 (4)要给被试以发挥的余地。第四章试卷质量分析与评价质量分析：项目分析：难度、区分度整体分析：信度、效度1、难度的含义：指测题的难易程度，是指题目对学生知识和能力水平的适合程度的指标。用P表示。难度的计算：1、题目分数为二分变量：正确率 P=R/N 答对人数/全体人数适用题型：选择题、填空题、判断题等2、题目分数为多

34、分值：得分率适用题型：填空题、简答题、论述题、计算题、作文题等难度取值范围：0-1之间卷面难度：试卷包含的所有试题难度的平均数。常模参照测验难度取值范围：试题:0.3-0.7之间；卷面:0.5-0.6(0.6-0.7)之间基于难度的题目分析：难度过低与过高的题目原则上要淘汰，但属于必考的知识点,需重新命题,提高命题的难度由于出现科学性错误而导致难度不符，需重新命题命题、内容均无大问题但难度不符的题目需进行详细分析找出原因所在2、区分度的含义：是指测验题目对学业水平不同的考生的区分程度或鉴别能力。区分度的计算方法：1、点二列相关：p为该题答对人数比例；q为该题未答对人数比例为该题答

35、对者总分的平均分为该题未答对者总分平均分为所有考生总分的标准差适用题型：选择题、判断题等例、已知一测验中某选择题的通过率为0.5，答对者的测验总分平均为76分，答错者的测验总分平均为63分，全体被试总分的标准差为16分，求该选择题的区分度。对计算得到的区分度值应该再进行统计检验(根据测验人数，查相关系数显著性临界值表），才能说明试题区分度的高低。2、积差相关：X表示所有被试的测题得分Y表示所有被试的测验得分填空题、简答题、论述题、计算题、作文题等3、两端分组法：D 为鉴别指数 H为高分组在该题的难度L为低分组在该题的难度高分组：总分排序前27%的人低分组：总分排序后27%的人适用范围：

36、被试人数太多时测验的区分度的估计例、10000名，成绩排序前2700名的学生在第三题回答正确的人数为2500人，成绩排序后2700名的学生在第三题回答正确的人数为500人，按照两端分组法计算第三题的区分度。鉴别指数的评价标准：鉴别指数（D）区分度评价0.4以上非常优良0.30-0.39 良好，如能改进更好0.20-0.29 尚可，用时需作改进0.19以下劣，必须淘汰或改进以提高区分度*难度与区分度的关系：没有难度,就没有区分度;试题的难度适中，则区分度较高；难度系数过大或过小，试题的区分度都不会很好。3、信度的含义：信度就是测量结果的可靠程度。也可认为是测量结果的稳定性程度。物理测量

37、有信度，心理和教育测量也有信度。常模参照测验信度的估计方法：重测信度：（1）含义：用同一个量表（或测验）对同一组被试施测两次，所得结果的一致性程度。（2）计算：同一组被试在两次测验上所得分数的相关系数表示。（积差相关或点二列相关）（3）基本假设：测量对象的特质短期内不会随着时间的推移而改变。（4）适用范围：异质性测验速度测验运动技能测验复本信度：（1）含义：用两个平行测验测量同一组被试所得结果的一致性程度。平行测验指试题格式、题数、难度、指导语和施测要求等方面都相同，测量的特质也相同但具体题目不同的两个测验。（2）计算：同一组被试在两次测验上所得分数的相关系数表示。（积差相关

38、或点二列相关）（3）适用难度：难度测验速度测验同质性信度：（1）含义：指测验内部所有题目间的一致性程度，也称内部一致性信度。测验的同质性信度较高，说明测验主要测的是某个单个心理特质，测验结果就反映了该心理特质的水平。（2）估计方法：变分法、库-理法、ALF信度1、分半法概念：将一个测验分成独立的两半后，所有被试在两半测题上所得分数的一致性程度。分半方法：按题号的奇偶分半按题目的难度分半按题目的内容分半估计方法：斯皮尔曼-布朗公式：两半测题，方差相等弗朗那根公式：两半测题，方差不等卢伦公式： 2、库-理法：适用条件：当测验题目全部为客观性试题时，可以用库理法分析测验的内

39、部一致性信度。估计方法：KR20公式：所有测题难度接近 KR21公式：所有测题难度相差较大 3、ALF信度：也称克龙巴赫系数，当测验题目中既有客观性试题又有主观性试题时，估计测验的内部一致性信度为ALF信度。估计方法：例、设某测验包含6道题(既有主观题也有客观题)，用该测验测量5名被试，测量结果如下表，估计该测验的内部一致性信度。解：求所有被试在每个题目上所得分数的方差Si2 求所有被试在每个题目上所得分数的方差之和Si2。求所有被试所得总分的方差Sx2 代入公式计算。影响信度的因素分析：测验的长度; 测验的难度; 被试总体的特征；信度的评估方法; 测验误差。4、效度的含义：效度是测验的准确性,即测验能够测出的欲测属性的程度信度与效度的关系：信度高是效度高的必要而不充分条件；效度高信度一定高; 信度高效度不一定高。

展开阅读全文