诊断分类模型_测试领域的新工具.pdf

上传人:qwe****56 文档编号:69625745 上传时间:2023-01-07 格式:PDF 页数:8 大小:582.19KB
返回 下载 相关 举报
诊断分类模型_测试领域的新工具.pdf_第1页
第1页 / 共8页
诊断分类模型_测试领域的新工具.pdf_第2页
第2页 / 共8页
点击查看更多>>
资源描述

《诊断分类模型_测试领域的新工具.pdf》由会员分享,可在线阅读,更多相关《诊断分类模型_测试领域的新工具.pdf(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、处适塾堂堡迨量塞壁(旦尘旦:)至Q!生筮2 塑诊断分类模型:测试领域的新工具华东师范大学陈芳2 9 提要:诊断分类模型是以分类为目的模型的总称。它可以充分利用考分直接反映学生的能力状况,符合教育领域以有效的考题信息来辅助教学的趋势。本文撇除数学公式,以简单的语言总结该类模型的要素、种类和常见参数,通过E u n i c eJ a n g 的研究,展示诊断分类模型在语言测试和教学领域的具体运用。研究结果表明,诊断分类模型可以为教学提供有益的反馈,但实际使用价值还取决于教师对模型和结果的认可。本文对诊断分类模型的前景也提出了一些意见和建议。关键词:诊断分类模型;测试;评估一、引言“能力”是一个抽象

2、的概念,无法直接观测。在测试领域,我们通常透过学生的考试成绩,推测学生的能力和进展。经典测试理论的方法是分析总分。通过标准制定(s t a n d a r ds e t t i n g),确定相关分数线。依据这些分数线,学生被分为优、良、中、差等等。学生的进展也只能依照总分的变化作出大致判断。总分反映的信息非常有限。然而,随着教育学科的发展,人们越来越希望测试结果能提供更多、更具体的信息,以改进教学。现代测试理论,即项目反应理论(I t e mR e s p o n s eT h e o r y),可以用来分析每一道考题,但通常假设每道考题只测量一种能力。如果每道题所测量的不止一项技能,运用项

3、目反应理论来分析考题,就不能充分发掘考题价值,获得的信息也会有失精准。诊断分类模型假设每道题可以测量一种或多种技能。依据不同的理论,选择不同的模型,可以从一套设计完好的考题中获取更多信息。具体来说,由于诊断分类模型直接计算每个考生掌握每项技能的概率,因此分析结果更详细,这不仅有利于论证和提高考分解释的效度,而且可以更有效地指导教学。改进教学,需要准确地诊断学生能力现状,制定合理的课程,提供相应辅导,等等。这些需求是诊断分类模型得以发展的主要原因。“诊断分类模型”(D i a g n o s t i cC l a s s i f i c a t i o nM o d e l s),是基于已有测量

4、及统计模型发展起来的,因此很多概念和方法都可以在已有模型中找到(R u p p,T e m p l i n&H e n s o n,2 0 1 0)。本文沿袭R u p p,T e m p l i n 和H e n s o n 的术语,将此类模型通称为“诊断分类模型”(I X;M s)。其他名词,如认知诊断模型(c o g n i t i v ed i a g n o s t i cm o d e l s)、认知测量模型(c o g n i t i v ep s y c h o m e t r i cm o d e l s)、潜在反应模型(1 a t e n tr e s p o n s em

5、 o d e l s)、限制潜在类别模型(r e s t r i c t e dl a t e n tc l a s sm o d e l s)、多元分类潜在类别模型(m u l t i p l ec l a s s i f i c a t i o nl a t e n td a s sm o d d s)、结构定位潜在类别模型(s t r u c t u r e dl o c a t e dl a t e n t c l a s sm o d e l s)、结构项目反应模型(s t r u c t u r e di t e mr e s p o n s et h e o r ym o d e

6、 l s)等,均指同类模型。其中最广为人知的是“认知诊断模型”(缩写为C D M s)。R u p p,T e m p l i n 和H e n s o n 将其正名为诊断分类模型(D C M),是为了避免误导读者认为此类模型只局限于认知心理学。相反,所有D C M 的目的都是为了将被试分类,并提供详细诊断信息,因此可以广泛应用于各个领域。本文将以浅显的语言介绍此类模型的原理、要素及种类等基本概念。随后的案例也将展示诊断分类模型在阅读理论、教学以及考试信度与效度方面的作用。本文的例证为数学及英语测试类,但诊断分类模型的应用远不局限于此。二、诊断分类模型:要素、种类及相关参数诊断分类模型有三大要

7、素:技能(a t t r i b u t e)、Q 矩阵(Q-m a t r i x)和类别(c l a s s e s)。在运行诊断分类模型之前,首先需要确定考C 在这两个模型的缩写中分别代表“认知”和“分类”。但D C 强调的是目的(分类)。A t t r i b u t e 是不可观测的潜在特征,类似其他模型的“属性”。此处翻译为“技能”一词以揭示这个抽象概念与Q矩阵的直接关系。万方数据3 0 试所涉及的技能。技能在D C M 文献中特指考题所测量的所有潜在技巧、知识点、能力等。一套数学题可能用来测量四项技能:加、减、乘、除,但其中一道数学题可能只涉及两项技能:加和减,另一道题可能只涉及

8、乘和除。第三道可能涉及所有四项技能。一套词汇题可能考到三个考点:语音、词形和语法,但不是所有题目都必须同时考到这三个知识点。然而所有考题所涉及的技能和知识点都囊括在技能的定义内。技能的定义可宽可窄。细致的定义意味着技能分得越细,考点更具体,但对考题的样本大小和质量要求更高。技能定义的宽窄,应由考试的目的和实际可操作性来决定。Q 矩阵是技能的具体数学表达。Q 矩阵指明完成每一道考题所必需的技能。这是D C M 模型发挥诊断作用的核心步骤。在Q 矩阵中,必需的技能标为1,不需要的标为0。这些信息随后会用于模型的运算过程中。表1 是一套只有三道题的数学考试的Q 矩阵。考试总共涉及四项技能,Q 矩阵则

9、详细列明正确回答每一道题所必需的技能。题1 要求加减法两项技能,但不需乘除,因此加减法被标为1,乘除法被标为0。题2 要求减法和乘法两项技能,但不需加法和除法,因此减和乘标为1,加和除标为0。题3 要求加减法和除法,但不需乘法,因此加减除法标为1,乘法为0。题目加减乘除1:34-5 4=?11002:(4 1)x 2=?01103:6 8 4+9=?1101表1Q-m a t r i x 举例Q 矩阵应建立在以往理论和研究的基础上,在考试设计之初确定,以引导考题的制作。但目前此类考题并不多见。现有的D C M 的应用案例中,Q 矩阵往往是后期赋予原本不是设计给诊断分类目的的考题。但无论起初的设

10、计如何,最终的矩阵都是通过专家判断,并遵循模型最简化原则(p a r s i m o n y)和识别原则(i d e n t i f i c a t i o n),结合实际分析结果,反复调整以获得。应用部分的例子解释如何结合定性以及定量的方法来后期赋予Q 矩阵。类别总结了所有被试个人掌握或未掌握每一项技能的模式。同一类别的被试拥有同样的档案模式(p r o f i l e),即彼此之间掌握或未掌握同样的丛适夔堂堡迨皇塞壁(些婴)2 Q!生箜至翅技能。D C M 同许多其他测量模型不同的是,它分析的是离散型(d i s c r e t e),而不是连续型(c o n t i n u o u s)

11、的潜在变量。它的目的是作出二元性的决定(掌握或未掌握),而不是像项目反应理论那样用一个数字来体现学生在一个连续性能力量表上的相对位置。D C M 对于每一个学生的分析结果,是对应于一系列技能的一系列概率,这些概率构成档案模式。每一个概率描述学生掌握某项技能的可能性。概率高于6 0 的技能,被认为是该生已经掌握的技能,概率低于4 0 的技能,是该生还需努力的技能。如果对应某一技能的概率在4 0 和6 0 之间,通常的解释是,此样本数据无法提供该生掌握或未掌握该项技能的准确判断。这个概率区间被H a r t z(2 0 0 2)和J a n g(2 0 0 5)定义为不确定区间。类别和档案是D C

12、 M分析的结果,这些分析结果则为个人层面的干预措施提供依据。定义技能(a t t r i b u t e)和Q 矩阵是D C M 的第一个重要步骤,第二个重要的步骤是选择合理的D C M 模型,结合已定义的Q 矩阵来分析实际数据。这一步同第一步一样涉及主观判断,需要充分的理论依据或实验证据。本文主要介绍6 种最基本的模型及其适用环境,其他模型请参看L e i g h t o n 和G i e r l(2 0 0 7)及R u p p,T e m p l i n 和H e n s o n(2 0 1 0)。六种基本模型的全称及缩写如下:1)D e t e r m i n i s t i cI n

13、 p u t,N o i s yA n d G a t e(D I N A)决定性输入并有噪信道;2)N o i s yI n p u t。D e t e r m i n i s t i cA n d G a t e(N I D A)有噪输入并决定性信道;3)N o n C o m p e n s a t o r yR e P a r a m e t e r i z e dU n i f i e dM o d e l(N G R U M)o rF u s i o nM o d e l 非互补性重新参数化联合模型或融合模型;4)D e t e r m i n i s t i cI n p u t

14、,N o i s yO r-G a t e(D I N O)决定性输入或有噪信道;5)N o i s yI n p u t,D e t e r m i n i s t i cO r G a t e(N I D O)有噪输入或决定性信道;6)C o m p e n s a t o r yR e P a r a m e t e r i z e dU n i f i e dM o d e l(C R U M)互补性重新参数化联合模型根据所测量内容的相关理论,所有的D C M模型可以分为两类:互补性(c o m p e n s a t o r y)和非互补性(n o n c o m p e n s a

15、 t o r y)。如果理论认为学生此表仅做举例用。一套只有三道题的考题无法提供信度和效度俱佳的信息。万方数据处堡麴堂堡途皇塞壁(旦点婴1 2 Q!生笙至塑需要掌握某道题所有必需的技能才能正确回答这道题,此时的正确模型是非互补性D C M。在这种理论框架和模型下,学生如果缺乏任何一项必需的技能,将无法正确回答这道题。无论其他技能多么娴熟,都不能弥补另一技能的不足。这种模型被认为适用于数学技能的测试。以表1 为例,无论一个学生的加减法多么熟练,如果不会乘法,他将无法回答类似题2 的问题。D I N A、N I D A 和N C-R U M 都是非互补性模型。相反,如果理论认为不同的技能都可能带来

16、正确的回答,或技能之间是互补的,此时的正确模型是互补性D C M。在这种理论框架和模型下,学生在某一技能上的卓越能力将弥补他在另一技能上的不足,因此也意味着两个掌握了不同技能的学生能正确回答同一道题。在实践中,这通常被解释为学生运用了不同的策略来应对同一问题。这一模型可以适用于外语阅读能力测试(下文的案例使用的是非互补性模型)。两个不同的学生都可能正确回答一道阅读题,但其中一个可能依靠的是他强大的词汇量,而另一个依靠的是他优异的推理判断能力。D I N O、N I D O 和C-R U M 都是互补性模型。根据D C M 的区分功能,以上模型还可以重新分类。学生们可能都没有掌握某道题所要求的所

17、有技能,但掌握了甲技能的学生,正确回答该题的概率可能比掌握了乙技能的学生高。根据区分功能的强弱,D C M 模型可以分为三个级别。D I N A 和D I N O 只能将掌握该题要求的所有技能的学生,和没有掌握所有技能的学生区分开。N I D A 和N I D O 不仅能将这些学生区分开,还可以将那些没有掌握该题要求的所有技能的学生彼此问区分开,也就是能判断每一项技能对同一题目的不同影响。N G R U M 和G R U M 模型最为强大,因其不仅具备以上功能,还能进一步假设同一技能在不同题目上的影响力不同。比如表1 中三道题目都涉及到减法,但出于某种原因,减法对第一题的影响可能会大于它对第二

18、和第三题的影响。N G R U M 和C-R U M 模型能检验这类现象。各类模型都是用Q 矩阵和学生的回答作为输入,通过运算产生一系列参数。所有这六种模型都具备一些共同的参数,比如有关题目质量的区分度(d i s c r i m i n a t i o n)、有关技能难易的难度(d i f f i c u l t y)以及包含在个人档案报告(p r o f i l er e p o r t)中的掌握每项技能的概率等等。D C M 模型通常还包括一些其他常见参数,比如失误3 1(s l i p p i n g)和猜测(g u e s s i n g)。学生可能实际上已经掌握所有技能,但因其他原

19、因答错。s l i p p i n g参数捕捉的就是这类信息。相反,g u e s s i n g 参数则用于捕捉猜测行为。基于常识,这两个参数被加上一个秩序限制(o r d e rc o n s t r a i n t),即猜测值永远小于1 减去失误值。也就是猜对某道题的概率永远小于正常发挥而回答正确的概率。由于各类模型的功能和定义不同,大部分参数的具体涵义通常也有所差异。Q 矩阵、技能的定义以及模型的选择,通常是理论依据和统计数据双重作用的结果。在这个意义上,D(、M 是一个将理论和实际联系起来的测量模型。这种将两者结合而产生的分析结果,具有更高的信度和效度。对于分析结果,即模型所产生的参

20、数,研究人员和考题开发者比较关注的是题目质量和技能难易度。测试人员和被试则更关心个人档案报告。这些档案报告总结每个被试的具体能力现状,可以用来制定目标、准备干预并监控被试的成长(档案报告的样本请参看应用部分)。诊断的目的是为了干预。在教育领域,测试的一个重要目的是改进教学。如何运用诊断结果改进教学,是另一个复杂的问题。下文的案例详细介绍诊断分类模型的具体操作和运用,研究结果也体现该类模型对于阅读测试和教学的作用。三、诊断分类模型在语言测试和教学领域的应用测试对于教学的影响显而易见,良好的教材和教学计划,可以提高能力培养的效率,而良好的模型,可以从测试结果中发掘更多的信息以指导教学。以下以E u

21、 n i c eJ a n g(2 0 0 5;2 0 0 7)的阅读测试研究为例,介绍一个D C M 模型融合模型(F u s i o nM o d e l)的实际运用。融合模型又称N G R U M,属于非互补性模型,假设学生必须掌握所有相关技能才能正确回答各题。l、背景T O E F L 是美国教育测试服务中心(E d u c a t i o n a lT e s t i n gS e r v i c e,E T S)设计的一项针对国际学生的英语能力测试。这项测试旨在帮助北美大学了解申请入学的国际学生的英语能力,随着语言理论研究的发展,用多项选择题的方式测试语言能力,尤其是写作和口语能力

22、,越来越受到质疑。为了更准确地反映考生的语言能力,1 9 9 3 年,T O E F L2 0 0 0 项目开始试验新题型,包括直接测试写作和口语。2 0 0 5 年9 月,T O E F L正式使用新题型。新T O E F L 全称N e x t万方数据3 2 G e n e r a t i o nT O E F L(以下简称新托福)。为了帮助师生了解考分的含义并相应改进教学,E T S 还制作了一套名为L a n g u E d g eA s s e s s m e n t(L a n g u E d g e)的教材,用于各类语言培训项目和考试辅导班。L a n g u E d g e 包

23、括两套2 0 0 2 年在全球1 5 个国家3 2 个考点使用过的新托福实地试验考题。E u n i c e 的研究使用参与实地试验的2 7 0 3位考生的新托福答卷,以及四个考前辅导班共4 8位师生使用L a n g u E d g e 教材前后的评估结果。新托福测量听、说、读、写四项语言能力,但此项研究专攻阅读。E u n i c e 的研究回答4 个问题(J a n g,2 0 0 9:3 9):1)融合模型所产生的第二语言阅读能力档案是否准确?2)融合模型所产生的能力档案有哪些特征?3)L a n g u E d g e 阅读考题能提供何种程度的有价值的诊断信息?4)教师和学生如何评价

24、并使用以上诊断结果?新托福本身并不是设计用来诊断各项具体技能的考试,但E u n i c e 指出,由于使用D C M 模型分析考题的目的旨在提供有益教学的诊断信息,而L a n g u E d g e 是将新托福考题作为教材来辅导考生。两者都是为了提高教学效率,用途一致,因此运用D C M 模型分析新托福合情合理。此研究只试用了融合模型。如果选用其他D C M 模型,第三和第四个问题的回答可能因此有所不同。这是这个研究的局限性。2、融合模型的应用融合模型用于分析参与实地试验的2 7 0 3 个学生的答卷。分析结果之后,用来诊断2 8 个使用L a n g u E d g e 教材的被试的各项

25、技能掌握程度,及建立辅导前和辅导后档案报告(p r o f i l er e p o r t)。通过对比这些被试的档案与被试的自我评价及对其老师的调查问卷结果,可以判断新托福阅读考题的诊断准确性。同所有D C M 模型的要求一样,运用融合模型的第一步是确定新托福测量的所有具体技能。E T S 提供了考题设计时的综合技能列表,但因学生实际运用的技能可能与设想不同,E u n i c e 结合诊断分类模型最适于分析以诊断为目的的测试。处煎塾堂堡迨量塞壁(旦土兰里1 2 Q!生箜至塑其他一系列方法以确定考题实际所测技能(a t t r i b u t e)。这些方法包括分析1 1 位学生的有声思维(

26、t h i n k a l o u d),参考5 位专家的意见以及评估模型拟合度(g o o d n e s s o f-f i t)和相关参数。经过反复调整,最终确定这两套考题实际测量的是以下9 项阅读能力(J a n g,2 0 0 5:1 1 3):1)通过上下文判断词义;2)脱离上下文判断词义;3)理解句子间单词和词组的语法关系;4)理解文章明确表达的信息;5)理解文章隐含或转述的信息;6)推论作者的意图;7)基于文章内容判断正误;8)区分主要和次要内容或细节;9)发觉主要矛盾并能在概念框架中组织对比。因为新托福设计之初并未具体指定每道考题所涉及的技能,Q 矩阵在这个研究中也是后期赋予

27、的(r e t r o f i t t e d)。最终的定义,同样是建立在上述方法之上反复调整而成。两套考题的最终Q矩阵显示,以上每一项阅读技能至少有4 道考题考到。其中一项在9 道题中考到。技能和Q 矩阵确定之后,考生的回答(r e s p o n s e)和Q 矩阵一起输入A r p e g g i o 软件进行运算。考生的回答同项目反应理论中一样赋值(c o d e)。正确的回答标为1,错误的回答标为0。对2 7 0 3 位考生答卷的分析决定了所有考题的相关参数,即考题难度、区分度等。基于这些参数,参加辅导班的学生的能力测量简化为数据代人,即将已获得的考题参数和这些学生的回答输入融合模型

28、的定义公式中,直接计算他们掌握每项能力的概率。最后的个人报告样本见图1(J a n g,2 0 0 9:7 2 7 3):这位名叫M a r g o 的考生的档案报告表明,M a r g o 掌握了技能1 和2 但没有掌握技能3,4,5,7,8 和9。报告还表明,这套考题不能提供足够证据判断该生对于技能6 的掌握情况。关于技能6还需其他方式来做进一步的判断。这些信息清晰、直接地反映了学生的阅读能力。老师和学生可以利用这些信息查缺补漏,改进阅读教学。万方数据处适熬堂堡鲨皇塞壁!旦卫:2 2 Q!生箜呈塑一一A p p e n、d。i x、蠢A 1 一S 1 a m p 1l e S k i。l

29、l P 1m a l e。R 1、e p。1 0 r t l 译a r“t。西3 3苎塑堂竺!坐堡!墅!堡垒竺鳇!塑塑堕!些坚!翌竺型型竺塑塑!壁!R 毒v i e wY o u rA n 钟e 堪O m m 1 憎I2 3 4 S 67 墨9I Oi l1 21 31 41 51 6 1 71 暑1 9 2 I2 2 2 32 42 32 62 72 S2 9 3 i3 23,3 43 53 63 1r w r寸_ 一2VI4V 寸-J,22-J_q寸2_一可32 35tVl 4 V。V3 尝C r _,J 岍2,2 3,3IlI4 4 32,4,62 3 2I3 2 3 4 2 4Il 鼬

30、4 2 2 3 3l2 22 I 髫n 鞠k 由雄th置曩hhmmhm墨墨融mthm 世瞳豫ehmeetmhmhI m p r o v eY o u rS k i l l sj-d,S-擅S m7t I 口睡l m,g m 5 H t,s m 2g k 瞳lS k i l lm i n a t o r ys t a m d i a gH _ t o I l t t 哪w I t S k i l l M m t m,0o 5t r d 岫m t yMt I t m m m t n m lA p p e n d i xA:AS a m p l eS k i l lP r o f i l eR e

31、p o r t 伊_ nl|)D i a g n O s i s掌州l 量f y 舢m 端d 衄砸删E I l 毗铷蛹酗E x a m p l e鄹峨霾曝l l 融c r i p b$Q m e s t l e mU a d e m m d t h e 嘲脚峰o f w G r t 童蕾t h r u m 碲蝴岫蛔a n d 捌岫硼嘲蚺鹕t e x t 枷吲雌c o;洲td 嘲q 孽岫g i a g t e t e 吐W i t h 岫s k a l,y o u 傩函曲崮咄w h k h o p 畦o n w e a l o f p h r u e l u r e 血e c l m e s t

32、3 3,“,茸。t 3,I I瑚_ d 矗t t o t h e*m O t o r s t m 嘲d e d 嘲矗雄姆m 蜘鞭o f d u a 螂甲_ 血0 ht e t t,D m m m k w e n t m e a m m p 谤i 蝴w h i c h 咖蝴d 甜鼬k t h e d m e s t m m t q t t o t h e 叫轴阻。耐2w e*d e,p l u m e h 她懈L 和t 州d 獬妇酗鲥嘲雕珊洫缸蝌W l m 蛐y o u e m9 2 t1 0,2 兔l 置2 k7瞄乒曲刚缸哪埘曲0 驴坩脚h _ 蜊脚蠢w 翻曲岍C 呻叩I 曲嘲d 擘糊岫峨l

33、玮的岫i o f 删喇曲甜拍蝴蝴瞄辅啊髓磷粒蛐筒t W i t h 矗i 搴趟I I y o u 雠3胡蛐w o l 由甜蚺黼-柙埔妇棚棚斯幻母o:曩幽母嘣砷僻嘴辚m e m b e i n s e t t e d3,2 氛1 2,3 6,稍m a 撒b 豳d 盯护嘲岫-i l 埘舯确嘶t h e t E x L2,2 2,2 4S e a r c h a 端_ 蝴啊i 抽泌t 埘岫喀哦脚d k _ 姥弗I 稍髓l 面和咄吐腿击辩i 摹d a y 罩蛳d 缸也e 雠2 薯I l l,,嘶l 薯鼍争幸W o g l lo r p h m m 孟矗缸娜t i 瑚。妇瑚哺出括呻w 蚰w 雕由e r

34、p h r l u 瞄姊弹啦i n t h e t 棼l e v m t 辨湘对媳篝珥毽恤t e x t 2 毛-45 e a a 盎c 哪弹喇时p h 窖a n d l o c a l e g e l e v m t 砌细蝌岫I 她U 矗啊岫曩螂6 d i u t h e t e x t w a r 出叫曲蜘瞄p5妯缸堆呲I d o a o t n-t 砧h l 蛔一舡衲血瞧蛳h t h e 峨t 轴也镡辩掣蛐哺嘲i n d i f k s e a t w o r d s 簟p 幽牲t 3 舐置赫W i t h 蚰躺I 嬲湖缸鲫蛳妯=i c h 嘲眦喇鲥嗍雕槲懈她洲$i n t k d 沁o

35、 嘲甲啼k 耐蛐霉掣I 删o r a l i d e a 盎啦k 佃棚b u t n m e x p l i c i t l y#m x l i n t h e t 簋t O R t h e a a e u s,s 击鼬删?6辨t p _ o f m 喇t i 画 锥弘商啡l 封曲糟尊j 矗螂正w i t h 磕i 晕,k a l,y e a t u i e f e r i 枷m t h a t 鸳蛔一i 耐钿3 l,t+2 3,埚曲蛐蕾咖颤。删眦t h e 删时t 删卿峨州辫e o f 滴埤峨妇婶辩蜥蛳2 墨2 1 l,。越S 目睇h 州如鼬婶l e 蝌钿蠡哪h i 触m S t h e 啦

36、l 簟d d e t e r m 泌w h a t i a 自棚曩如n 培w e e 隹n o t t r e e W i t h,7她蚰氐辨啪帅砌虚蛳趣咄w 鼬涮柚岫蛳嘶蜘嘲h t h e 辫举甜懒嘶k e y2 2,t 盈,5i m e r m t t m 妇增掣曲怫$1 t t e dq 豳螂(o r 甲稿由噼争8哦稚簟柚嘲何i 酗_ b y 岫t h e m 奇嘲螂瑚嘲蹦岫“蛆榭#蹿嘲硼也麟薯姐坶僦蝴叫钟抽蛔h 触蛔瓣嘲枷钟崦岫抽釉t e x t t 土暑t T,2 是2 0R。唪嘶删钟嘲确乜I n d 姊m 螂即喇埘黼鹎搠驴阻W 如t h i s 嘲U y o u 湖喇甲r 幽蚺d

37、缸,9删影“嘲咄强o f 曲噼自旺_ 蚯酿d 蠢蛳伽哪釉哪恤e 衅I 两稍蛳秘褥出赫蛳舯端a 瑚嘲睫e 转陋瞳啦Q t 3 7,。3 5岫螂删嘲酬触d m m m 衅嘞棚嘲吣酾蕾删图1 个人档案报告样本l器量。lI万方数据3 4 相关性分析可以用来评估融合模型对于考题分析的准确性。在这个案例中,所有的相关分析都证明,基于融合模型的分析结果很准确。比如,总分越高的学生掌握的技能越多;掌握每项能力的概率与所有考核了该项能力的考题总分成正比;考生对自己能力的评价与档案报告中技能掌握的概率成正比;掌握了某项技能的考生的答题正确率,高于没有掌握该项技能的考生的答题正确率。基于5 个学生的个案调查还显示,

38、总分相同的学生所掌握的具体技能可能彼此完全不同,也就是他们的档案报告彼此不同。传统项目反应理论很难将这些学生区分开,但由于诊断分类模型可以提供每一个学生关于每一项技能的档案报告,因而可以轻而易举地将他们区分开。档案报告的这个特征,充分体现了诊断分类模型相比其他测量模型的优势。诊断分类模型的目的是为了促进教学,为教学提供宝贵的信息反馈。这些信息的实际使用价值,可以通过对教师和学生的调查问卷、面谈和观察来评估。E u n i c e 在她的研究中,将辅导前和辅导后的两次考试的结果都通告师生,并通过上述方法进行调查评估。结果表明,大部分学生认为基于诊断分类模型的档案报告比较准确,比较有用。教师们也认

39、为,档案报告有利于提高学生的元认知意识,并改进教学。但调查结果也表明,档案报告的作用受到教师的教学法和课程的限制。四、总结E u n i c e 的研究是笔者知晓的最完整的诊断分类模型的应用,它清楚演示了如何后期赋予Q 矩阵、分析考题、评估模型结果、汇报考分,以及追踪诊断信息的使用情况。诊断分类模型对于测试各个阶段的作用也得到了体现。比如Q 矩阵的确定过程和模型评估可以验证阅读理论的正确性,模型参数可以用来检查考题质量,诊断结果可以帮助师生了解学生个人的成就和不足。然而,诊断分类模型的局限性也显而易见。如果考题本身不是以诊断为目的,后期赋予的技能和Q 矩阵定义稍显牵强,诊断结果因此易受质疑。互

40、补性或非互补性模型之间的选择也容易引起争议。这一切都说明所有定义和选择都应该基于理论基础,在考题设计之初确定。这不仅有关考分解释的效度,也有利于指导考题的制作。而且这些过程应处适塾堂堡迨兰塞壁(丝兰里2 垫!生笠2 翅该结合考题设计者、学科专家和考题使用者的共识,以使诊断结果更准确。否则,诊断结果无法发挥作用,D C M 模型也就失去意义。诊断分类模型大规模投入使用还有许多障碍。其中之一是软件的缺乏。缺乏简便易操作的软件,通常会限制新模型的推广和应用。由于D C M 模型参数众多,需要较大样本才能取得信度较高的结果,而越复杂的模型,对运算的要求越高,再加上目前许多模型的具体参数定义也不相同,这

41、一切对软件开发带来了挑战。R u p p,T e m p l i n 和H e n s o n(2 0 1 0)从无限制潜在类别模型(u n r e s t r i c t e dl a t e n tc l a s sm o d e l s)角度出发,用逻辑线性认知诊断模型(L o g l i n e a rC o g n i t i v eD i a g n o s t i cM o d e l i n g L C D M)的方法统一了四种常见诊断分类模型的定义,对促进软件开发具有正面意义。在L(、D M 框架下,其他已知背景信息(p r i o ri n f o r m a t i o

42、n)和参变量(c o v a r i a t e)也可以加入模型,以进一步提高诊断的效率。利用现有软件(比如M _ P L U S)的已有功能来实现不同的D C M 模型的要求,也是一项有意义的研究。这类研究已初有成就,感兴趣的读者可以参看R u p p,T e m p l i n 和H e n s o n(2 0 1 0)。作为一个新模型,与之相关的未知和待解决的问题和概念也会不断出现。比如诊断分类模型意义下的平行测验(p a r a l l e lt e s t s)、考卷等值分析(e q u a t i n g)、学生成绩追踪分析(1 0 n g i t u d i n a la n a

43、 l y s i s)、项目功能差异(D i f f e r e n t i a lI t e mF u n c t i o n i n g)、题库建设(i t e mb a n k i n g)、计算机辅助测试(c o m p u t e r-b a s e dt e s t i n g),等等。诊断分类模型意义非常,它的发展会带来教育测量和教学领域的进步。但无论如何,它只是众多模型中的一种,同所有其他模型一样都有一些假设前提。如果假设不成立(比如Q 矩阵有错),模型的结果就会有极大局限性甚至毫无意义。因此作者必须指出,所有基于考分结果的决策方针,都不能简单建立在一个模型之上。了解各个不同模

44、型的优缺点,取长补断,多方验证,才是正确的行为。参考书目:H a r t z,S M 2 0 0 2“AB a y e s i a nf r a m e w o r kf o rt h eu n i f i e dm o d e lf o ra s s e s s i n gc o g n i t i v ea b i l i t i e s:B l e n d i n gt h e o r yw i t hp r a c t i c a l i t y”U n p u b l i s h e dd o c t o r a ld i s s e r t a t i o n,C h a m p

45、a i g n:U n i v e r s i t yo fI l l i n o i s(下转第2 8 页)万方数据2 8 曼视域之上的本雅明,外语教学理论与实践第1 期。赵稀方,2 0 1 0,红与黑事件回顾中国当代翻译文学史话之二,东方翻译第5 期。朱波,2 0 1 0,偏爱与契合村上春树的翻译思想,外语丛道墼雯堡迨复塞壁(旦占壁:)2 Q!笙箜2 塑教学理论与实践第4 期。(通讯地址:2 1 0 0 3 9 江苏省南京市板桥南京国际关系学院)F r o mD i s c u s s i o na b o u tT r a n s l a t i o no fL eR o u g ee

46、ta l eN o i rt ot h eD i s p u t eo v e rL i n ST r a n s l a t i o no fM u r a k a m i:T h ee s s e n c eo ft h et w ot r a n s l a t i o nc o m m e n t a r ye v e n t sb yZ O UD o n g l a i,Z H UC h u n y uA b s t r a c t:T h i st h e s i sm a d eac o m p a r i s o nb e t w e e nt w om a j o rt r

47、a n s l a t i o nc o m m e n t a r ye v e n t sw h i c hc a u s e dm a j o ri n f l u e n c e si nt h ec o n t e m p o r a r ye r a O n eo ft h e mi st h e1 9 9 5d i s c u s s i o no fC h i n e s et r a n s l a t i o no f L eR o u g ee ta l eN o i r”,t h eo t h e ro n ei st h ed i s p u t eo v e rH

48、a r u k iM u r a k a m i St r a n s l a t i o nb yL i n B yc o m p a r i s o n,w ef o u n do u tt h a t,a l t h o u g ht h et w ot r a n s l a t i o nc o m m e n t a r ye v e n t sh a dd i f f e r e n to r i g i n s,c o n t e x t sa n db a c k g r o u n d s,t h e yw e r ei ne s s e n c et h ed i s p

49、 u t eb e t w e e n“l i t e r a lt r a n s l a t i o n a n d l i b e r a lt r a n s l a t i o n”K e yw o r d s:X uJ u n;H a r a k iM u r a k a m i;L i nS h a o h u a(上接第3 4 页)J a n g,E E 2 0 0 5“Av a l i d i t yn a r r a t i v e:E f f e c t so fr e a d i n gs k i l l sd i a g n o s i so nt e a c h i

50、 n ga n dl e a r n i n gi nt h ec o n t e x to fN GT O E F L”U n p u b l i s h e dd o c t o r a ld i s s e r t a t i o n,C h a m p a i g n:U n i v e r s i t yo fI l l i n o i s J a n g E E 2 0 0 9“C o g n i t i v ed i a g n o s t i ca s s e s s m e n t0 1 2r e a d i n gc o m p r e h e n s i o na b i

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 财经金融

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁