《语言测试的分类(共11页).doc》由会员分享,可在线阅读,更多相关《语言测试的分类(共11页).doc(11页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选优质文档-倾情为你奉上第二章 语言测试的分类语言测试的分类决定着测试的形式,题目的类型。语言测试大体上可以从用途、构建、考察重点、评分方式、对测试分数的解释等方面进行分类。正如Henning(2001)指出的,语言测试有多少个目的,就会有多少种测试类别。语言测试的分类能够帮我们弄清“为什么测试?” 、“测试什么?”、“怎样测试?”等问题。对于语言测试类型的了解能够帮助教师更有效地组织测试,更好地实现英语语言测试的信度和效度,更科学地根据测试的目的权衡信度、效度之间的关系。第一节 以测试用途为标准的分类从测试用途角度进行分类,大致可以将语言测试分为五种测试形式,即水平测试 (proficie
2、ncy tests)、成绩测试 (achievement tests)、分级测试 (placement tests)、潜能测试 (apititude tests)和诊断性测试 (diagnostic tests)。1. 水平测试 (proficiency tests)水平测试是用来测量人们的某一语言能力,往往与被测试者先前所受的语言训练无关。水平测试多针对于来自不同学校,不同国家,不同语言背景的受试者,因此水平测试与他们过去的学习内容、课程目标、课程大纲等没有直接联系。这里的水平更强调以某一特定目标为基础的,对于语言的充分驾驭。水平测试的目的之一是用来选拔。这种选拔可以是为某一工作岗位进行的招
3、聘,此时的测试目标着重于受试者能否胜任某一工作,测试内容往往与这一工作中的实际场景相关,如联合国译员考试。这种选拔也可以是升学选拔,此时的测试内容是向前看的,如测量学生是否具有足够的语言能力来跟上大学中的课程和学业,如美国的托福考试,英国的剑桥英语水平证书测试(University of Cambridge Certificate of Proficiency in English)等。大多数试题内容来自国外大学本科生教材。升学选拔水平测试在范围上有所区分,有的只是针对于大学中某一具体专业,如艺术专业;而有的则是针对于所有专业,如牛津EFL考试。现以雅思考试为例对水平测试做一具体说明。雅思即国
4、际英语水平测试(International English Language Testing System),简称IELTS。IELTS的考试中心遍布全球105个国家。考试可分为两种类型,学术类和培训类。学术类IELTS(Academic IELTS)适合于计划申请报读国外高校本科或研究生课程的考生,专门测试考生是否具备一定的英语语言能力完成本科或研究生课程。因此如果计划出国留学深造或接受高等教育,应选择学术类IELTS考试。普通培训类IELTS(General Training)是针对去英语国家完成中学教育,学习非学位培训课程,以及赴加拿大、澳大利亚、新西兰等国移民定居的人员,主要测试在一般
5、的社会和教育情景下的基本生存技能(basic survival skills)。因此如果计划完成初级教育,接受非学术类培训,工作或移民到英语国家,应选择培训类IELTS考试。IELTS考生需要参加听力、阅读、写作和口语四项测试。每项测试不同的技能。听力要求考生理解日常生活中的口语和非正式场合的口语,比如在讲座,研讨时使用的口语,雅思的听力部分就是测试考生在这方面做得如何;阅读部分主要考察考生从许多信息来源中快速、准确地收集找到主要信息的能力,此部分主要针对日后学习中常面对的问题,即在学习中没有时间阅读书单上所有的书。写作部分测试考生在收集和组织信息后,以文章或报告的形式表述想法的能力;口语部分
6、测试考生谈论自己的情况,表达对各种问题看法的能力。总之,雅思的所有考试都面对今后学习中常出现的情况,即在时间紧迫的情况下寻找信息,快速思维,并恰当地做出反应。我国的水平测试主要是全国公共英语等级考试,教育部和许多单位派遣出国留学人员的标准之一就是通过全国公共英语等级考试的第五级。水平测试往往事关重大,因此在水平测试试卷的设计上一定要有信度和效度。很多水平测试都往往委托于专业的考试机构。同时水平测试的出题机构应广泛吸收应试者的见意,使水平测试具有正面的“回波效应”(backwash effect)。2. 成绩测试 (achievement tests)成绩测试用来测量学生对于所学知识的掌握,与所
7、学课程直接相关,目的在于评价学生个体、小组或班级在学习目标实现方面的成功度。成绩测试一般包括:终结性成绩测试(final achievement tests)和进程性成绩测试(progress achievement tests)。终结性成绩测试在学科结束时进行。试卷命题一般由年级组、学校教务部门、教育部官方命题机构等负责。考试内容与教学内容相关。就考试内容而言可分为基于教学大纲的内容模式和基于教学目标的内容模式。前者的考试内容多数是学生所熟悉的,但问题在于如果大纲设计不合理或教材选取不当,考试结果将会误导师生。例如,某一课程目标是发展学生的口语能力,但是课程本身和测试内容是要求学生在充分的准
8、备下发表对家乡、对天气的看法,那么测试结果就不能反映出学生是否达到了课程目标所要求的程度。基于教学目标的内容模式使测试内容与课程目标直接相关,其优势在于首先使课程设计者更精细地描述目标;其次使测试结果更好地反映学生是否达到了课程目标所要求的程度;同时对于大纲的制作和教材选择有更好地规范作用。Hughes认为:“它能为个人和群体的成绩提供更精确的信息,并为教学提供更有益的回波效应(backwash effect)”(Hughes 2000:11)。终结性成绩测试的试题一般是主观性和客观性试题相结合,试卷制作较为规范。每学年的期末考试、我国的中考及高考,严格来说都应属于终结性成绩测试,因为这些测试
9、都是以教学大纲为内容的测试,并且试题多是检验学生对已学知识的掌握。进程性成绩测试,顾名思义,是测量学生在学习过程中的进步。对于进程的衡量可以通过建立短期目标来实现。教师多采用突击测验的形式来检查学生的学习进程,并使学生时刻保持警觉。因此进程性成绩测试的试卷制作相对不太严格,每一份试卷都具有其独特性,并且多根据具体任课教师对班级成员的了解及其自身制定的阶段性目标为命题依据。进程性成绩测试作为一种有效的测试方法,能够对教学和学习动机产生有益的回波效应。好的进程性成绩测试能够鼓励学生学习目标语言并获得自信,还能推动学习并巩固已学知识。成绩测试方法应当与教学中所使用的方法相一致。例如,教学中使用的是交
10、际能力教学法,那么成绩测试的方法也应为交际能力测试方法而不是结构主义测试方法,否则就会导致考试不公平的问题。近年来对于标准化试题的争议多源自于测试方法与教学方法的分歧。目前,自我评估(self-assessment)测试方法逐渐融入到成绩测试中。所谓的“自我评估测试方法”就是鼓励学生参与到评估中,能对自己在不同情景中所表现出的语言能力给予评价。3. 分级测试 (placement tests)分级测试是根据学生的不同能力将学生分为不同的等级或不同的班级。分级考试的试卷设计应当量体裁衣,即在分级测试前要弄清不同级别的主要教学特点,然后根据这些教学特点设计具体的测试内容。分级测试的试题难度应包括不
11、同难度水平的题目,即遍布从最简单到最难题目的两极之间。对于百分制的测试而言,最好以10分为一个段,每个分数段都有学生,以便于分班。分级测试符合现代教育理论所强调的因材施教,即针对不同水平的学生采取不同的教学方法和教学内容。但是分级测试也应考虑学生的心理承受能力,避免挫伤学习者的学习积极性。分班分级所导致的压力不仅影响到学习能力较弱的学生,也会影响到尖子班里的优秀生。心理学研究表明,压力大造成的过强学习动机反而会使学习者心情过分紧张、焦虑、影响记忆理解能力。因此如何恰当地使用这一测试方法,还有待于进一步的探讨。4. 潜能测试 (apititude tests)语言潜能测试也叫做预测性测试(pro
12、gnostic tests),是通过衡量学生在一门陌生语言中的语言表现,以预测其是否有学好这门语言的潜力。语言学习潜力受到多方面因素的影响,如智商、年龄、动机、记忆力、语言敏感度和语法结构敏感度等。语言潜能测试与之前所学的知识无关,很多情况下是学生以前从未接触过的语言。一些专家认为在实际操作中不太可能对应试者的语言潜能进行全面的测试,因此多数测试只是衡量考生某一部分的潜能如听、译领域的潜能。词汇测试常被认为是有效的潜能测试方法,因其与智商紧密相连并且能反应出应试者对这一领域的兴趣。测试语言多采用人工语言,多关注音位区分能力和系统运用语言结构的能力,潜能测试题目数量较多,如The Modern
13、Language Aptitude Test。5. 诊断性测试 (diagnostic tests)诊断性测试用来识别学生在学习方面的优势和劣势,从而确定未来的教学走向。诊断性测试较关注于学生在哪些方面犯了错误,并借此找出补救的办法。从广义上说,诊断性测试可以帮助改进教学,调整教学计划,进行个别指导。现行课堂中采用的诊断性测试多是教师根据教学重点、难点及本班实际情况自行进行的小测验,从而及时发现学生的问题,尤其是普遍性问题,以此给教师提供依据,对前一阶段的教学进行反思,对今后的教学给予指导。这种诊断性测试得分应在平均80%以上,以鼓励学生的学习。“诊断性测试可以作为形成性评价的组成部分,将一个
14、学期的试卷存入学习档案就会使学生清楚地看到自己的学习进展情况”(武尊民2008:32)。这种课堂上的诊断性测试,从本质上来说,与成绩测试尤其是进程性成绩测试相吻合。正如Heaton所说:“尽管诊断性测试的术语被广泛使用,但几乎没有什么测试是只被做为诊断性测试而构建的”(Heaton 2000:173)。成绩测试和水平测试经常被用于诊断性测试之中。原因在于,从大的方面,例如从语言技巧的角度而言,一套综合性试卷就可以帮助我们判断某一学生在听说读写译五个方面哪个方面最强,哪个方面最弱。在写作和口语方面,在现有的成绩测试和水平测试中,我们也可以根据测量标准,很容易地判断出学生在写作或口语中较弱的方面,
15、例如词汇匮乏,或是不能较好地使用连接手段等。但是对于非常具体的内容,现有的测试手段和模式很难构建出真正具有诊断性特征的测试内容。例如,对于语法方面的考察,就缺少真正意义上的诊断性测试。假设我们想诊断学生是否具有对某两种相似语法结构或时态进行区分的能力,那么数量太少的题目尤其是选择题则不能实现诊断的信度和效度,因为样本过少则不能排除运气及猜题之嫌。此时的样本应尽可能的丰富,并应包含每一种它们能够实际应用的情景。但是,大量的样本之需常常使试题出题人和使用者避而远之。那么,是不是因此就要遗弃单纯的诊断性测试呢?显而易见,诊断性测试本身的意义就已否认了这种观点。尤其是在现代社会,人们大力提倡终生学习,
16、自主学习。诊断性测试对于自主学习的意义是巨大而又明显的。对于这种矛盾的解决方法就要向计算机系统寻求帮助了。第二节 以测试构建为标准的分类从测试构建的角度进行分类,英语语言测试可以分为直接测试(direct tests)和间接测试(indirect tests)。换句话说,这种分类形式取决于测试者是想直接地测量语言实际运用能力,还是想间接地反映出某种语言能力。1. 直接测试 (direct tests)当某一测试使应试者精确并直接地表现出我们想要测量的能力时,那么该测试就被视为直接测试。直接测试的结果能够直接反映应试者在某一方面的语言能力。如我们想考察学生的写作能力,就可以让他写一篇作文。再比如
17、我们想考察学生的语音语调,就可以让他读一小段文章。直接测试较适用于产出性的语言技能,如阅读和写作。直接测试的优势在于:首先,如果我们很清楚想要测量的语言能力有哪些,那么就可以相对直接地创造出相应的情景,使考生产出的行为在该能力所要求的行为范围之内;其次,对于产出性技能,很容易直接地给予评估和阐释;此外,对于直接测试的准备则会督促考生多次训练相应的技能,对教学和学习有很好的回波效应。直接测试的选材要求尽可能真实,最理想的考试环境应当是现实中的实际环境而非人为策划出来的交际环境。因此这也是直接测试的瓶颈所在。因为任何的现行的直接测试从本质上来说都不可能是完全真实的。McNamara(2003)曾举
18、过这样的例子来说明这个问题,在为移民健康从业人员进行的英语口语测试中,所设置的对话、角色扮演都发生在医生和患者之间,场景相对真实,但是显而易见这种行为本身并不存在,医生并不是真正地在向患者提供服务。McNamara进一步引用一位著名作家的话来解释这一点,即“每个人都意识到评估口语能力的对话只是一种测试而不是真的发生在茶话会上(tea party)”(McNamara 2003:9)。Henning也曾指出:“许多语言测试都应被视为自然场景(natural-situational)到非自然策划场景(unnatural-contrived)所构成的连续体(continuum)当中的一点”(Henn
19、ing 2001:5)。因此,测试的直接性只是相对而言,例如口语中的采访形式要比完形填空直接;语境化的词汇测试要比同义词匹配自然直接。就信度和效度而言,直接测试效度好而信度差。直接测试能更为直观地反映出考生的语言能力,接近真实生活中的语言表现,因此效度好。但是由于直接测试的题目往往是主观性测试题目,因此评分所具有的主观性相对较高,导致其信度较差。直接性测试要避免场景构建失真,同时要注意简化的评分方式也会影响有价值的直接语言能力数据。2. 间接测试 (indirect tests)间接地观察言语行为的测试称为间接测试。间接测试的结果不能直接反映语言能力,但是可以提供判断语言能力的信息。Lado在
20、1961年提出了间接测试语言能力的一种方法,即让学生判断所给出的词汇中哪些词汇可以构成同音词汇对。这种题型在我国初、高中英语测试中广泛应用,即给出一个词,然后让学生从四个选项中选出一个与所给出词汇发音相同的词。间接性测试的优势在于适用范围较广,并且其结果也更具概况性。但问题在于如何判断某一能力的构成成分,这些构成成分的测试分数是否能够真正反映出考生对该能力的掌握程度。在实际操作中,如语法知识的考察中,间接性测试只能从语法单项中进行取样测试,考试结果只能反映所取样的内容,而不能说明所有语法知识的掌握程度。间接性测试与直接性测试相比较效度差,但信度高,这主要是由于间接性测试多采用客观性试题。对于直
21、接性测试和间接性测试的选择受成本效益、信度和效度等因素的影响。第三节 以考察重点为标准的分类John. B. Carroll(1961)首先提出了分立式测试(discrete point tests)和综合性测试(integrative tests)之分。这两种测试的差别在于考察重点的不同。1. 分立式测试 (discrete point tests)分立式测试是将知识和能力分成若干小的单元,然后一项一项地进行测量。因此分立式测试具有诊断性的意义。分立式测试受到结构主义理论的影响,即语言有许多成分组成,掌握一种语言就是要掌握这些组成成分。分立式测试的每个题目一般只考查一个语言点,而且多采用单项
22、选择的形式。例如:Before the first non-stop flight was made in 1949, it _ necessary for all planes to land for refuelling.A. would be B. has been C. had been D. would have been (1996年1月CET-4:25题)这道题主要考察如果before引导的时间状语从句是一般过去时,那么主句的时态应为过去完成时态。分立式测试试题应避免在单项选择中设置两个以上的考点。例如: Research findings show we spend about
23、 two hours _ every night, no matter what we _ during the day.A. dream, must have done B. dreaming, should have doneC. dream, would have done D. dreaming, may have done对于这道题,学生如果答对,则可以判断出学生掌握了spend sth doing sth的用法,同时又掌握了虚拟语气中may have done的用法。但是如果答错,则很难判断学生知道什么不知道什么。2. 综合性测试(integrative tests)综合性测试用来
24、同时测量学生的多种语言能力,需要考生综合多种语言能力来完成某一语言任务。因此综合性测试不具有诊断性的意义。综合性测试是一种较为流行的测试形式,包括无选项完形填空、听写、口语面试、写作、记笔记、翻译等例如:PETS5级第二部分中的英语知识应用部分就属于综合性测试。这部分采用无选项完形填空的形式,在一篇250-300词的文章中留出20个空白,要求考生根据短文内容填空,使补全后的文章意思通顺、前后连贯、结构完整。其中约有12题考查语法和语段结构,8题考查词汇。考试大纲中明确了这部分的考查目的,即该部分不仅考查学生对诸如连贯性和一致性等语段特征的辨识能力,还考查学生对用于一定语境中规范的语言成分的掌握
25、,这些规范的语言成分主要是词汇和语法结构。现举一小段为例:Mrs. Thomas believes that the _ between older and younger writers is _ too dramatic to be accounted for simply by the possibility that people get better at writing as they grow _. She attributes it to a failure to teach the most effective methods, pointing out that the d
26、ifferences between _ groups coincides with the abandonment of formal handwriting instruction in classrooms in the sixties. “The 30-year-olds showed a huge range of grips, _ the over 40s group all had a uniform tripod grip.”(全国英语等级考试考试大纲第五级 1999:27)考生要得分就必须首先读懂文章,因此会使用一定的阅读技能。考生要对文章所处的语境有一定的背景信息,在填空的
27、过程中,考生要考虑所填词汇的形式,与前后文的搭配,还要考虑整篇文章的逻辑结构,连接手法等。考生还要掌握介词短语、转折词汇等的使用方法。在此段中,考生只有明白上文意义才能做出正确的判断。第四节 以评分方式为标准的分类Pilliner(1968)指出,按照试卷评分方式的不同,英语语言测试可分为主观性测试 (subjective tests)和客观性测试 (objective tests)。1. 主观性测试 (subjective tests)主观性测试和客观性测试的区别在于评分方式的不同。主观性测试需要评分人对答案做出观念性判断,这种判断往往基于评分人的经验和所受过的相关训练。主观性测试的题目主要
28、有简述题、翻译题、作文、口试等。但这些题目在主观性的程度上有所不同,例如自由写作比基于阅读的简答题明显具有更高的主观性。主观性测试由于需要评分人做出主观性的判断,因此在信度上明显稍差。一篇作文,让不同的评分人去评阅,就会出现不同的分数,甚至相差很多的分数,这主要是由于评分人的观点、知识背景等各不相同。信度是主观性测试一直追求的目标。实现主观性测试的信度主要要考虑以下几点:对评分人给予足够的培训。主观性测试的评分人最好要有相关的经验,在每次评分前,都要针对本次测试的主观性试题进行培训,以熟悉试题内容、评分标准。同时还要进行试评,每轮试评后,应对每一位评分人的评分结果进行分析,如果某位评分人的分数
29、总是与标准分数相差甚远或不符合标准,则应不再使用该评分人。以雅思为例,根据IELTS评分、分数报告和解释,对于受考官主观性影响较强的写作和口语考试部分,IELTS官方强调:考官均须按照已制定的明确标准进行及培训,且须每两年接受检验证明其评分符合标准。在评分初始,就要确定可接受的答案,考试结束后应该立即选样。例如作文测试,应当选取不同层次的样本,供评分人进行讨论,当所有评分人意见一致后,才可以进行大规模评阅。对于简述题、翻译题等,考试结束后也应当立即选取一定数量的样本,在试评中应注意把握不准是否给分的语言点,尤其是共性的问题,然后进行讨论订立标准,并告知所有评分人引起他们的注意。使用多名独立评分
30、人。一般来说,对于主观题应至少有两名独立评分人,两人应在不知道对方所给分数的前提下进行各自的评分,最后由他人汇总两位评分人的分数,进行比较。如果相差太大,则退回重评或交予权威专家进行评判。避免给予应试者过多选择的权利。在主观性测试中,应避免让考生从一系列题目中选取某一题目回答。例如,在写作中提供多个题目,让学生从中选取一个题目进行写作,这只会干扰测试的信度,并有不公平之嫌。主观性测试的效度较好,因其能够直接地考查考生的语言应用能力,同时命题相对简单。但是主观性测试对考生的回答内容缺少控制,尤其是当考生掌握了一些语言策略之后。比如在口语考试中,考生可能会采用迂回策略来避免使用自己不会的单词或表述
31、方法。因此就无法判断考生是否已掌握了某些测试所要考查的内容。主观性测试需要较多的人力和物力,因此更适用于小规模测试,如班级测试等。对于大规模测试,则应根据具体情况安排好主观性测试试题的数量,使主观性测试题目数量适当,避免过多。在实际教学中,很多教师不太清楚主观性测试具体的题型,认为只要是写单词就是主观性测试题。教师应当对此进行有效的区分才能保障试题的效度和信度。教师应当明确主观性试题应涉及学生的语言产出,应当使学生展示实际运用语言的能力。武尊胜等人在1999年对长江以北地区初中毕业、升学考试英语试卷进行评价时就发现一些自认为主观题占到40%的试卷实际上一个主观性试题也没有。“有的安排在书面表达
32、部分的题目,实际上只是控制性写作题目,留有10个空,让学生在读了短文之后填写”(武尊胜2008:27)。由于该题目不涉及语言产出,应属于客观性试题。因此,教师有必要学习此方面的知识。2. 客观性测试(objective tests)客观性测试是指不需要评分人主观判断、答案唯一或固定的测试形式。客观性测试不需要对评分人进行培训,也不需要评分人的专业性判断,甚至直接使用阅卷机就可以完成阅卷工作。客观性测试的典型题目是单项选择题。但是单项选择题不是唯一的客观性测试题型,单词拼写、动词填空、正误判断、配伍题等都是客观性试题。客观性测试内容较为广泛,比较适合分离式测试。但这也使客观性测试只能间接反应考生
33、语言能力,同时加强了考试内容取样的主观性。客观性测试效度差,它往往只要求考生涂卡、打钩等,答题存在猜测性因素,无法考察考生的实际语言应用能力。客观性测试信度好,唯一或固定的答案保持了评分标准的准确性。客观性测试能够对语言点有所控制,阅卷省时省力。但有一点我们需要注意,客观性测试并不是完全客观的,决定考点的过程、制作试题的过程本身就是主观的。很多教师倾向于使用单项选择题,认为出题容易,评分省力。但事实上单项选择题的命题十分困难,并耗时耗力。单项选择题由题干、答案和干扰项组成,每一个项目的编写都要求命题人精心地考虑。单项选择题要符合多种条件,如每一个单选题都应只有一个答案,每道题只能测试一个语言点
34、,每个选项放入题干中都能保证语法正确,这看似简单,但实际做起来却很难。对题干内容也有很多要求,如,题干必须准确,不可有无关的、混淆所测试问题的内容,否则考生就无法明白题干,无法做出选择,也就无法判断考生对所要测试的问题的掌握程度。此外,能放到题干中的词就不能在选项中重复出现。干扰项则要求即不能太难,又能起到干扰的作用,此外还要保障考生只能通过直接选择来回答,不能通过排除等手段来答对。对于客观性试题的争论一直都有,Fry曾经用这样的一段话来批评客观性测试中的单项选择题:“所谓猩猩的分数(orangoutang score)就是指一只训练有素的猩猩在标准化阅读测试中所得到的分数。一只饥饿的猩猩被放
35、在了配备长方形窗户和四个按钮的小笼子里,来接受这样的训练,即每次当阅读教师将工整打印的阅读测试单项选择题放在长方形窗户上时,大猩猩如果想要得到香蕉,所要做的就是任意地按任何一个按钮。这些按钮上都分别标有A、B、C、D四个字母”(Fry 1971:360)。当然这是对客观性测试尤其是单项选择题的极端看法。Heaton(Heaton 2000:26-27)曾就客观性测试的两种误解进行了澄清,他认为第一种误解源自于客观性测试的外观形式,从这个角度看,客观性测试似乎很简单。但实际上并不简单,出题人不仅需要选择和构建试题项目,而且还要分析学生在每一项目上的表现,并且据此重新书写项目,直到测试具有广泛的区
36、分辨别能力(discrimates widely)。第二种误解是认为单项选择题鼓励猜题。Heaton认为选项的数量可以有助于降低猜题的几率,此外从经验上来说,即使考生在回答时有猜题的行为,但是这种猜测大多是基于所掌握的部分知识。第五节 以对测试分数的解释为标准的分类不论举行任何测试都是有目的的,测试结果可以用来反应这一目的。常模参照性测试(norm-referenced tests)和标准参照性测试(criterion-referenced tests)正体现了对于测试结果进行解释的不同参照标准。1. 常模参照性测试(norm-referenced tests)所谓“常模”,刘润清认为:“常模
37、是指一群类型相同的人在一类考试中的成绩,这个常模一般用该考试的平均分与标准差来表示”(刘润清 2000:13)。因此,常模参照性测试是指对同一次测试的结果进行比较,参照考试目的与要求设定合格分数线。合格分数线的设定主要以平均分数为依据。现以四、六级大学考试为例,自2005年6月起,大学英语四、六级考试的原始分数在经过加权、等值处理后,参照常模转换为均值为500、标准差为70的常模正态分数。四、六级考试报道总分计算公式为:公式中X表示每个考生加权、等值处理后的原始分数,Mean表示常模均值,SD表示常模标准差。常模正态分数的特点是能够报道考生在常模群体中所处的百分位置。如某考生四级报道总分是55
38、0分,则根据大学英语四级考试(CET-4)报道分数百分位对照表,可判断其在常模群体中的百分位是76%,表示这名考生的英语成绩优于常模群体中76%的人。如某考生六级报道总分是600分,则根据大学英语六级考试(CET-6)报道分数百分位对照表,可判断其在常模群体中的百分位在87%92%之间,表示这名考生的英语成绩至少优于常模群体中87%的人,但不会优于92%的人。 常模参照性测试以与其他考生的分数进行比较来衡量某一考生的成绩,确定其在全体考生中的位置,因此常模参照性测试适用于选拔性测试,我国比较重要的考试大都是常模参照性测试,如中考、高考、研究生入学考试等。常模参照性测试的选拔性目的决定了其独有的
39、特点,从命题角度而言,命题内容覆盖面宽,命题难易度离散程度较高,有助于拉开分数段;分数主要采用百分或标准分数的形式。常模参照性测试的优点在于对于大多数考生来说较为公平,因为通过考试与否的标准是以与其他考生公平竞争的结果来确立的,尤其是中国学生比较习惯于这种测试模式,他们较习惯于从自我位置的确定中找到前进的目标。常模参照性测试的不足在于常模的效度往往受到受试人群的影响,常模随着受试人群的变化而变化。其次,学生在常模参照性测试中的表现不能直接说明其在语言中的实际表现。此外,常模参照性测试的回波作用有待商榷,在实际操作中,如果大多数学生没有通过考试,那么责任往往推卸给试卷内容,而不是首先考虑教学目标
40、和教学质量是否出现了问题。2. 标准参照性测试(criterion-referenced tests)Carrol, Cronbach, Glaser在1963年发表了三篇论文,提出了标准参照性测试的概念。与常模参照性测试不同,标准参照性测试在考试之前就已经预先定好了衡量标准,然后根据这些标准来判断学生是否通过和不通过。在标准参照性测试中学生的表现并不取决于与其他学生所做的比较。标准参照性测试根据考生能否令人满意地完成某些任务来划分档次。例如,雅思中的学术类作文考试,如果某一学生得到6分,那么与这一分级对应的写作水准如下:(A)在任务完成方面,达到写作任务各项要求、能确切选择有用信息进行全面评
41、述、呈现并强调主要特点或要点,但细节可能与要点无关、不恰当或不准确。 (B)连贯及衔接方面,信息和分论点安排连贯,论证过程清楚,有效使用衔接手段,但句内或句间衔接有错误或显机械呆板,有时指代不清晰或不恰当。 (C)词汇量方面,相对写作任务而言,所运用的词汇量充足,尝试运用非常见词汇但有时出现错误,拼写和构词出现一些错误,但不影响交流。 (D)句式多样性及语法准确性方面,混合使用简单和复合句,语法和标点出现一些错误但基本不影响交流。 同样在口语部分,考官会以流利度及连续性,词汇内容丰富性及语法标准性与语音作为评分标准。如果一名考生得到6分,那么他已达到的相应的口语标准如下:(A)流利度及连贯性方
42、面,愿意进行详细描述,但有时因重复、自我更正或停顿而造成不连贯,运用不同的连接词和语篇标记但有时不恰当。 (B)词汇方面,尽管有时词汇运用不恰当,但词汇量足以详细表述主题,表意清楚;总体上能成功地变换措辞进行复述。 (C)句式多样性及语法准确性方面,混合使用简单和复合句式,但不够灵活;经常在使用复合句式时出错,但很少因此给理解带来障碍。(D)语音方面,总体能听懂,偶尔因发音错误给听者理解造成负担。再比如,全国公共英语等级考试,也是根据国际英语测试规范设定的标准参照性测试。共设五个等级。其试题难度不以考生群体的水平差异为转移。“PETS的各级考试大纲对级别定位等有关标准都给出了尽可能详尽的文字描
43、述,并详细、具体地列出了交际话题、功能意念、语法项目、语言技能和词汇等,这对规范命题、考生应考和教师辅导有着实际的指导意义”(全国英语等级考试考试大纲第五级 1999:前言2)。各级别都对语言知识和语言运用的能力做出了描述,现以PETS五级的语言应用为例。PETS第五级考生应具备的互动、接受和产出能力如下:(1) 互动能力能够就广泛的社会问题以及在学术和专业方面用英语与外国人交谈,且其语言符合英语的文化习惯。能积极主动地参加学术研讨或导师主持的课堂讨论。(2) 接受能力能够听懂英文讲座、学术发言、讨论或争论,同时还能听懂英文广播节目。能够分析性、评议性地阅读,并从具体目的出发确定有关资料的价值
44、。(3) 产出能力能够较好地写出专业文章,诸如科研论文、试验报告、并能准备实用性文件。在学术研讨中,能够清楚地表达或论证与自己学科相关的内容。标准参照性测试与常模参照性测试相比较具有以下优势:首先,它以实际语言要求为标准确定衡量标准,从而更倾向于直接反映并描述语言能力;其次,标准参照性测试能够激励学生实现标准。考生以事先确定的标准做为目标,不用担心自己比别人差,就一定会被淘汰。标准参照性测试不以淘汰多少考生为目的;此外,标准参照性测试与教学目标紧密相连。考生的表现可促进课程、教学方法、教学目标的改进。标准参照性测试的缺点在于:首先,考试内容范围狭窄,只涉及标准规定的内容;其次,考生不能够通过与
45、他人比较知道自己在考试人群中所处的地位。尤其对于好学生而言,缺少获得更高成绩的动力;此外,标准的设定难免有随意性之嫌。Popham曾指出:“对于这类测试,信度(reliability)和效度(validity)的评估技术才刚刚开始,因此大多数情况下,仍不能清楚某一考试,从科学的角度来说,是不是具有信度和效度”(Popham 1978:15)。在美国,标准参照性测试受到了普遍的欢迎,除了上述提到的原因外,一个很有意思的原因是标准参照性测试避免了对于学生人权的违反。Guy, Chambers曾指出,常模参照性测试构成了对学生人权的违反,因为在这种考试中学生的排名被公开发表,会使学生感到羞耻。Woo
46、d在评估与测试:研究综述一书中写到了常模参照性测试所涉及的法律问题,在美国,尤其是在佛罗里达州(Florida),法院听取了一系列的标准参照性测试违反人权的案件,但法院判诉讼人败诉,这也许是鼓励标准参照性测试的一个有意思的例子。第六节 语言测试的其它分类除以上谈到的测试类型,近年来比较流行的测试还包括交际性测试(communicative testing)和计算机辅助测试(computer-assisted testing)。1. 交际性测试(communicative testing)自从Hymes提出了交际能力理论,语言教学开始注重学生交际能力的培养,因此交际性测试也就应运而生。Hymes
47、的语言交际能力框架由possible(可能)、feasible(可行)、appropriate(恰当/得体)、done(完成)组成,换句话说语言能力不仅包括语言知识(词汇、语法知识)而且也包括交际能力,即有能力使用这些语言知识来得体地完成交际任务。之后Oller在70年代中期提出“单一语言能力假想”(unitary competence hypothesis),即“这种假设认为语言水平(language proficiency)是一种单一能力(single unitary ability),而不是分立的技能(skills)和成分(components)”(Bachman 2006:48)Oll
48、er的这一理论提倡完形填空这一测试项目。Canale 和Swain将交际能力定义为“语法能力(语法规则的知识)和社会能力(语言使用规则的知识)的相互作用与相互关系”(Bachman 2006:49)。此后他们又将策略能力(strategic competence)列入交际能力中,所谓的策略能力是指“用来弥补交际中断(breakdowns)的言语(verbal)和非言语性(non-verbal)的交际策略,交际中断由行为变化(performance variables)或能力不足(insufficient competence)引起”(Bachman 2006:50)。1983年Canale又将话语分析能力纳入交际能力中,Swain在1985年提出了交际语言测试的四条概括性准则即从高处而言集中于内含偏倚最好部分有助于回波。1995年Bachman对语言能力进行了概括,即语言能力包括组织能力(organizational competence)和语用能力(pragmatic competence)。组织能力二分为语法能力(grammatical competence)和语篇能力(textual competence);语用能力二分为施为能力(illocutionary competence)和社会语言能力(sociolinguistic competenc