基本的英语测试设计和评价能力

一、新时期中小学英语测试与评价的基本要求

《英语课程标准》(实验稿) 指出，测试与评价的三个主要目的是：“使学生在英语课程的学习过程中不断体验进步与成功，认识自我，建立自信，促进学生综合语言运用能力的全面发展；使教师获取英语教学的反馈信息，对自己的教学行为进行反思和适当的调整，促进教师不断提高教育教学水平；使学校及时了解课程标准的执行情况，改进教学管理，促进英语课程的不断发展和完善。”《英语课程标准》(实验稿) 主张建立能激励学生学习兴趣和自主学习能力发展的评价体系，评价体系应由形成性评价(formative assessment)和终结性评价(summative assessment)构成。

《英语课程标准》(实验稿) 建议终结性评价(如期末考试、结业考试等) 要注重检测学生综合运用语言技能和语言应用能力。终结性评价是反映教学效果、学校办学质量的重要指标之一，要客观、科学、全面考查学生在经过一段时间学习后所具有的英语水平。测试应包括口试、听力考试和笔试等形式。《英语课程标准》(实验稿) 同时指出形成性评价是教学的重要组成部分和推动因素。在英语教学过程中，应以形成性评价为主，注重培养和激发学生学习的积极性和自信心。一线英语教师应善于将形成性评价有机地融入教学过程，营造开放宽松的评价氛围，形成生动、活泼、开放的学习气氛。同时应了解和熟悉终结性评价的要求和形式，观察两种不同形式的评价结果，分析和研究两种评价的相关程度，以全面评价学生学习效果并反思教师教学工作。

二、英语测试与评价的主要作用

英语测试和评价在英语教学中的作用和功能，主要有以下六个方面，分别是：

(1)诊断语言程度主要是了解学生现有语言水平，发现和诊断语言学习中的问题，英语中称为“diagnostic test”，如：新生入学后的“摸底考试”。教师可根据测试的成绩和信息，修订或调整教学计划，或根据学生的水平进行分班。

(2)检查学习进度主要是检查和评价学生在某一阶段或某一课程学习中对所学内容的掌握情况，英语中称为“achievement test ”，如：期中考试、期末考试。考试内容应是学什么，考什么。教师可根据学生的成绩，发现问题，制定相应的补救措施，改进教学。

(3)衡量英语水平主要是测量学生英语语言知识和综合运用英语的总体水平，英语中称为“proficiency test”，如：美国的托福考试(TOEFL)。考试内容不针对任何教材和课程。主要用来筛选和选拔人才，试题难易有跨度，以利于区分考生的优劣程度。

(4)预测外语学习主要是预测学生是否具有学习外语的天赋或潜在能力，英语中称为“aptitude test ”。考试不太关注学生已掌握了多少东西，主要关注考生识别、理解、模仿、记忆、归纳和学习一门新的语言的能力。这种考试主要用来帮助选拔人才或选择专业。

(5)激励学生学习前四项作用和功能是四种主要的测试类型。从教师的角度来看测试。还可以再列出一种功能，就是激励学生学习。如果期望学生在英语学习的某一方面有

所进展，老师可以“just test it ”。因为要考试，学生会努力学习，这种考试要做到考试形式容易有趣，语言素材真实实用。

(6)评价教学科研作为教师，除了教学工作外，还会经常做一些教学研究。如：探讨教学方法或教材；研究学生学习的个体差异。要客观地回答我们的研究课题，或验证我们的假设，需要根据考试的结果进行分析和判断。

以上的讨论是从语言测试和评价整个学科的角度归纳的。具体到中小学英语教学，特别是小学阶段的教学，测试和评价工作要重视发挥测试的激励和改进功能，淡化和弱化测试的筛选和选拔功能。

三、英语测试与评价的主要标准

英语测试与评价是检测学生综合语言运用能力发展程度的重要途径。好的语言测试一般应具有五个特征：即，有效性(validity)、可靠性(reliability)、区分性(discrimination)、实用性(feasibility)和教育性，即良好的反拨作用(backwash effect) 。

(1)有效性，(效度) 指语言测试能测出预定要测量的事物的程度，或能够引起预报作用的程度。如：用作文考查写作能力就比用多项选择题有效。用听写考查听力，评分不当，考试有效性就会降低。有效性反映在测试的不同方面，验证有效性要通过多种途径收集数据。如：内容有效(考试内容的代表性，选择内容应广泛) 、结构有效(试卷结构的合理性，兼顾语言内容和技能的各个方面) 、共时有效(现行考试与以往成绩的关系，与教师掌握的情况相比较) 、预测有效(考试

成绩与学生以后发展的关系) 、答题有效(学生答题情况：是否认真，是否作弊) 等。

(2)可靠性，(信度) 指语言测试的测量结果一致性的程度。包括考试的可靠性(稳定一致的程度) 和评分的可靠性(稳定一致的程度) 。

(3)区分性，(区分度) 指某次语言测试能够区分参加考试学生优劣的程度。检验试题的区分度，主要是测算难易度和区分度。如：我们出了50道题，100个人来做。有的题，100人全都做错了，或100人全都做对了，这样的题就是太难了或太容易了。好的试题的难易度在30-70之间。有的题，如果水平好的同学做对了，水平差的同学做错了，这样的题就有一定的区分度。测算的时候，要把学生分为三组，比较高分组和低分组答题的情况。有的题，如果水平好的同学和水平差的同学做对的一样多，就是没有区分度。如果水平好的同学做错了，水平差的同学猜对了，这样的题就是废题，一定要淘汰。

(4)实用性，指实施语言测试的难易程度，投入的人力和财力；评卷的难易程度和解释分数的难易程度。如：大规模考试要考虑便于操作和试卷保密、主观题评分的可靠性等方面。

(5)教育性，即良好的反拨作用，指语言测试对语言教学和学生学习的反拨作用和影响。好的外语测试应对受测者和教育者起正确引导和教育作用。如：国家教育部希望提高学生外语的听说能力和语言运用能力，希望学校方面多花些时间在听力技能教学上，决定在高考中引进听力测试，由此

产生的反拨作用是老师和学生在听力技能方面的重视和投入以及提高。可以看出，这种测试对全面提高学生的语言能力有促进作用，具有教育性。但是，也有一些测试或试题设计的不错，区分度很高，也便于实施，但是，使用不当，对教学会产生副作用，如：外语测试中的多项选择题。由于使用过多，加之部分教师误导，不少同学产生误解，认为学外语就是做多项选择题，多做多项选择题就能学好外语。或夸大测试的功能，把测试成绩绝对化。用模拟考试、做试题冲击教学，替代讲课和练习，把生动活泼的外语教学变成枯燥的应试技巧训练，都是测试负面的或有害的反拨作用。

基本的英语测试设计和评价能力

相关文章