高中英语怎么讲解试卷分析的（高中英语试卷讲评方法及步骤）

感谢您关注“永大英语”！

高中英语阶段性测试试题的诊断功能分析

杨聪聪罗晓杰

摘要：本文以Z省H市某高级中学2016-2017学年高二段六次英语阶段性测试为研究对象，从试题难度、区分度和诊断性三个视角，分析六次测试的诊断功能。通过数据统计和文本分析，本研究发现：该校英语阶段性测试中难度最大的题型为写作题，难度最小的是听力题，难度指数能反应班级的学习情况；区分度最高的是完形填空，最低的是选句填空，试卷的总体难度稍稍偏低但区分度良好，主要区分中下水平和低水平的学生；主观写作题的诊断性较强，能反应学生对当前阶段所学语言知识和语言能力的掌握情况；总体上，该校英语阶段性测试的诊断功能发挥一般，有待改善。基于以上发现，本文提出几点相关建议：适当提高阶段性测试中听力题的难度，改善阶段性测试中选句填空的区分度，在阶段性测试中增加诊断性强的主观题型，以期能发挥高中英语阶段性测试的诊断功能。

关键词：阶段性测试；难度；区分度；诊断性

一、引言

英语测试是评估学生英语综合运用能力的重要手段，命题质量直接关乎到考试能否准确测量学生的英语综合运用能力。阶段性测试是普通高中英语常规测试之一，能够诊断学生现阶段的英语学习效果，为将来的英语教学指明方向，属于诊断性测试。然而，目前许多普通高中的阶段性测试命题大多模仿高考，采用高考题型，使得阶段性测试失去了对教学的诊断功能，削弱对教学的反驳作用。鉴于此，本文拟通过分析高中英语阶段性测试试题的难度、区分度和诊断性这三项重要指标，对高中英语阶段性测试试卷进行质量评估，揭示普通高中阶段性测试诊断功能发挥的现状，为高中英语阶段性测试命题和英语教学提供科学的依据和参考。

二、阶段性测试的诊断功能

阶段性测试是检测学生阶段学习状况的重要手段，是高中英语常规测试之一。英语阶段性测试能够通过诊断学生现阶段的英语学习效果，为后续英语教学提供反馈信息，具有较强的诊断功能，属于典型的诊断性测试。因为诊断性测试是用于了解学生在学习过程中存在的问题，从而补救教与学的不足的一类测试（舒运祥, 1999: 41; Heaton, 2000; Hughes, 2000），可以为后续教学提供以下反馈信息：①整个班级的学习情况；②哪些学生达到教学目标，哪些学生未达到教学目标；③达标学生的强项和未达标学生的薄弱项（Gronlund, 1985; 舒运祥，1999）。

难度适中、区分度高、诊断性强的阶段性测试具有较强的诊断功能。首先，阶段性测试一般难度适中，能诊断整个班级的学习情况。如果试题太难和太简单，则不能诊断出学生是否理解和掌握某些语言知识与技能；其次，阶段性测试的试题一般会具有良好的区分度，能区分出英语综合运用能力良好、中等和欠缺的学生层次，区分已达标和未达标的学生；再者，阶段性测试的试题一般具有较强的诊断性，能诊断出达标学生对现阶段所学的语言知识和语言能力的掌握情况，并暴露出未达标的学生的知识与技能缺陷。在英语测试中主观性试题的诊断性较强（舒运祥，1999），常见的题型有改写句子、阅读理解填词、写作等（郭旭红，2009）。

三、相关概念界定

（一）难度

难度是指试题的难易程度。试题的难度指数P是反应试题难易程度的量化指标，通常以试题的答对率或得分率表示（见图2.1.1）。在英语考试中有两种计分法：间断计分法和连续计分法（顾玲玲，2010）。当试题属于客观题（答对得分、答错不得分）时，采用间断计分法，以试题的答对率（答对题目的人数/参加考试的总人数）来表示难度指数P，常见题型有听力、阅读理解、选句填空、完型填空、语法填空等；当试题属于主观题（按照学生答案酌情给分）时，采用连续计分法，以试题的得分率（试题平均分/试题满分）来表示难度指数P，常见题型为写作、翻译、简答题等。

P值介于0和1之间，P越大，试题越简单；P越小，试题越难。当试题难度指数接近1或0时，将出现全部答对或全部答错，导致学生间的个体差异消失，试题的区分度丧失。一般认为，试题难度指数介于0.3-0.7比较恰当，难度指数低于0.3时属于难题，难度指数高于0.7时属于容易题。平均难度指数为0.5左右时试题的区分度最高，能准确、有效地反应学生当前阶段真实的语言水平，能够充分发挥试题的诊断功能，并充分发挥测试的反拨作用，以测试结果为依据改进英语教学。（顾玲玲，2010；吴珍珠，2011；张璐，2012）

（二）区分度

试题区分度是指考试试题能将不同水平的学生区分开的程度，即试题的鉴别能力，通常以区分度指数D来表示（见图2.2.1）。根据成绩样本数量n的不同，通常有两种区分度指数的计算方式，都表示为各题得分与试题总得分的相关系数：当样本数量n小于30时，区分度指数通过等级相关系数来计算；当样本数量n大于30时，区分度指数通过积差相关系数来计算（廖云霞，2008）。

D值介于-1到1之间，D值越大，试题的区分度越高。测量学家伊贝尔（Ebel，1965）认为，0.3为D值的分界线， D值高于0.3时区分度较好，D值低于0.3时区分度低，试题需要改进甚至淘汰（吴彬等，2002；廖云霞，2008；顾玲玲，2010；吴珍珠，2011；张璐，2012）。

具有良好区分度的英语试题，对于学生的英语综合运用能力有着较高的鉴别，其良好的鉴别表现为：(1)能够有效地测量出学生所掌握的英语综合运用能力；(2)在该题目上，英语综合运用能力水平高的学生能得高分，英语综合运用能力水平低的学生得低分；（3)学生在该题目上的得分高低，与其对整个试卷所得总分的高低，基本上是一致的。试题的区分度越高，越能将学习者按其真实水平区分开来，则试题的诊断性越强。

（三）基于难度指数和区分度指数的试题类型划分

1998年，余仁胜以研究生入学考试数学试题为研究对象，基于难度指数和区分度指数将试题划分为六大类型，各类型试题的特征和考核功能不同，其中适宜难度指数为0.3-0.8。但研究发现，英语试题中常见的四选一的选择题存在猜测成分，难度指数介于0.63-0.69最为合适（Nitko，1983，转引自顾玲玲，2010:6）。因此，本文参考余仁胜的分类并结合英语试题的特殊性，将适宜难度指数区间改为0.3-0.7,重新划分分析框架（见表3.3.1）：

根据难度指数和区分度指数不同，英语试题可划分为六大类。I 类题难度太大且区分度低，除在英语竞赛中可以出现外，一般阶段性测试中不宜出现这类试题。II类题难度适中但区分度低，试题的诊断性不强。此类题多数情况下是试卷中的多项选择题（如选句填空），需要改进。III类题太容易，是所谓的“送分题”，只起到提高考生平均成绩的作用，但区分度低，不适用于阶段性测试。IV类题难度较大，但具有较高的区分度，能够区分分数较高的学生，在英语阶段性测试中通常为考察学生较高层次能力的写作题. V类题难度适中，区分度较好，阶段性测试试卷中此类试题应占较大的比例。VI类题难度较低，但对于分数低的考生有一定区分度，常用于阶段性测试中甄别未达到教学目标要求的考生。综上，以上六类试题中IV、V、VI三类试题适用于英语阶段性测试，其中V类题的诊断性最强，能准确区分出英语综合运用能力良好、中等和欠缺的学生层次。

四、研究设计

（一）研究内容

本文的研究对象是Z省H市某高级中学2016-2017学年高二段六次英语阶段性测试，具有诊断功能。英语试题共有六大题，共计150分，分别为听力（30分）、阅读理解（25分）、选句填空（10分）、完形填空（30分）、语法填空（15分）和写作（40分），前五题属于客观题，写作题为主观题。本研究选取年级小题分和X班小题分两个样本，年级样本容量均大于600，班级试样本容量均大于40，通过对六次测试的难度、区分度和诊断性的分析来评价该校阶段性测试的诊断功能。根据本文的研究目的，提出以下三个研究问题：

1. 六次阶段性测试中各题型的难度如何？所反应的班级英语学习情况如何？

2. 六次阶段性测试中各题型的区分度如何？主要区分哪种水平的学生？

3. 六次阶段性测试中诊断性最强的写作题如何诊断当前阶段学生的英语学习情况？

（二）研究过程和方法

本研究从难度、区分度和诊断性三项指标出发，通过量化分析和质性分析，对Z省H市某高级中学2016-2017学年高二段六次英语阶段性测试的诊断功能进行评价。

首先，为了反应整个班级的学习情况，本研究将通过Microsoft Excel计算每次测试中各小题的难度指数（前五个客观题采用间断计分法，后面的写作题采用连续计分法），再求各大题难度指数的平均值，作为该题型的难度指数。通过对比班级平均难度指数和年级平均难度指数来反应班级的总体英语学习情况。

然后，为了检测试题是否能区分哪些学生达到教学目标要求，哪些学生未达到教学目标要求，本研究通过Microsoft Excel 统计每次测试中每个学生各题型的得分和本次测试的总分，再使用Excel自带的数据分析工具计算各题得分和总分之间的积差相关系数，作为该题型的区分度指数。再结合难度指数和区分度指数，统计六次测试的试题类型分布，分析试题主要区分的学生群体。

最后，为了诊断达标学生的强项和未达标学生的弱项，本研究抽取学生写作题达标例和未达标案例各一，通过文本分析判断主观写作题的诊断性。

五、结果与讨论

（一）难度分析与讨论

阶段性测试的诊断功能之一是通过试题的难度指数反应整个班级的学习情况，因此本研究对Z省H市某高级中学2016—2017学年高二段X班六次英语阶段性测试的难度指数进行计算，结果如下：

表5.1.1显示了高二段六次阶段性测试中各题型的难度指数。其中，听力的难度指数介于0.753-0.877之间，平均值为0.804；阅读理解难度指数介于0.641-0.811之间，平均值为0.733；选句填空难度指数介于0.693-0.874之间，平均值为0.780；完型填空难度指数介于0.556-0.853之间，平均值为0.722；语法填空难度指数介于0.596-0.793之间，平均值为0.674；写作难度指数介于0.614-0.690之间，平均值为0.651。总体来说，这六次阶段性测试的难度指数介于0.687-0.764之间，平均值为0.720。由于难度指数P越大，试题难度越小，可见该校英语测试难度偏低。在六类题型中，平均难度最大的是写作题，难度最小的听力题。

为反应整个班级的学习情况，本研究计算这六次测试的年级平均难度指数，并将其和班级平均难度指数进行对比分析，结果如下：

表5.1.3显示，该班级总分平均难度指数为0.720，大于年级平均指数0.690，每题型平均难度指数也都大于年级平均难度指数。由于难度指数P越大，试题难度越小，由此可见X班学生无论是总体英语水平还是各题型所考察的知识点或能力在不同程度上都优于年级平均。其中，X班的写作题平均难度指数和年级平均难度指数的差值最大，为0.056，表明X班学生的写作能力最为突出；X班的阅读理解平均难度指数和年级平均难度指数的差值最小，为0.011，表明X班学生的阅读能力和全年级几乎持平。

但由表5.1.1可知，写作题型仍为六类试题中难度最大的题型。为究其原因，本研究对六次测试中写作题的班级难度指数进行计算分析，结果如下：

表5.1.4显示了六次阶段性测试中各题型的难度指数。其中，写作题第2小题的平均难度指数为0.634，低于第1小题的平均难度指数0.679，即第2小题的难度更大。且写作题难度指数均值低于平均难度指数0.651的几次测试（卷4、卷5），都是由于第2小题的难度增加导致。高中英语测试的写作题中，第1小题的写作题型为应用文写作，第2小题的写作题型为概要写作或读后续写。可见写作题作为六次测试中平均难度最大的题型，主要是因为第2小题中的概要写作或读后续写的难度大导致的。

为了通过阶段性测试分析该班级学生写作能力，本研究计算了高二段X班六次英语测试中写作题的年级平均难度指数，并将其和班级平均难度指数进行对比，结果如下：

由表5.1.6可知，该班级写作题平均难度指数为0.651，大于年级平均难度指数0.595，即学生写作水平优于年级平均。其中，该班级第1小题平均难度指数为0.679，大于第2小题的平均难度指数0.634，可见该班级学生读后续写和概要写作的能力对比应用文写作能力较弱。从两小题的差值来看，该班级应用文写作、读后续写和概要写作能力相比年级平均来说，都比较突出。

（二）区分度分析与讨论

阶段性测试的诊断功能之二是区分出达到教学目标要求的学生和未达到教学目标要求的学生，因此本研究对该校2016—2017年高二段六次英语阶段性测试的区分度指数进行计算，结果如下：

表5.2.1显示了六次阶段性测试中各题型的区分度指数。听力的区分度指数介于0.623-0.778之间，平均值为0.689；阅读理解区分度指数介于0.612-0.864之间，平均值为0.734；选句填空区分度指数介于0.184-0.632之间，平均值为0.488；完型填空区分度指数介于0.678-0.823之间，平均值为0.771；语法填空区分度指数介于0.633-0.747之间，平均值为0.672；写作区分度指数介于0.458-0.816之间，平均值为0.642。总体来说，这六次阶段性测试的区分度指数介于0.618-0.712之间，平均值为0.666。由于区分度指数越大，试题区分度越大，可见该校英语测试区分度较高。六次测试中，平均区分度最大的题型是完形填空，区分度最小的题型是选句填空。

对该校2016—2017学年高二段六次英语阶段性测试的难度指数和区分度指数进行统计，按照表3.3.1进行划分后，结果如下：

由表5.2.2可知，在六次测试中，I类、II类、IV类题没有出现，III类题只出现1次，试题主要集中在V类和VI类，说明该校英语测试主要区分中等水平和低水平的学生。

听力全部属于VI类题型，难度小但区分度大，主要区分低水平的学生；写作题全部属于V类题型，难度适中且区分度大，属于合格题型，命题质量最高；卷3的选句填空属于III类题，难度小且区分度小，就是所谓的“送分题”。总体来说，这六次测试的倾向于VI类题，主要区分中下水平和低水平的学生。

（三）诊断性分析与讨论

阶段性测试的诊断功能之三是诊断出达标学生在语言知识和语言能力等方面的强项和未达标学生的薄弱项。由于六次测试中诊断性较强的主观题型只有写作题，因此本研究把写作题得分率高于60%的案例归于达标作文，反之则为未达标作文，随机抽选达标作文和未达标作文各一，分析写作题的诊断性，结果如下：

案例1为应用文写作，选自该校2016学年第一学期高二段11月份阶段性测试。该阶段的教学内容为必修4第五单元Theme parks, 语法重点是构词法，以及必修5第1单元Great scientists，单元写作为书信。该卷题干要求写作体裁是书信，内容是向邻居解释产生噪音的原因，表示歉意和表明将要采取的措施。

案例1得分为12，得分率为80%，为达标作文。从内容来看，学生的写作思路为“致歉解释原因—采取相应措施—请求原谅”，涵盖所有要点，也符合书信的言简意赅的要求。在语篇结构上，学生使用“therefore”、“To solve this problem”等表达使行文连贯、逻辑性强。在语言上，学生在案例中使用了较高级的句法结构，如“I feel sorry that …”，所使用的派生词“uncomfortable”，是这个阶段未学过的生词，可见学生能够灵活运用该阶段所学的构词法。虽然，该生作文中词汇拼写偶有错误，如“music test”误写为“music text”，但不影响对作文内容的理解。通过以上写作案例分析可知，该学生的书信写作在篇章结构、逻辑思维、内容要点和语言知识运用，尤其是构词法知识的运用上都达到了写作要求和阶段教学目标。

案例2为读后续写，选自该校2016学年第二学期高二段5月份阶段性测试，该阶段的教学内容为必修6第五单元The power of nature，单元主题是灾难，交际功能是情绪的表达；必修7的第一单元Living well, 单元主题是残疾人的生活，语法重点是复习不定式；必修7第二单元Robots，单元写作为富有想象力的故事。该题原文描述了Tom家所在楼栋着火，邻里紧急逃生时，Tom的姐姐Jane执意返回救隔壁行动不便的老太太，题干要求学生根据原文中的关键词进行150词左右的续写。

案例2得分为14，得分率为56%，为未达标作文。从内容来看，学生写作词数为112词，未达到要求词数，另外学生在不到四分之一的篇幅时就定了结局“Eventually…”，并没有呈现出读后续写所要求的情节转折，可见写作内容匮乏，学生的创新能力和发散思维有待提高。从语言来看，学生并没有用细节描写突显出主人公害怕却又坚定的情绪，使用的句式也多为简单句，并出现多处语法错误，如“to pounded the door”、“With the time go by”等;此外，该作文中使用的高级词汇较少，该阶段所学的“burn to the ground”、 “out of breath” 、 “unconscious” 、 “anxiety” 、 “assistance”等与情境相关的词汇都没有得到运用，表明该生对本阶段所学语言知识的掌握不够扎实。通过以上写作案例分析可知，该学生的故事续写在内容创新、逻辑推理和语言知识运用上未达到了写作要求和阶段教学目标。

综上，阶段性测试中的主观写作题诊断性较强，能够从语篇结构、内容要点和语言运用等多方面反应学生现阶段的综合语言运用能力，检测学生对现阶段所学语言知识的掌握情况。

六、结论与建议

（一）研究结论

经过以上的数据统计和文本分析，本文得出以下结论：（1）在该校六次英语阶段性测试中，平均难度最大的题型是写作题，平均难度最小的题型是听力题；对比同年级学生，该班学生写作能力（包括应用文、读后续写、概要写作）相对较高，但仍低于其他题型所考察的知识点和能力水平；（2）在该校六次英语阶段性测试中，平均区分度最大的是完形填空，平均区分度最小的是选句填空；总体来说，六次测试的试题类型集中在V类题VI类题，主要区分中下水平和低水平的学生；（3）在该校六次英语阶段性测试中，主观写作题诊断性强，能从语篇结构、内容要点和语言运用等多方面检测学生现阶段的语言知识掌握情况和综合语言运用能力水平。

总之，该校英语阶段性测试的诊断功能发挥一般，需要改进的地方有：比如试题的难度偏低，尤其是听力题，无法反应整个班级的英语学习情况；比如选句填空题的区分度偏低，无法区分各个英语水平的学生；比如具有较强诊断性的主观题型较少，不足以反馈高分的学生强在哪里以及低分的学生弱在哪里。

（二）改进建议

基于以上结论，结合阶段性测试所要发挥的诊断功能，本文提出以下三点建议：

1.适当提高阶段性测试中听力题的难度

由于听力文本的不可视、对于外语学习者来说本身难度较大，因此英语测试中听力题的难度往往被刻意压低，以降低学生的考试焦虑，却导致了“听力难-降低听力测试难度-听力能力得不到训练-听力难”这一恶性循环。此外，教学过程中的阶段性测试应具备良好的诊断功能，难度偏小的听力题虽可以甄别听力不达标的学生，却无法有效区分听力良好和中等的学生，反馈信息不够全面，不能反应整个班级的听力水平，也不利于听力中等的学生提高听力水平。因此，阶段性测试应该适当提高听力题的难度，如选择语速较快的听力材料、提高听力理解问题的认知难度，充分发挥阶段性测试的诊断功能，发挥测试对教学的反拨作用。

2.改善阶段性测试中选句填空的区分度

选句填空的区分度不高，原因在于它的连环反应。英语水平高的学生一旦选错一两个填空，会导致后面几个填空的相继出错；而水平不高的学生偶尔蒙对一两个填空，反而会增加后面几个填空的正确率。该题型的对错并不能完全代表学生是否掌握了试题想要考察的知识点，无法高效地诊断学生在语言知识或语言能力上的不足。因而如何提高选句填空的区分度是阶段性测试命题时需要考虑的问题之一。区分度的提高主要是通过控制试题的难度指数实现的，实践证明，难度指数为0.5左右的试题具有最好的区分度。因此，为提高选句填空的区分度，可以适当控制该题型的难度，减少该题中特别难和特别简单的填空，将“会做”和“不会做” 的学生区分开来。

3.在阶段性测试中增加诊断性强的主观题型

自从新高考英语改革后，现阶段高中的阶段性测试题型和高考如出一辙。这种“高考灵魂附体”般的英语阶段性测试主观题型单一，在一定程度上削弱了其诊断功能。客观题的命制很难关注到对学生当前阶段所学知识点或能力的考察，学生在回答客观题时也很难反应出他们是否掌握了试题所要考察的知识点或能力。而在写作题中，学生会倾向于使用当前阶段所掌握的词汇、句型等语言知识，并展现该阶段所习得的语言能力。如此一来，教师并非只通过单调的分数评估学生的学习情况，而可以在阅卷中发现学生是否掌握或正确运用所学的知识点和能力，从而对学生该阶段的英语学习作出针对性的诊断。因而，在高中英语阶段性测试中，应适当增加简答题、改写句子、英汉翻译等主观题型，丰富写作题的体裁和题材，增强阶段性测试的诊断性。

七、结语

通过对Z省H市某高级中学2016—2017学年高二段六次英语阶段性测试的难度、区分度和诊断性进行分析，评价其诊断功能的发挥情况。本研究发现该校英语测试难度最大的题型为写作题，难度最小的是听力题，难度指数能反应班级的学习情况；区分度最高的是完形填空，最低的是选句填空，测试试卷的总体难度稍稍偏低但区分度良好，主要区分中下水平和低水平的学生；主观写作题的诊断性强，能反应学生是否掌握该阶段所学习的语言知识和语言能力。总体上，该校英语阶段性测试的诊断功能发挥一般，有待改善。基于以上发现，本文为英语阶段性测试的命题提出三点建议：适当提高阶段性测试中听力题的难度，改善阶段性测试中选句填空的区分度，在阶段性测试中增加诊断性强的主观题型。

参考文献

[1] Gronlund, N.E. Measurement and Evaluation in Teaching [M]. New York: Macmillan Publishing Company, 1985.

[2] Heaton J. B. Writing English Language Tests [M]. Beijing: Foreign Language Teaching and Research Press, 2000.

[3] Hughes Arthur. Testing for Language Teachers [M]. Beijing: Foreign Language Teaching and Research Press, 2000.

[4] 顾玲玲. 论上海市中考英语阅读理解测试题的难度和区分度—以金泽中学初三毕业班作案例[D].华东师范大学，2010.

[5] 郭旭红.英语教师在单元试卷编写中的不当之处及原因[D].内蒙古师范大学，2009.

[6] 廖云霞.区分度在考试试卷分析中的运用[D].华中师范大学，2008.

[7] 舒运祥.外语测试的理论与方法[M].上海：世界图书出版公司，1999: 41-44.

[8] 吴彬，张镜源，陈建玲.部分课程试题难度与区分度分析[J].福建医科大学学报，2002（2）：45-46.

[9] 吴珍珠.探讨试题难度与区分度的关系[J].教育教学论坛，2011（30）：235-237.

[10] 余仁胜.综合利用试题的难度和区分度评价试卷质量[J].中国考试，1998（5）：18-21.

[11] 张璐.高考英语试卷的四个维度分析——以A、B、C三省2011高考英语题为例[D].重庆师范大学，2012.

An Analysis of the Diagnostic Function of English Periodic Tests for Senior Students

Yang Congcong Luo Xiaojie

Abstract：The research objects of this paper were six English periodic tests of Grade 2 in a senior middle school. Based on the difficulty, the discrimination and the diagnosis, the paper conducted an analysis of the diagnostic function of the six tests. Through data analysis and text analysis, it turned out that in these tests, the writing tasks were the most difficult, the listening tasks the least, and the difficulty can reflect the learning situation of the whole class; the cloze tasks were of the best discrimination, the gaped text tasks the worst; in general, these six tests were of slightly low difficulty and high discrimination, mainly distinguishes middle-level students and lower-level students; the writing tasks with the best diagnosis can reflect students’ mastery of language ability and language knowledge acquired in the current stage. In summary, the diagnostic function of the periodic tests needs improvement. Accordingly, several relevant suggestions were offered that higher difficult listening tasks, gaped text tasks of better discrimination and more subjective tasks with better diagnosis were recommended, expected to be helpful to the proposition and evaluation of English periodic test.

Key words: periodic test; difficulty; discrimination; diagnosis

（本文首次发表在《基础教育外语教学研究》2018年第3期）