高考各科分数组合的实践反思与理论逻辑
2020年01月20日 16:53
晨雾 / 转帖
来源:《教育发展研究》2018年第22期 作者:禹薇 胡中锋
作者简介:禹薇,胡中锋,华南师范大学公共管理学院。广州 510006
内容提要:传统的高考分数组合方式均存在一定局限,需要进一步改进。为此,文章在分析了目前高考科目计分组合方法不足和缺陷的基础上提出了科目组合计分标准。这一瞄准计分标准提出的目标构建了加权求和计分模式,它通过标准化处理与加权求和相结合的做法解决了原始分相加与标准分处理的考生群体适应性等难题。通过对加权求和计分模式的逻辑分析,提出运用该模式应满足的基本假设和相关条件。在具体操作时,强调各选择科目的权重以及科目之间相关系数计算的必要性,并通过加权平均再标准化计算。结果表明,加权求和计分模式是目前较为科学合理且易操作的一种科目计分组合方式。
关 键 词:新高考改革 科目分数组合 计分模式 标准化 加权平均
标题注释:本文系广州市教育科学规划重大招标项目“广州市中小学办学质量评价标准研究”(2017-01)的部分成果。
2014年12月,《教育部关于普通高中学业水平考试的实施意见》对高考改革提出了新的要求,规定高校招生录取总成绩由统考科目3门(语文、数学、外语)和选考科目3门组成,即所谓的“3 3”模式,当前浙江和上海试行的新高考均采用这一模式。[1]该模式推出后得到了广大考生、家长和社会的认同,但对于一些具体操作方法,如科目选择与组合、计分方式等问题也引起了有关专家的关注与质疑。
无论哪类考试,但凡涉及多科考试,需要依据考试分数进行选拔时,就不可回避考试科目分数的组合问题。考试计分理论上存在固有的内在逻辑,但实践上由于众多因素的影响,却并非完全可以按照理论逻辑来实施,而是存在着多种计分组合方式。由于考生选考的3门科目可能不一样,就使考试科目分数组合变得十分复杂,相关问题因运而生。原因在于不同考试科目的原始分数不等值,不能简单直接相加求和,[2]新高考背景下多科组合计分问题给教育测量学提出了新的挑战,史无前例,对其进行反思,研究解决问题的新思路并提出可操作性的对策建议是十分必要的。
一、历史上高考科目计分组合方法的反思
国内外高考采用过多种分数组合方式,最主要的是以下几种:一是将原始分数直接相加求和;二是将原始分数转换成标准分数相加求和;三是将原始分数换算成百分等级,再将等级换算成分数相加求和;四是将分数校准之后再相加求和;五是采用现代测量理论(比如项目反应理论)进行分数的处理。以上每种模式都有各自的优点,但也有自身的局限性。下面进行简要分析。
(一)原始分数不具有相等单位,不能直接相加求和
由于原始分数意义模糊,也不具有相等单位,所以不满足多科分数求和的第一个条件。此外,共同竞争的考生中选考科目不同,在各科试卷难度不同的情况下,若选考科目直接相加,可能造成不公平的现象,[3]因此原始分数不能直接相加求和。[4]尽管道理很简单,但我国目前的高考除了海南省以外,其他省市***都是按照原始分相加求和的。其中缘由非常复杂,非三言两语能够说清。
(二)标准分数不能比较不同总体考生的成绩
由于原始分数不具有相等的单位,需要将其转换成具有相等单位的导出分数,在这种情况下,标准分数成为最常用的一种。[5]其实,标准分数已经不是一种分数,它只是表示原始分数在总体中的相对位置;如果原始分数服从或近似服从正态分布,标准分数则服从或近似服从标准正态分布;如果标准分数服从标准正态分布,则标准分数具有相等的单位,可以进行加减运算。如果在同一总体中,可以将不同学科分数的原始分数转换成标准分数,这样就可以通过比较标准分数的高低来比较不同原始分数所代表考生的真实水平的高低,并且可以将不同学科的标准分数相加求和。这就解决了不同学科原始分数不可比,且不能直接相加求和的问题。[6]
标准分制度曾在我国七个省份试行过,可以说实施标准分制度是恢复高考后考试标准化改革的一项重大举措,试点和推广历时20余年。与传统的高考分数制度相比,标准分在分数评定的精确性、人才选拔的效率以及对形式公平的保障上均有明显优势。然而,在多重的制度变迁逻辑中,标准分制度并不能满足各主要利益相关者的诉求。社会对高考改革在科学与公平维度上的独特要求,政府在应对上的民意依赖等,使这一整体上功能更佳的制度难以为继,已近夭折。[7]
(三)“等级换分”忽略了同一等级的内部差异
浙江和上海从2014级高中生开始实行新高考,即所谓的“3 3”模式,由于考生所选择的科目可能不一样,因此原始分数无法直接比较,更不能直接相加求和,因此采用了“等级换分制”。大致思路是这样:先将考生的原始分数换算成百分等级,再把等级换算成相应的分数。比如,某上海考生物理的原始分数在前5%位置,则他的物理属于A 等级,他的物理最终得分为70分(满分),以此类推,3分一个等级,上海每科有11个等级分,从40分(最低分)到70分。
等级换分的思想其实也是标准分思想,它在一定程度上解决了选考不同科原始分数不可比的问题,[8]为了解决这一问题,上海市、浙江省两地均采用固定比例等级赋分的计分方式,以实现选考科目的可比性,但等级换算依然存在固有的局限性:首先,忽略了同一等级内部的差异。比如,张三物理原始分数为98,而李四95,但两人可能都属于前5%,属于A 等级,最终得分都是70分,但实际上两人的原始分数是不一样的;其次,原始分数的很小差异可能带来最终得分的较大差异,比如,还是上面的例子,王五物理得了94.5分,但未进入前5%,属于前10%,等级为A,其最终得分只有67分,亦即原始分数的稍许差异可能导致最终得分的较大差异。再次,等级换分制也没有解决不同难度学科分数的等值问题,比如,物理等级满分与政治等级满分都是70分,但很明显两科的难度是不一样的,这样就可能导致学生在选科的时候采用“错科竞争”的策略。这些都是等级换分制带来的新的不公平现象。[9]
(四)“校准分数”只考虑了部分中间考生的诉求
由于等级换分制的上述问题,有必要对选考科目的分数实行进一步校准,这又有各种校准方式,目前多数倾向于采用香港的校准模式,又分为两类校准:专家校准法和统计校准法。
所谓专家校准法,是指考试阅卷后,专家根据考生的表现对照学业水平标准划出等级的切分点,由于各科的切分点可能不同,相当于对分数做了校准。但专家在校准时可能受到对标准宽严把握是否适度的影响,具有较强的主观性。
统计校准法采用的思路是把选考科目的分数分布校准到与统考科目的分数分布相同的做法,具体的计算方法不在此赘述,可参见相关文章。[10]比如,选考物理的考生,其语数英的成绩可能好于选考其他科目的考生,因此,在等级换分时选考物理的高等级的人数比例就应该多于其他学科。比如,可能有8%的选考物理的得满分,而选考政治的可能只有3%的人得满分(不校准的话,都是前5%的人得满分)。
校准分数能够在一定程度上避免“错科竞争”的问题,但也不能解决根本问题。[11]首先,校准分数的理论依据不足。有专家把多元智能理论作为理论依据,但这一理论本身就没有在心理学界得到完全认同。是否共同考试的科目就可以作为校准的标准?到底是用语数英三科还是语数两科作为校准的学科?把共同考试的学科作为校准标准的依据是二者的相关比较显著,所以可以作为校准标准。按其理由,各科两两的相关都是非常显著的,那任何一科岂不都能作为校准标准?因为,只要是能力考试,其两两相关都是非常显著的。特别是在大规模考试中,样本容量非常大,很容易出现显著相关的结果。但相关关系并非因果关系,往往不具有预测作用。其次,校准分数只是改变了各等级的人数比例,对成绩中等的学生有所影响,对两个极端的考生完全没有影响。比如,物理A等的人数增加3%,对这3%的考生的确有影响,但原来处于前5%的考生却没有任何影响,物理的满分还是等同于其他科的满分。很显然,获取各科满分所付出的能力努力是不一样的。再次,这种事后才能确定校准标准的做法,在我国的高考实践中很难操作,因为要等语数英的成绩出来之后,才能确定其他学科的分数,而且这种动态的校准标准,更难向公众解释。
(五)现代测量理论的分数组合方式也有诸多弊端
以项目反应理论(IRT,Item Responses Theory)为代表的现代测量理论另辟蹊径,开辟了另外一条分析测量结果的新模式,它不是以经典测量理论的真分数模型为基础,而是通过潜在特质理论,先验证能力的单维性假设和局部独立性假设,选择已有的测量模型,从而确定考生的能力参数。[12]项目反应理论已经是比较成熟的理论,且有多种实用的软件,比如BILOG、RUMM、ConQuest等等。但要把这种技术运用于我国高考之中,可能还需要较长的时间。因此本文不做详细介绍。
二、高考多科组合计分模式的理论逻辑
新高考采取多科考试方式,给科目计分带来了新的挑战。计分机制是达成相关政策目标的载体,[13]计分机制的科学性十分重要,妥善解决此问题才能体现新高考选拔录取人才的公平与科学。根据新高考改革的目标、思路和实践做法,新高考科目组合计分模式的选择需要遵循以下标准。
(一)高考多科分数组合模式的选择标准
1.计分模式选择的目的性:促使达成相关政策目标
高考最基本的和最重要的功能是选拔优秀人才,高考功能的第一要求是科学合理地选拔人才,[14]在高考改革的政策设计上,新高考制度试图通过设计新的计分机制缓解考试中“分分计较”的社会心理,弱化唯分数论的观念,尽可能避免社会过度追求分数。如通过对原始分进行等级转换,用若干等级分制替代百分制的做法,有效降低考生排名的精确程度和区分度,这种做法在某种程度上有助于缓解考生“分分计较”的困境,淡化了高考升学竞争的压力。[15]考试计分模式的选择是实现新高考改革目标的重要条件之一,基于对教育和考试的科学认识,科学的计分模式有助于把握新形势下高考改革及高考的定位,全维度、全功能、全流程的监测和实现高考在促进公平、科学选材方面的指挥棒的作用,促进学生健康成长和全面发展,充分发挥考试评价的监督与反馈功能,将考试选拔机制推向新的高度。[16]新高考形势下,考试质量监测与评价体系聚焦点之一是科学体现并监测高考考试工具自身的质量,以促使考试质量的提升。[17]因此,新高考形势下多科组合考试的计分模式也应该促进达成高考改革目标。
2.计分模式选择的可行性:与我国教育测量现状相适应
通过对最近几年新高考制度的实施情况进行分析,对我国教育测量的发展现状进行总体把握,主要特点如下:(1)命题方式方面。总体上看,绝大多数科目主要采用经验命题,采用题库等标准化方式命题的科目极少。(2)分数解释方面。没有对选考科目制定相应的能力等级评价标准,分数解释不具有标准性,由于不同考试科目对学生不同能力的考核方式不同,考核效果不一样,彼此的联系与差异需要制定比较标准。(3)试卷评阅方面,客观题有严格标准,主观题有较大弹性,主客观题评判宽松度不一,不同科目之间因此可能存在计分差异。(4)分数合成方面。选考科目与规定“统考科目”原始分合并报告,以满足“总分录取”需要,但不同科目在考核学生不同能力之间存在较大差异,原始分必须经过某种合适的转换再加总求和更为恰当。这些现状决定了选考科目计分模式的选择与设计需要考虑相关约束条件,包括选考科目之间的难度差异、缺乏等级标准、招生录取方式等。
3.计分模式选择的适用性:满足人才科学选拔要求
高考是高校招收新生的一种考试,但高考不仅仅是一个简单的教育考试问题。高考还承担着巨大的社会责任,还具有选拔优秀人才、维护社会公平的重要功能。因此,若不通过考场上的竞争,而是通过社会其他方面的竞争来选拔人才,将会导致一系列社会公平问题。考场上的竞争也许是最公平的竞争,因此通过高考选拔人才或许是最完美的考试制度。但是,高考也可能导致教育的应试化、功利化,高考“一考定终身”的做法还存在发现专门人才、特殊人才的机会等弊端,也可能缺乏引导向学生全面而富有个性发展的功能。[18]因此,在计分模式选择方面尽可能做到利用高考科目设置、计分规则对学生的整体素质做出正确评价的同时,对具有专长、特殊能力的学生通过计分模式的合理运用加以识别。
4.计分模式选择的适当性:实现选考科目的可比性
新高考模式下引入选科考试的做法可能引起不同选考科目之间的“可比性”问题。新高考实施前,对考生的所有科目进行原始分直接加总并不存在特别的不当问题,因为对于同一竞争群体而言考试科目完全一样,尽管不同科目试卷存在难易差别,但对同一群体所有考生而言产生的影响是一致的,原始分直接加总并不影响竞争的公平性。但是,新高考模式下,共同竞争群体有选择考试科目的自由,考生的考试科目不同了,在试卷难度也不同的情况下,将不同科目原始分直接相加后以总分进行排序明显将导致不公平。对试点地区高考改革出现的问题进行分析,表面上看是由选考科目的等级标准设置导致的,但其背后实质原因是没有正确运用现代测量与评价技术而导致的。[19]因此,只有选择正确的计分模式,确定科学的测评标准,并通过必要的校准测评,才能解决高考选考科目方案的设计缺陷。改进的方向与目标是,无论考生如何选考科目,其等级只由学科本身的标准和考生的代表性样本确定,而不由特殊考生群体的水平所决定。这样才能抑制考生高考选考的短期功利倾向,从根本上实现高考改革的初衷。通过科目设置、计分模式设定与运用使高考公平、公正,使新高考模式成为发现和选拔优秀人才的科学、有效的考试选拔制度。
(二)加权求和计分模式的基本要求
新高考模式下,多科分数组合方式众多,比如,有直觉判断、加权求和、多重选择、多重回归等方式。[20]其中,直觉判断科学性不强,多重选择、多重回归等计分精确性存疑且非专业人员难以直观理解。笔者以为,根据高考多科组合计分模式选择标准欲实现的目标及提出的要求,加权求和模式更加适合于高考多科分数的组合,国内外的实践也基本上是采用这种模式。但这种模式有必须遵守的假设与必须满足的条件,不能贸然用之。
1.多科分数加权求和的基本公设
多科分数加权求和除满足“人的能力是可测的”等一般测量学的假设外,还需要满足以下基本假设。
(1)同一次考试的每一个“1分”是等值的
这一假设是指在同一次考试中每一个1分具有相同的价值,即单位等值。比如,语文高考有多种题型,但不同题型的相同得分是等值的,作文的30分与前面客观题的30分等值。如果没有这一假设,所谓的卷面分数(即原始分数)便无法直接相加求得,整个经典测量学的理论体系也就无法建立起来。事实上,这一假设也不一定能够得到满足,或者我们根本没有一种方法来判定同一次考试的每一个1分是否等值。那么,这一假设靠什么支持呢?笔者以为,主要还是靠命题者的知识、经验和能力以及对考试目标的把握。看起来简单,但实际上非常复杂。
(2)不同能力的得分评价具有互补性
这一假设是指在不同次的考试中不同科目的考试分数具有一定的互补性。比如,数学成绩能在一定程度上弥补语文能力的不足。这是把几个数求和的必要条件,即加数之间要能够互相弥补。如果我们认为数学和语文的权重相等的话,如果数学和语文分数的单位也相同,那么我们认为考生甲(语文60分,数学90分)和考生乙(语文70分,数学80分)的能力是相同的。即相同的总分代表相同的能力。
尽管相同的总分并不一定代表相同的能力,但在多科考试的情况下,如果没有这一假设,就无法求所谓的总分,那就得采用多重组合的模式,问题就变得非常复杂了,且会出现自相矛盾的结果。比如,在我国高考的历史上,曾经出现过划两条分数线的情况,当时是试行“3 X”模式,语数英划了一条录取线,X科划了一条录取线,只要有一条线没有达到要求,则不能录取。这一模式很快就寿终正寝了。因为这里存在明显的自相矛盾,语数英之间可以互相弥补,但X科却不能和语数英互相弥补。
(3)总分与各科分数之间满足线性关系
加权平均进行的是变量之间的线性运算,假定参与运算的变量之间存在线性可比。根据这一假设,高考科目组合计分要求考试科目测试的总能力和各分能力之间满足线性关系,亦即可以采用加权求和的方法来计算所谓的总分。如果没有这一假设,本文所谈的分数组合也无法进行。
2.多科分数加权求和的基本条件
有了上述公设,在进行具体操作时还需要满足以下条件,才能通过加权求和方法求出评价所需的总分。
(1)将不同科目考试分数转换成单位相等的分数
这是加法的前提,各个加数的单位必须相等,否则不能直接相加。就像我们不能直接把人民币的1元和美元的1元直接相加一样,不同科目的原始分数也是不能直接相加求和的。例如,考生A选考物理、生物,成绩分别为75分、90分,同样的,考生B也选考物理、生物,成绩分别为90分、75分。如果用原始分来计算,两名考生总分相同,成绩也应该相同。但如果考生A的物理成绩处于该科考生群最差水平,生物成绩处于该科考生群中上水平;考生B的物理成绩处于该科考生群的最高水平,而生物处于该科考生群中等水平,那么,实际上考生B的物理成绩要比考生A的生物成绩高,尽管他们的原始分都是90分。因为不同试卷分数单位价值不同没有可比性,因此不能将原始分数直接相加。最直接的原因是不同科目试题的难度可能不一样,难度越大,每一个1分的价值就越大。
(2)必须给出每门考试科目的权重
所谓权重,是指高考科目中每门考试科目的重要性程度。如果认为每科的重要性程度均相同,则权重均为1,相当于直接相加求和。但很明显,高考各科的权重不应该是一样的。目前的计分方式只是区分了必考科目和选考科目的权重,比如,语数英的权重相同(满分各为150分,相当于1.5的权重),而理化生史地政的权重也一样(比如,上海模式,满分各占70分,相当于0.7的权重)。[21]这里存在的问题是:凭什么认为语数英三科等权?同样,凭什么认为理化生史地政六科等权?凭什么认为语数英的权重等于其他六科权重的2.13(150/70)倍?
在评价学中,关于权重的确定有很多方法,且都不复杂,也不困难。为何相关主管部门不组织有关人员研究这一问题呢?当然,凭经验给出各科的权重也是一种方法,但目前的权重赋值仍存在一些问题,值得进一步探索。
(3)必须确定科目两两之间的相关系数
不同的考试科目之间两两的相关系数一般是不一样的,比如,语文和英语的相关就高于语文和数学的相关。[22]因此,在没有选考制度之前,同一群考生各科成绩两两之间是呈正相关,且其相关性相当稳定。也就是说考生的选考科目分数高,则其语文、数学、外语分数也高,由此可推断将来在选考制度下选考的科目与统考科目有正向的相关系数。如果直接采用加权求和的方法,很可能导致相同或相似能力的累加。因此,需要知道各科两两之间的相关系数,通过加权求和标准化的方法来消除可能会出现的相同能力累加的问题。只有这样,才能保证转换后的标准分数服从标准正态分布。实际上,前人也是在发现加权求和的分数不服从标准状态分布,才发现原来不同的相关系数会影响结果的分布形态。如果强行直接加权求和,实际上是把各科两两相关系数均作为“1”来处理了。显然,这不符合实际情况。
(三)加权求和计分模式的设计与运用
经过以上分析与比较,笔者以为,应当采用对标准分数进行加权平均再标准化的思路来对高考各科的分数进行组合,可以较好地解决多科计分问题。
第一,一定要将原始分数标准化。原始分数的局限性十分明显,且易于向公众解释和说明。将原始分数标准化是对高考各科分数组合的第一步,标准化的公式非常简单,且没有任何操作的难度。不仅原始分数需要标准化,而且在对不同单位的变量进行数据处理时,均需要先将不同单位的变量标准化(正因为如此,在一般的统计软件如SPSS里就有将数据标准化的程序)。尽管标准分数也有其固有的局限性,但标准分数起码解决了原始分数不能直接相加的问题。
第二,要确定各高考科目的权重。如前所述,权重的问题是永远都无法回避的,目前不是没有权重,是各科的权重设置不合理,而且不是通过研究得出的权重。实际上是语数英等权(各占150分,相当于1.5的权重),所有的选考科目也等权(上海模式各占70分,相当于0.7的权重)。我们过去也不是没有考虑权重问题,比如,曾经英语的权重从10%到30%,再到100分(那时语文和数学是120分),而且目前我国高考的理综或文综或大综合考试里面本身就有不同的权重,比如理科综合里物理占110分,化学100分,生物90分,这实际上就是不同学科具有不同权重的体现(物理的权重为1.1,化学为1,生物为0.9)。而且教育部在有关文件中从来没有规定说各科的分数一定要等权。
第三,要确定考试科目的两两相关系数。各科分数的相关系数是客观存在的,同时也是无法回避的。直接相加求和实际是把各科两两相关系数均假设为1,这显然是不符合实际的。各科的相关系数不一致是非常正常的事情,也很容易理解。比如数学和物理的特性较为相近,故其相关肯定高于数学和语文的相关。有学者已经对高考各科的相关系数进行过研究,比如,表1和表2就反映了部分学科高考成绩的相关系数。[23]
从下表可以看出,各科高考成绩的相关系数还是比较稳定的,尽管不同年份高考题目的难度存在差异,考生也不一样,但相关系数相差无几。当然,我们还可以进行更加深入和系统的研究。
第四,采用加权平均再标准化的计算公式,计算出考生的标准分数Zn:[24]
可能有人会说,这个转换公式过于复杂,学生和家长也无法理解,因此很难实行。笔者认为并非如此。首先,这个公式并不复杂,只是简单的代数四则运算加上开方运算,在当今信息化的时代是非常容易程序化的,只是比过去实行标准分数稍微复杂了些。其次,关于学生和家长难以理解的问题。只要进行讲解还是可以明白的。过去标准分数实施了那么多年,学生和家长也是难以理解,但实施也没有大的问题。况且,现在新高考实行等级换分,家长理解了吗?如果按照校准的方法来换算分数,家长可能更难理解。难理解能否成为拒绝使用的理由呢?试问,在日常生活中很多重要的概念和指标,我们都理解了吗?!比如PM2.5指数、股票指数、经济发展指数、幸福指数等等,大众都理解了吗?!当然,我们要加强宣传和解释工作。但只要是对考生公平且有利的方法,有再大的困难也要坚持实行。
当然,本文提出的“加权平均标准化”的转换方式也并非总能令人满意。因为选考科目的总体不同,实际上选考不同科目的标准分也是不可比的;但不同学科的权重以及不同学科两两的相关系数起了调节作用。可以说,这是目前较为合理且易操作的一种组合方式。总之,在不能改变当前高考模式的前提下,任何一种计分方式都有利弊,我们只能取其利大且弊小者而为之。
高考改革提出的“3 3”模式对科目组合带来了新的问题与挑战,如何进行科学计分是事关考试公平的重大问题。现有针对高考科目分数计分组合的做法与设想都存在一定的缺陷,不能解决原始分简单直接相加、标准分不适应于不同考生总体等问题。为此,本文提出的科目组合计分方法为计分模式选择确立了目标,针对现有计分模式存在的不足,提出将原始分进行标准化处理的做法解决了原始分不能简单相加的问题,然后进行加权求和的做法以满足不同考生总体的适应性问题。通过对加权求和计分模式的理论逻辑分析,指出该模式运用的基本假设和应用条件。强调提出在具体实践操作时,必须考虑各选择科目的权重以及各科两两之间的相关系数,采用加权平均再标准化的计算方法。相比之下,加权求和计分模式是目前较为科学合理且易操作的一种科目计分组合方式。
参考文献:
[1]教育部.教育部关于普通高中学业水平考试的实施意见(教基二[2014]10号)[Z].2014-12-10.
[2]胡中锋,董标.从教育测量学的角度反思新高考的科目设置[J].华南师范大学学报(社会科学版),2017,(5).
[3]邵光华,吴维维.新高考改革何去何从——关于新高考“选考”和“一科两考”问题的再思考[J].教育发展研究,2018,(8).
[4][19]罗莹,韩思思.高考改革选考科目等级评定标准研究[J].教育科学研究,2018,(6).
[5]柯政.高考选考科目计分方式分析[J].国家教育行政学院学报,2018,(3).
[6]边新灿.新一轮高考改革浙江、上海方案深度比较研究[J].中国考试,2015,(2).
[7]章建石.一项公平与效率兼备的高考改革为什么难以为继?——标准分制度的变迁及其折射的治理困境[J]..北京师范大学学报(社会科学版),2016,(1).
[8]王森.新高考选考科目计分机制的主要问题及建议[J].中国高教研究,2017,(12).
[9]柯政.“选考”制度下的“田忌赛马”:原因与对策[J].教育发展研究,2016,(18).
[10][22][23]温忠麟.新高考选考科目计分方式探讨[J].中国考试,2017,(12).
[11][13]王森.新高考选考科目计分机制改进研究[J].教育科学,2018,(4).
[12]王晓华,文剑冰.项目反应理论在教育考试命题质量评价中的应用[J].教育科学,2010,(6).
[14]袁振国.在改革中探索和完善具有中国特色的高考制度[J].华东师范大学学报(教育科学版),2018,(3).
[15]刘玉祥.上海高考改革方案制定亲历与思考[J].招生考试研究,2017,(3).
[16]于涵.不忘初心推进新高考改革,面向未来构筑现代化考试[J].中国高教研究,2018,(3).
[17]于涵,韩宁,关丹丹.关于新高考改革背景下考试质量监测与评价工作的思考[J].中国高教研究,2018,(10).
[18]王振存.我国高考制度改革亟待关注的四个核心问题[J].课程·教材·教法,2015,(8).
[20][24]胡中锋.教育测量与评价[M].广州:广东高等教育出版社,2006:159-163,161.
作者简介
姓名:禹薇 胡中锋 工作单位:华南师范大学公共管理学院
本文系广州市教育科学规划重大招标项目“广州市中小学办学质量评价标准研究”(2017-01)的部分成果。
信息来源:2020-01-20 中国社会科学网
http://ex.cssn.cn/jyx/jyx_ptjyx/202001/t20200120_5081905.shtml
,