又到一年一度的高考季,这是青春的试金石,也是智慧的盛宴。一批青年学子将在高考的舞台上诠释自己的青春,实现自己的梦想,在此我们预祝广大考生都能金榜题名!
与此同时,全新出炉的高考试题具备高度的 独创性 和 保密性 ,是用来评测大模型的 绝好评测集合 。为此,我们连夜挑选了六个在各项评测中脱颖而出的大模型,让他们与广大考生一起,来进行一场 真刀真枪,不能作弊 的实战。
我们选取了网络上流出的2024高考新I卷数学题目,选择了前14个客观题作为我们的评测集合,并根据高考的评分规则,对模型的结果进行了打分。
评分标注:
单选题共 8 题,每小题 5 分,共 40 分。
多选题共 3 题,每小题 6 分,共 18 分。全部正确选项选对得6分,部分选对的得部分分,有选错的得0分。
填空题共 3 题,每小题 5 分,共 15 分。
1
客观题分数
注:大模型多次测试结果可能不同,我们均选取第一次测试结果为准
评测结果显示,在这次评测中,表现的最好的模型是gpt4o,其正确率达到了百分之70。对于简单的题目,如选择题前3题,大部分模型都能给出正确的答案与解答过程,而对于少数困难题目,如填空、选择最后一题,则是全军覆没。在多选题方面,大多数模型也表现不佳,在面临复杂选项的时候模型的准确率会降低不少。
2
测试prompt
1、单选题:请完成下面一道选择题,每个小题四个选项中,只有一项是符合题目要求的。
2、多选题:请完成下面一道选择题,在每小题给出的选项中,有一项或多项符合题目要求,请选出所有你认为正确的选项。
3、填空题:不提供prompt
3
测试结果
Qwen2-72b
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
GPT-4o
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
ChatGLM4
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
九章大模型
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
Gemini 1.5
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
Baichuan4
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
联系方式:cs_nlp@fudan.edu.cn
地址:复旦大学江湾校区交叉二号楼
,