挑战高考数学试卷全过程(学霸做高考数学试卷全过程)

挑战高考数学试卷全过程(学霸做高考数学试卷全过程)

首页数学更新时间:2024-07-26 22:49:37
导语

我国已经孵化出了很多领先世界的大模型,这些大模型的功能不仅仅局限在领域内的推理和借鉴,还有一个很酷炫的功能,就是能够让它们在挑战高考数学题目时更能够应对各种变化。

但在挑战高考数学的最后,这些国产大模型中竟然意外炸出了这样一个bug,那就是它们无法识别数学题中的图片,也就无法生成答案。

那么这到底是哪个模型呢? 国内的大模型还是GPT-4o呢?

为了解开这个谜题,我们找来最火的AI识图测试,来看看哪些模型能够直接答出正确答案,哪些国产大模型又炸裂了。

AI 识图测试。


在挑战AI识图测试之前,我们先来看看AI模型在“协助”老师们检查高考数学的试卷时,有着怎样的表现。

首先要测试的自然是AI的计算能力,所以我们先挑选了一道很有代表性的高考选择题,这是一道选用题中常见的方程题。

高考数学在大题中常用的方法就是已知条件直接解除未知数的值,并对答案部分进行推导。

而前面部分中除了选择题,其它大题中,基本都是先写出方程,然后进行数学推导。

所以,这两题中要想让AI能够直接生成答案,首先要保证AI的推理计算能力能够推导出一个平等式的值,并且将答案部分转化成文字表达。

很多人会把这道题目中的条件直接扔给AI,让它进行数学推理,但是实际中,当AI遇上生成条件问题时,它还需要对句子进行整体推理,而不是仅靠已知条件进行数学推理,所以这就导致大部分AI都无法推出这道题的答案,更别说生成答案了。

有些人会想:AI又不是真的人,叫它去推演数学公式区别不大,但是实际中AI模型更多的是借鉴,给它两个例句,它就能够生成符合题目要求的句子,但这并不代表它能综合推理。

后面这道题则是以大题的格式直接给出的,这就比较简单了,只需要AI能够识别出文字,并且进行推理。

但问题关键在于这些模型总是会犯一些语病,并且计算不准确,导致AI的答案总是不对。

然而在挑战AI识图测试中的表现,却更能检验出这些大模型在模式识别和文字推理上的能力。

这不是在打击我国的大模型,只是一个实际存在的现象,所以也暴露出我国大模型需要注意的地方。

这个AI识图测试就是把高考数学大题中和毕业考试中的判断题,也就是数字填空题全部转化成文字,让AI进行回答。

在这样的测试中,就算AI识图的能力不行,但它还是能够先把题目按照文字使用模型进行判断,然后再对直接生成答案的模式进行检验。

不得不说我国的大模型真的很牛,这么快能够开发出如此巨大的模型储备库,其中不仅有中英文互译,还有各种各样的图像识别。

AI挑战高考数学题目。

在进行挑战高考数学题目前,显然选择一道题进行全题尝试更能够直接检验出AI的素质。

所以这次我们选择的题目就比较常见,是2019年高考数学北京卷必选题,这是多盛数相加有理数的典型应用题。

2019年的这道高考数学题在数学中并不是一道特殊的题目,只是构造方法和应用的方法更加特殊,而且一般学习数学时,我们常常用齐次加法来解决此类问题。

但是2019年的高考数学题中,四则运算同论也是可以使用的,并且在这类题目中已经是第二次涉及到这种问题,所以说这种构造方式也是一种非常特殊的方法。

这种特殊方法就像是在不同领域中的另一种语言,懂的自然不难,但不懂的就需要好好学习一下。

而这道题目就是,一张圆形的纸,在上面不断地剪下一半,直到16分之7,问剪了几次?

给定的选项有a. 5 b. 8 c. 10 d. 13。

这道题题目并不难,但是许多模型却无法直接识别出来,原因就是因为这道题用的是图片。

所以AI的识图水平就显得非常重要了,然而AI的计算能力更需要改进,在模型识别了图片,生成了答案后,还需要对答案进行检验,而这时就需要AI的计算能力了。

而后一部分的挑战AI识图就比较简单了,直接将高考大题转为数字填空题进行挑战即可。

当然这个过程中也会有语病或者错误答案的情况,所以我们要对AI的回答进行整理,一定要读懂AI的回答,这样才能够检验AI模型的效果。

国产大模型VS GPT-4o。

我们在挑战AI数学识图的过程中,最大的问题还是蕴藏在AI模型识别图片上,尤其是尺度无法确定的情况,所以很多时候我们会额外的提供图片的尺度信息。

但是在数学题中,尺度信息并不会额外提供,而且很多情况下对图片尺度的补充也需要一定的数学推论。

在挑战过程中,我们发现GPT-4o这个名模型在没有考虑图片的情况下,它的识图水平会相对更高一些。

但就是因为GPT-4o太过于火爆,所以这个模型中的毛病就会被放大出来,而且在模式识别上,它总会和一些奇怪但是解法更快的国产大模型进行比较。

但往往这一类比较都会因为资讯的年代和选取的时空点不一样,所以不可避免的会有些偏差。

但GPT-4o的名气毕竟是世界第一,所以人们总会习惯性的用GPT-4o做一个标准,然而国内大模型的出现,也排除了一些思想的盲目,也不会再的认为国内大模型就是不行。

事实上这两者各有各的用途,毕竟GPT-4o是全世界第一款正式形成大模型,所以其语言衔接性和文字表达都非常的好。

但国内大模型确是我国环境中,最接地气的模型,正是因为这两种模型都有其不同的地方,所以这两个模型的优缺点也是一一对应的。

所以在挑战高考数学题时,出现了这样的情况,也是在检验国内大模型的识图能力,但是GPT-4o在没有识图的干扰下,就会显得更优秀一些。

所以这就引出了一个问题:国内大模型在识图上反而不如GPT-4o,但GPT-4o在文字识别上反而不如本地大模型。

那么这个问题要分析开来,一是GPT-4o在识图上的问题,二是GPT-4o在算法方面的问题。

GPT-4o在算法上相对问题不大,因为GPT-4o的算法名气真的是非常大,但问题就出在GPT-4o在识图时,所以问题就来到了,到底是GPT-4o的算法更好,还是GPT-4o对图片的适应程度更好。

结语

而在这个问题上一时半会还无法得出结论,所以要从不同的侧面来检验这两个模型的能力,而在实际使用时,也不能一昧的说GPT-4o好还是国产大模型好,要从不同的方面才能达到实际性上的判断。

而国内大模型的技术方面也是需要加强的,毕竟技术要不断的升级才能够更好的开展下一步的工作,所以我们对技术的进步也要保持关注,相信国产大模型在数学题上的能力会有所提高。

,
大家还看了
也许喜欢
更多栏目

© 1998-2024 shitiku.com.cn,All Rights Reserved.