人类高考“封王”的大模型,离真的“AI状元”还有多远?

c
comeforya
楼主 (北美华人网)

2025年的高考刚结束,AI挑战高考题的浪潮却持续升温。
DeepSeek、腾讯混元、讯飞星火、字节豆包、阿里通义千问、百度文心等大模型纷纷被“请”进同款试卷的线上战场,掀起了一波“AI 赶考”的刷屏热潮,“千军万马过独木桥”的竞赛在硅基世界中重演。
然而,不同评测团队的试卷版本和OCR识别效果各不相同,可能连模型是否顺利阅读到答卷都有很大的不确定性,打分标准更是五花八门,单次的“高分”往往难以复现。
另外,高考是为筛选人才而设计的,它考查的不仅是知识掌握,更是时间压力下的心理素质和临场应变能力。
当我们用非标测试下的AI高考分数能力来评估大模型的能力,真的客观吗?单次的分数,又能否代表某个大模型的真实能力?
先说结论:
●用高考题这种标准化试题评测大模型的单科能力具有一定的客观性和参考意义。但是成绩高不等于大模型一定强,人类考试的分数标准并不适用于AI模型的能力评估标准。
●目前的"AI高考"测试普遍缺乏严谨性,测试环境和评分标准都不够规范可信。
●评估大模型能力应使用专门设计的Benchmark。
●如果非要用“高考成绩”看模型能力,应该看梯队而非排名,几分的差距不能充分代表能力差距。
一、“AI高考"如何考?
从目前已经公开的文章来看,“大模型赶考”一般会经历以下两个步骤:
第一步是给大模型输入高考题,主要采用了以下几种方法:
直接文本输入:将题目以纯文本形式输入给大模型,让模型给出答案。但是如果题目包含图像,模型可能无法解题。
OCR转换法:将图片、扫描件或PDF文档中的文字转换为可编辑和可搜索的文本格式,再输入给大模型。这种方法的准确性很大程度上依赖于OCR技术的质量,可能引入额外的误差。
多模态输入法:直接将包含文字和图像的题目输入给具备视觉能力的大模型。这种方法最接近人类考试的实际情况,但很多大语言模型还不具备这种能力。
人工转写:由人工将题目内容转写为标准文本格式。这种方法可以避免OCR错误,但可能在转写过程中丢失或改变原题的某些信息。
第二步,是进行评分,这个环节也有不同的机制:
最简单的是标准答案对比法:将模型答案与标准答案进行对比,按照预设规则给分。这种方法相对客观,但主观题的评判还是会有偏差。
还有很多人邀请一线教师或教育专家对模型答案进行评分。这种方法的优势是专业性强,但完全依赖人类高考的标准,存在主观性和一致性问题。
多轮评分法:由多位专家独立评分后取平均值。这种方法可以减少个体主观性的影响,但评测成本较高,被采用比较少。
混合评分法:结合自动化评分和人工评分。对于有明确答案的题目使用自动评分,对于开放性题目使用人工评分。
给模型输入题目的路径方法五花八门,评分环节也有不同的机制,所以我们会发现同一个AI在不同媒体的测试中,分数往往不太一样,排名也是千差万别。
比如,让AI做同一张数学全国卷一。下图(上)是一位AI自媒体,用AI进行三轮答题,仅参考最终答案,按照答对的概率给模型评分,得出的得分排名。下图(下)是我们用OCR转化之后,取AI一轮答题结果,并请人类名师按照高考的标准进行评分后得到的结果。两个结果大相径庭,以豆包为例,右边得分仅为75分,而左边得分高达145分。


在评分标准中,我们特别注意到,为了结果的客观性,有些测试让 AI 在同一道题上连做数次,再取平均分。
这种做法仅仅可以说是相对科学。“多做几遍再平均”可以降低随机波动、在数值题上确实有用,但它帮不了模型纠正概念性错误。
大模型生成文字(更准确地说是“token”)的过程本质上是一次受概率分布控制的采样:在生成每个 token 时,模型会对词(或子词)表中的所有候选赋予一个概率。当推理温度 temperature 高于 0 时,模型不会总是选择概率最高的那个候选,而是按概率进行随机采样。
已有实验证明这一现象:在 GSM8K 等小学数学数据集上,让同一大语言模型(例如 PaLM 540B)以相同提示重复回答同一题目 10 次,单次回答的正确率可在约50 %– 75 % 之间波动;若对这 10 条推理链进行多数投票(“自一致”策略),整体正确率可稳定提升至 75 % 以上。

图:AI 模型在 GSM8K 算术推理基准上的“自一致”实验——随着对同一题目采样的推理路径数量从 3 增加到 30,模型(Cohere Command)的平均正确率稳定上升,而单一路径的贪婪解码(蓝线)几乎不变,清晰地展示了重复测试下的性能波动与收敛趋势。
这种输出的不确定性并非缺陷,而是生成式模型的技术特性,所以在评价这类具随机性的系统时,应采用多次采样、自一致投票或置信区间等方法,才能获得更可靠、可复现的性能指标。
在不同的预设环境下,用不同的评测方式,加上大模型自身的技术特征,很多人并没有进行多次答题采样,最终的结果是“大模型考生”进考场N次,但是还是决定不了究竟谁能上“清北”。
二、高考题适合测试AI吗?
那么,让AI做高考题究竟有意义吗?
智源研究院技术平台智能评测组负责人杨熙对腾讯科技说:“用高考题评测大模型的单科能力具有一定的客观性和参考意义,因为高考题标准化强、覆盖知识面广,能初步反映模型在各学科的基本表现。
不过,高考题主要针对人类设计,模型可能利用大规模语料或答题技巧获得高分,实际能力未必与分数严格对应,特别是在主观题或知识应用方面。“
上面两个对比不同的评分,主要的分数差别,就在主观题。高考题目为人类设计,为了衡量学生在特定的阶段(高中)对规定知识点的掌握与延展迁移能力。
主观题的解答过程中会设置多个得分点,如果在解题过程中没有覆盖得分点,即使仅仅是答案正确,也不能得满分。人类老师在点评AI数学试卷的时候,把大模型遗漏的得分点全部扣了分。
人类在考试的时候,不仅要考做得对,还要考思考路径。虽然目前的推理大模型有看起来与人类类似的思考过程,但是“大模型“与”人脑“的思维本质完全不同。
因此,人类教师扣分标准也不适用于AI(如步骤分)。
LLM 在构建“知识结构”时,会同时吸收课本语料、学术论文、软件代码、网页表格甚至带字幕的图像说明等多模态数据,因此它的“知识网”天然跨越小学算术到研究生数学的所有层级,并不是针对于高考的“高中”阶段。
这种高度杂糅的语料库带来了一种被称作“逆向(inverse)或 U-形缩放”现象:当模型规模增加、在预训练目标上损失降低时,部分看似简单的任务成绩反而先下降后上升,或者长期停留在低位。用通俗但不是很严密的语言来解释,就是在高难度任务上表现好,在低难度任务上反而出错。
比如,早期 GPT-3 系列便曾在"如果一个数的平方是16,这个数是多少?"这样的简单问题上犯错,它一般会只回答"4"而忽略"-4",但它当时却能够正确处理更复杂的二次方程。
进一步分析这些错误,研究人员也发现大模型的数学能力常呈“岛状分布”:在单一技能上得分特别高,而难以解决多个概念串联的综合题。比如,当同时给出图形与文字叙述时,多模态大模型的整体正确率显著低于纯文字的同等难度的题。
此外,大模型答题,有时体现的未必是“答题能力”,而是OCR 带来的“识题能力”差异。
即便换成原生多模态大模型直接看图答题,也难以彻底解决成像缺陷的问题。视觉编码器首先要在特征空间“看懂”图形,再交给语言解码器推理;若圆因拍摄角度被拉成椭圆,或光照不均让局部对比度骤降,模型就可能误把曲线、关键点甚至题目文字识别错位,随后整条推理链都会被带偏,导致整题全错。