您的位置:首页 >李海大学等五所高校联手:AI能否像老师一样看懂学生的错误思路?
发布于2026-04-26 阅读(0)
扫一扫,手机访问

2026年3月,一份由李海大学、松鼠AI学习、中科院自动化所等五所知名院校联合完成的研究,被发布在arXiv预印本平台上(编号:arXiv:2603.24961v1)。这项研究做了一件挺有意思的事:它第一次系统地探究了那些“多才多艺”的多模态大语言模型,到底能不能像人类老师一样,读懂学生手写数学作业里的错误。想刨根问底的读者,不妨用上面的编号去搜搜看原文。
想象这么一个画面:孩子的数学作业本上,写满了数字,涂涂改改,算式东倒西歪。家长看了可能一头雾水,但经验丰富的老师却能一眼看穿——错在哪里?为什么错?孩子的思路卡在哪个环节了?现在,研究人员正试图让人工智能也获得这种“透视”能力。
孩子的手写草稿,对AI来说无异于一部天书。数字“7”带个小勾,除号写得像加号,涂改的墨团掩盖了关键步骤……这些对人类老师而言,经过训练和经验的积累尚可解读,但对AI模型来说,却是第一道难以逾越的鸿沟。
研究发现,现有的AI在处理手写数学符号时,表现得像个“近视眼”。举个例子,学生在计算4÷35时,可能因为不熟悉小数除法,在过程中错误地移动了小数点,最终得出一个相距甚远的答案8.75。人类老师能顺着草稿的笔迹,还原出学生的思维路径,判断出这是小数计算技能薄弱所致。然而,AI往往连那些潦草变形的数字和符号都识别不准,更别提追踪背后跳跃的逻辑了。
更复杂的是格式问题。数学草稿从来不是印刷体,上面有随意画的圈、箭头、旁注。这好比在一张凌乱的地图上找路线,人类老师能凭经验分辨哪些是正式步骤,哪些是草稿涂鸦;而AI则很容易被这些“噪声”干扰,完全误解学生的意图。
数据很能说明问题:即便是表现最好的AI模型,视觉识别错误率也高达36%。这意味着超过三分之一的情况,AI连学生写了什么都没看清,后续的分析自然无从谈起。
即使AI勉强“看清”了内容,更大的挑战才刚刚开始:理解错误的本质。这有点像中医辨证,同样是“答案错误”,背后的“病因”却各不相同。
研究团队将数学错误精细地分成了七大类。比如,“程序性错误”是步骤执行出了岔子;“计算错误”是具体运算时“手滑了”;而“逻辑推理错误”最为棘手,好比下棋时战略思路从根上就偏了,步步皆错却看似合理。
不同年龄段的学生,错误模式也大不相同。小学生的错误主要集中在题目理解和基础计算上,这两类加起来能占到70%,像刚学做菜的新手,不是看错菜谱就是放错调料。中学生则更多地在复杂计算和概念理解上栽跟头。
有趣的是,AI对不同类型错误的诊断能力也参差不齐。对于有明确外在特征的“抄写错误”,AI识别尚可;但面对需要深度理解的“逻辑推理错误”,AI就显得力不从心。
识别符号是技术活,理解思维则是认知层面的高难度动作。这就像侦探破案,不能只看现场,还得推演出完整的作案动机和过程。
来看个实际案例。题目问:“小明4分钟做了35道题,平均每道题用多少分钟?”正确答案应是4÷35≈0.11分钟。但有学生答了8.75。人类老师扫一眼草稿就能发现,学生把除数和被除数弄反了,这暴露了他对“平均时间”概念的误解。
AI在处理这类问题时,常犯两种毛病:一是“过度推理”,自己脑补出学生根本没犯的错误;二是“表面诊断”,只能指出答案不对,却说不到错误的根子上。
另一个反直觉的发现是:AI在处理小学低年级简单题目时的表现,有时反而不如处理中学复杂题目。原因可能在于,小学生的书写更随性,解题思路也更跳跃,缺乏规范的步骤展示,这让习惯结构化工序的AI更难以捉摸。
这项研究最可贵的一点,是它基于真实的、原汁原味的学生作业。团队从海量样本中,最终筛选出1720份涵盖一到九年级的数学草稿,覆盖了数字、方程、几何、应用、统计五大领域。
数据标注采用了“人机协作”的严谨模式:先让AI初判,再由五位资深的数学老师最终审核修正,确保标签的可靠性。这个过程,有点像医院的专家会诊。
数据分析揭示了一些鲜明的趋势:小学阶段,理解和计算错误是重灾区;到了中学,随着知识变难,概念理解错误的比例显著上升。此外,人类专家之间对于错误判断的一致性超过了90%,这为评估AI设定了一个明确的高标准。
研究团队拉来了16位“AI教师”同台竞技,阵容豪华,从开源翘楚到商业明星,包括Qwen2.5-VL、GPT-4o、Gemini 2.0 Flash等。
比拼结果可谓喜忧参半。在“错误原因解释”这项核心任务上,表现最优的模型(o4-mini)准确率在70%左右。但请注意,人类老师的标杆在87%以上。这意味着,最顶尖的AI仍落后人类近20个百分点。
而在更精细的“错误分类”任务上,差距被进一步拉大:最好的AI准确率仅40%出头,人类老师则轻松超过78%。这好比一个医生,或许能看出你生病了,但具体是什么病,却经常误诊。
为了找到病根,研究团队深度剖析了100个典型失败案例。
首要问题依然是“看不清”(视觉识别失败,占36%)。学生写的“-3÷(-6)=1/2”,在AI眼里可能变成了别的符号组合,第一步就错了。
其次是“看不懂格式”(占15%)。草稿上的箭头、圈画、涂改,这些人类老师能自动过滤的辅助信息,却经常让AI晕头转向。
此外,“幻觉”(占16%)和“错位解读”(占17%)也很常见。AI有时会无中生有,编造学生没犯的错误;或者虽然看到了所有步骤,却无法将它们按正确的逻辑顺序串联起来,还原不出真实的思考轨迹。
AI的能力也存在“偏科”现象。它在几何与测量、统计与概率这类步骤相对规范、答案相对唯一的领域表现较好。然而,一旦遇到方程与函数这类需要多步、复杂逻辑推理的题目,AI就颇为吃力了。
应用数学题目则呈现两极分化:对于有固定套路的“行程问题”,AI尚能应对;一旦题目涉及现实建模和开放假设,AI就容易“死机”。这恰好暴露了当前AI在处理真实世界复杂性和灵活性上的短板。
另一个有趣的发现是AI表现的“年级效应”。在解释错误原因时,AI的表现随年级升高而轻微下降,可能是被高年级题目的内在复杂性难住了。
但在给错误分类时,趋势却完全相反:AI对高年级作业的分类准确率明显更高。原因在于,中学生的解题过程更规范、步骤更清晰、书写更工整——这相当于给AI提供了一份更标准的“普通话”文本,当然比解读小学生的思维“方言”要容易。
在这场比拼中,商业化模型(如o4-mini)整体上显著领先于开源模型,这背后是数据质量、算力投入和工程优化的综合优势。尤其是在需要深度推理的任务上,那些专门强化了推理能力的模型(无论是商业还是开源的)表现都更突出,这说明理解学生错误,光靠“看”还不够,核心在于“想”。
当然,开源模型也有亮点。比如在某些特定领域(如统计概率),个别开源模型的表现甚至不输商业模型,显示了其在垂直领域训练的独到之处。
尽管目前AI还不能媲美人类老师,但其应用前景已然清晰。首先,它可以成为老师的“超级助教”,高效完成作业的初筛,让老师能聚焦于最需要人工干预的复杂案例。
其次,在推动个性化学习上潜力巨大。AI若能精准诊断每个学生的独特思维误区,就能生成量身定制的学习报告和练习,实现“对症下药”。
当然,挑战依然严峻。技术上,手写识别与深度推理能力有待突破;教育理念上,则需警惕过度依赖技术而削弱师生间宝贵的人文互动与情感连接。如何让AI真正成为“助攻”而非“主角”,是未来教育智能化必须深思的课题。
说到底,这项研究揭示了一个核心事实:理解人类写在纸上的、充满跳跃和涂改的思维过程,其复杂程度远超我们的想象。从潦草字迹到逻辑误区,这中间需要跨越的不仅是技术鸿沟,更是认知鸿沟。
不过,这项研究的价值恰恰在于此。它搭建了一个坚实的评估基准,提供了高质量的真实数据集,为后续的探索铺平了道路。或许在不远的将来,每个孩子真的能拥有一位永不疲倦、即时反馈的AI学习伙伴,那无疑将为教育的个性化与公平性,打开一扇全新的大门。
Q1:ScratchMath数据集包含了哪些内容?
A:它包含了1720份来自中国中小学的真实数学手写草稿,覆盖一到九年级,涉及数字与表达式、方程与函数等五大数学领域。每一份都包含了原始手写过程和经过专家标注的错误分类信息。
Q2:当前最先进的AI在理解学生数学错误方面表现如何?
A:即使是顶级模型,在解释错误原因上的准确率也仅在70%左右,远低于人类老师的近90%水准;在错误分类任务上,差距更大,AI约40%的准确率与人类近80%的水平相比,仍有很长一段路要走。
Q3:AI在分析学生数学错误时主要面临哪些困难?
A:主要困难有三:一是视觉识别关,难以准确辨认潦草、不规范的手写符号;二是格式理解关,容易被涂改、圈画等非标准布局干扰;三是逻辑推理关,难以深入追踪并理解学生多步骤解题过程中的根本性思维误区。
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
正版软件
正版软件
正版软件
正版软件
正版软件
1
2
3
4
5
6
7
8
9