美国奥林匹克运动会的问题已经撕裂了AI数学神话
作者:bet356体育官方网站日期:2025/04/03 浏览:
Xin Zhiyuan报告编辑:Kinghz Aeneas [Xin Zhiyuan简介]在数学推理中,大语模型有基本的限制:在美国数学奥林匹克运动会中,领先的AI模型得分低于5%!来自苏黎世等机构的Matharena团队突然撤销了AI可能会遇到数学问题的神话。 3月26日,一项ETH研究和其他团队发行后在圈子中进行了激烈的讨论。这项研究完全是打开无花果叶子的眼泪,直接破坏了“ LLM可以使数学问题”的神话!纸质地址:https://files.sri.inf.ethz.ch/matharena/usamo_report.pdfin对他们先前在Aime中剩下的表现的视图,Matharena团队使用了2025年的2025年美国数学Olympiad,进行了详细的审查,结果令人惊讶 - 所有大型模型都少于5%!扩展全文
DeepSeek-R1表现出色,标记为4.76%;虽然表现最差的Openai O3-Mini(高),而达到2.08%上一代O1-Pro(高)。
2025年USAMO的每个顶级型号的标记
直到现在,这项研究再次被检测到,并已成为Reddit的热门话题。
具体而言,在这项研究中,需要根据2025年USAMO的数学问题进行六次证明评估该模型。每个问题的分数为7分,最高分数为42分。然后,他们将由人类专家标记。
这些模型获得的最高平均得分仅为5%,这很糟糕。
更有趣的是,当这些模型得分解决问题时,他们也不是Unitedtheir Marks(在这里命名为O3-Mini和Claude 3.7)。与人类研究人员相比,标记已被提高了20次以上。
因此,模型以前被人们欺骗并产生了这样的幻想,即他们擅长使数学纯净,因为他们训练了所有周到的数学数据 - 国际奥林匹克问题,美国奥林匹克档案馆,书籍,书籍,纸,纸,纸,恩都看到了他们!
目前,他们突然暴露了三个致命的缺陷。
逻辑错误:模型在识别过程中不合理地跳跃,或将主要步骤标记为“毫无价值”。
缺乏创造力:大多数模型反复遵守相同的缺陷技术,不会探索继任者。
评级失败:LLMS自动评级Makiskulthey提高了他们的分数,表明他们无法期望评估其工作。
这是人们投资数十亿美元的结果。
DeepSeek,单一眼球播放器
幸运的是,这项研究有一些令人鼓舞的迹象。
例如,“对整个村庄的希望” DeepSeek几乎完全解决了其中一次尝试中的问题4。这个问题的基本含义是:
令H为急性三角ABC的中心,f是从C到AB的高sAG,P是H大约BC的对称点。假设三角AFP的圆周在两个不同的点进入BC的直线X和Y。证明:C是XY的中点。
LLM数学功能强大吗?
LLM数学能力长期以来一直受到研究人员的怀疑。
在Aime 2025 I中,Mod Performance是Openai O系列的惊人唱片,真是太神奇了。
作为回应,来自Eth Zurich的研究人员MislavBalunović在X中公开指出:“ LLM具有概括数学问题或学会记住问题的能力时,并最终有了答案。”
在AIME 2025 II中,O3-Mini(高)的准确率高达93%!
如果您对数学数据数据问题进行了一些更改,那么许多模型的性能将大大降低!
美国数学奥林匹克运动会的试验AIME 2025 I和AIME 2025 II是2025年参与USAMO的良好分数
所以问题是,LLM的数学能力很强吗?
LLM真的学习了数学证明吗?
目前,苏黎世和其他研究团队终于得到了证明:实际上,LLM几乎没有学会数学证明!
Inanythy The Research TeAM将通过审查数学奥林匹克运动会的经验来照顾专家,以评估O3-Mini,Claude 3.7和DeepSeek-R1等顶级模型的证明。
在审查报告中,研究人员重点介绍了许多常见问题。
例如,AI将使用意外假设。
例如,即使没有必要这样做,模型也总是沉迷于输出良好的最终答案。
记住LLM的性能
这是2025年美国数学奥林匹克运动会(USAMO)首次对LLM语言的自然证据进行系统评估。
作为美国高中数学竞赛的最高宫殿,USAMO需要证明与国际数学奥运会(IMO)相同水平的严格详细解释。
美国数学奥林匹克运动会(USAMO)ISA国家邀请赛和选择国际数学奥运会球队的关键步骤。
选择美国国际数学的过程ICS奥林匹克运动会
USAMO和USAJMO是两天的纸张/证明测试,包括六个问题和九个小时。
USAMO完美匹配LLM评论的目的:问题很困难,需要一个完整的证明过程来得分,而不是被公共数据污染。
尽管通过AIME和其他活动进行了竞赛,但USAMO问题对严格解决问题和解释深度的要求更高。
总体而言,涉及USAMO问题中当前的LLMS性能,最佳模型的平均标记不到5%。
在数学家术语中构成了现有LLM的严格证明,仍然存在Pangsfree限制!
首先,在本报告中,该程序在§2中进行了解释,结果在§3中进行了详细介绍,并评估了主要弱点,并且第4节讨论了技能观察中的许多结论。
LLM评估方法
在评估过程中,每个模型都有一个问题,显然需要提出详细的LA证明Tex格式规范。
促使单词的完整描述,原始文本如下:
直接词的一般含义是:
请提供以下问题的详细答案。 Manu法官将根据准确性,准确性和证明结果的能力来标记您的答案。您必须包括所有证明步骤。不要跳过重要步骤,因为它会降低您的分数。不足以说出结果。 mangiing使用乳胶格式化您的答案
{问题}
为了减少差异 - 每个模型能够解决每个问题4次。
所有答案(不包括理解过程)都同样转换为用于标记的PDF格式。
专家和认证方法
评分团队由四个专家组成,每个专家都有解决问题的丰富数学经验。他们曾是国家国际数学奥林匹克运动会(IMO)团队的成员,或者参加了国家选择C的最后阶段Ontries。
在评分之前,法官收到了指南有关评估目标和方法的详细说明。
2025年美国数学奥林匹克运动会(USAMO)有六个问题。
每个法官成员都可以与两位审阅者相称,而酌处权的每个成员都可以理解纠正三个不同的问题。
这种标记的双重方法符合国际数学奥林匹克(IMO)审查过程,从而确保了分数的一致性和减少个人偏见。
由于美国数学奥林匹克运动会的官员没有发布共同的答案或评分计划,因此研究人员依靠数学资源,尤其是解决问题的艺术(AOPS)来仔细为每个问题制定标准标记计划。
在制定评分计划之前,审阅者证明了这些来源所有答案的准确性。
根据美国数学奥林匹克运动会的说法,每个问题的最高分数是7 p原告,将提供一些要点,以进行有意义和重大发展的答案。
审查专家无独立地根据预先开发的标记标准检查每个答案。当与标记标准有偏差时,审查将在合理范围内提供一些分数。
每个专家都应详细记录标记的基础,包括给出所有分数的原因。相关评论在项目网站上公开。
错误模式档案
在评估过程中,专家还需要系统地记录常见的错误模式。
“误差模式”定义为解决问题的过程中的第一个缺陷,包括但不限于:逻辑谬论,未指定的假设,错综复杂的数学表达式或计算错误。
具体而言,这些错误在以下四个类别中分类为:
1。逻辑错误:由于逻辑下降或不可避免的推理,参数链被损坏p;
2.假设中的错误:引入非扰动或不正确的假设,导致随后的推导失败;
4。操作误差:临界代数操作或算术计算误差。
此外,对于值得关注模型产生的解决方案的行为或趋势,研究人员将其记录为文档以进行进一步分析。
这些观察结果用于确定标准陷阱和模型在推理能力方面需要改进的领域。
分析结果
在解决美国数学奥林匹克(USAMO)问题时,所有模型都表现不佳。
此外,我们将对PagingKabig的标准模式进行深入分析,以找出模型推理过程中的典型错误和趋势。
主要发现
为了响应2025年美国数学奥林匹克运动会(USAMO),审查了六个最先进的推理模型,尤其是QWQ,R1,Flash Thinky,O1-Pro,O3-Pro,O3-Mini和Claude 3.7。
tABLE 1提供了每个问题的模型性能的详细分类,其平均得分是根据四个检查运行计算得出的。
美国数学奥林匹克运动会中每个问题的完整分数为7分,每个跑步的总数为42分。
该表还包括每个模型的总操作以及所有问题和评论的运行。
成本以美元计算,在所有问题中,每个模型的最终分数均以每个评论提供的平均分数呈现。
表1:分析主要结果。每个问题得分为7分系统,总计42分。表上的标记是四个运行的平均值。
新的综述显示了LLM在严格的数学证明的发展中的重大缺点。
所有测试模型的最高平均分数均小于5%,结果表明现有模型对复杂性具有主要限制,并且严格处理USAMO级别的ProblEMS。
值得注意的是,整个商标收到的所有模型都没有提交的近150个答案。
尽管USAMO的问题实际上比以前的测试竞赛更加困难,但所有模型灭绝一个以上问题的灭绝充分证明了当前的LLM仍无法在奥运会的数学水平上执行严格的家庭作业活动。
该限制还表明,现有的优化方法(例如GRPO)仍然对需要高逻辑准确性的活动无效。
常见的失败模式
人类比赛通常找不到正确的解决方案,但是通常他们可以判断他们是否正确回答。
另一方面,LLM坚持认为问题本身是解决问题的,无论他是否正确地做到了。
这种对比导致了数学领域的LLM应用程序的困难。如果不是由Manu -Man严格证明这一点,那么这些模型提供的数学结论是不可靠的。
了解LLM限制,根据标准审查,对标记过程中发现的错误进行系统的审查。
图2显示了判断类型错误类型的分布。
在所有类型的错误中,逻辑缺陷是最常见的。
LLM经常使用毫无根据的推理步骤,纠纷期间的错误或误解。
此外,该模型存在一个主要问题:遇到证明的基本步骤时,它被完美地归类为“显然已建立”或“标准过程”而无需提出争论。
甚至O3米尼都将主要证明中的步骤标记为“明亮”几次,然后直接跳过它们。但是,如果这些步骤严格对于解决问题至关重要。
除了上述问题外,研究人员还发现,该模型的推理尚未缺乏创造力。
当许多模型试图一遍又一遍地解决问题时,它们总是使用相同的(可能是错误的)问题解决技术,而不是探索其他方法。
但是,闪存思维模型是一个例外。它在解决问题时测试了许多技术。但是,由于我想做很多事情,所以我没有输入任何技术,最终未能得出有效的结论。
值得一提的是,这些模型在代数操作中表现良好。
面对复杂的符号操作,您可以在没有外部计算工具的帮助下轻松地进行操作。
但是,R1模型的代数/算术错误率相对较高,仍然需要针对。
常见问题
在评估过程中,审查的专家还记录了该模型的常见问题和重要特征。
回答框架问题
目前,基于加强的教育技术(例如GRPO)需要从明显的最终答案中获取奖励信号。
因此,通常要求模型对\盒装{}的最终答案。
但是,该请求导致异常SUSAMO问题解决过程中的迭代。大多数问题并不是真正迫使最终答案,但是模型需要这样做。
以第五个问题为例,在解决问题时,QWQ模型即使问题是无限的,也消除了非企业解决方案的可能性。
确定最终答案为2也是错误的。
QWQ可以是“我 - 拖拉自己”!
它想要对整数的答案,但实际上,答案显然是所有内容的集合。
这种现象表明,诸如GRPO之类的对齐技术意外地进行了模型,形成了“答案必须为所有数学问题构架”的固定思考,而这会削弱模型的推理能力。
盲人一般
该模型存在一个常见的问题,它希望应用在尚未证明的场景中观察到的模式。
有了只能找到数字答案的问题,此方法可以起作用。 bUT一旦找到需要严格证明的问题,它的缺勤就会暴露出来。
该模型通常不会证明任何证据,并且声称当地观察到的模式适合所有人。
例如,在问题解决方案2期间,闪存思维模型选择一个特定的多项式进行验证,但是所有多项式的结论都被误认为。
这种直接从特殊情况跳到普遍结论的做法使当前模型的基本缺陷揭示了考虑的能力 -
他们缺乏对“足够证明”的基本数学原则的理解,并且不认识“验证示例”和“完整证明”之间的重要差异。
双子座我在闪烁的思想中
解决方案结构和清晰度
不同模型的解决方案在结构清晰度方面有很大差异。
1。高质量的例子:答案NG O3-Mini和O1-Pro很清晰,并且具有清晰的层
2。常见缺陷:Flash和QWQ思考OFTEN产生混乱且难以解决的响应,有时许多无关的想法与相同的解决方案混合在一起。
OpenAI培训模型是如此可读!它表明,专门针对答案统一的培训可以提高产出质量。
相比之下,其他模型显然对这一方面不注意。
参考:
https://files.sri.inf.ethz.ch/matharena/usamo_report.pdf
https://maa.org/maa-invitational-竞赛/返回Sohu以查看更多
相关文章