米兰·(milan)中国官方网站-当AI学会高数:解题、出题、评分样样都行
作者:米兰·(milan)文化
更新时间:2026-04-14 20:34:21
点击数:
“高档数学里程碑式的研究”,114页论文让AI文理双修,或许不久后呆板出的高数试卷就会走进高校讲堂,这下可以说“高数题不是人出的了”。编译 | 王晔编纂 | 青暮
人工智能虽然给咱们带来了诸多便当,但也难免遭到了各类质疑。于互联网范畴体现优良的人工智能,于数学范畴的许多体现却被认为是“出乎意料地糟糕糕”。基在Transformers的语言模子于零样本及少样本等各类天然语言处置惩罚(NLP)使命中取患了使人难以置信的乐成。可是,“这些模子于解决数学问题方面基本上是掉败的。”中国科学院院士、普林斯顿年夜学数学系及运用数学研究所传授、北京年夜数据研究院院长鄂维南曾经暗示,神经收集可以帮忙咱们有用地暗示或者迫近高维函数,深度神经收集是一个有用的东西,它带来的影响是巨年夜的。以上思绪更多还有是基在深度进修于特性提取上的上风,然而,于更简朴或者“低维”函数的、符号逻辑层面的推理中,神经收集真的毫无但愿了吗?回归人工智能成长萌芽阶段,符号语言的思惟为数理逻辑的孕育发生及成长奠基了基础。其时人们试图将对于一切事物的理解与认知化为符号语言以和符号间的推理,以此思绪构建的模子以符号为基底,但也许可以测验考试另外一种思绪,就是先用神经收集挖掘符号的特性。于最新的一项研究中,用神经收集的要领切确求解低维的数学问题被证明很是有用。值患上一提的是,该项研究中还有用到了OpenAI Codex。作为一种天生软件源代码的深度进修模子,Codex 可以理解十几种编程语言,经由过程 API 提供的 Codex 模子于 Python 编程中也具备极强的能力,它于履行编程使命时可以或许思量到上下文信息,包括转译、注释代码及重构代码。该研究还有被其研究团队称为“第一项可以范围化主动解决、评分及天生年夜学程度数学课程问题”的事情,打破了人们遍及认为的神经收集不克不及解决高档数学问题的不雅点。“这些所谓不可功的研究只利用了基在文本的预练习,而既对于文本举行预练习又对于代码举行微调的神经收集,可以经由过程步伐合成乐成解决年夜学程度的数学问题。”
论文地址:https://arxiv.org/pdf/2112.15594v1.pdf1秒速解高数呆板进修模子真的可以解决单变量函数的图形绕轴扭转孕育发生的体积、洛伦兹吸引子和其投影、奇特值分化(SVD)要领的几何图形等问题吗?这项研究展示了呆板进修于这方面的强盛能力。呆板进修模子可以年夜范围很好地解决麻省理工学院包括单变量微积分、多变量微积分、微分方程、几率及统计学导论于内的数学课程问题。不仅云云,该团队的研究证明它还有可以解决MATH数据集的问题,“MATH数据集是权衡模子的数学问题解决能力的基准,该数据集的重要来历是高中数学竞赛,如AMC 十、AMC 12及AIME等。今朝为止,开始进的 Transformers ,如GPT-3,只对于文本举行了预练习,GPT-3取患上的最佳成就整体正确率为6.9%,而且于所有标题问题上的正确率都低在8.8%”。
图1:图中展示了模子可求解的高数问题。例如,于微积分18.01-02中,求由两个二维图形限制的二维区域缭绕z轴扭转一周获得的体积(右上);于微分方程18.03中,求解洛伦兹奇特吸引子(右下);于线性代数18.06中,画出奇特值分化(SVD)的几何图形(右下)。“之前利用Transformers解决数学课程问题的事情之以是掉败,是因为像GPT-3同样的Transformers,只于文本长进行了预练习。”研究团队认为此前事情利用验证或者猜测表达式树的结合练习输出,虽然于解决小学程度的数学问题(如MAWPS及Math23k)时,正确率跨越80%。然而,这类要领的有用性并未于高中、数学奥林匹克或者年夜学程度的数学课程中获得扩大。厥后有人经由过程与图神经收集(GNN)配对于猜测算术表达式树(expression trees),并于文本上预练习Transformers,来求解年夜学程度问题,且正确率高达95%。可是这个成果仅限在数字谜底,并局限在特定课程,不易扩大到其他课程。而本文的这项研究证实,把问题酿成编程使命举行步伐合成,是年夜范围解决数学及STEM课程的要害。“对于文本举行预练习并对于代码举行微调的 Transformers ,可以于MATH数据集及年夜学程度的数学课程上取患上完善体现。”如图1所示,研究团队将麻省理工学院课程中的数学问题及MATH数据集举行处置惩罚,并将其作为输入传给OpenAI Codex Transformers,使要解决的问题转化为编程使命,然后履行主动天生步伐。问题差别,运行步伐的输出情势也差别,包罗数字输出情势,甚至可以经由过程步伐合成从文本中孕育发生图片输出情势。该团队用prompt天生法(prompt generation methods ),使Transformers可以或许为每一个随机抽到的问题天生带图的解题步伐及方案。比拟之下,这项事情可以输出包括图表于内的多种模式,而且不需要专门的练习就能够扩大到其他数学课程。他们还有对于原始问题及转化后的问题举行了对于比量化,并经由过程查询拜访评估了天生问题的质量及难度。
表1:针对于六门课程(18.01, 18.02, 18.03, 18.05, 18.06, 6.042)及MATH数据集的六个主题(预-代数,代数,中级代数,计数及几率,预-微积分,数论)中的一些问题的解决方案。解决方案可包罗数字谜底、方程式及图表等。于上表所列的麻省理工学院的数学课程中,利用该要领可以很好地主动解决、评分及天生问题,而且所有这些都是及时的,每一个问题处置惩罚时间竟不到一秒。2要害研究试验标题问题来自麻省理工学院六门课程中随机抽取的25个问题,及MATH数据集的六个主题中各随机抽取5个问题。而且,为了申明他们的研究成果不是过分拟合练习数据,他们还有用了于练习时期网上查不到的新的运用线性代数课程COMS3251来举行验证。技能取代人举行解题时,其实不是利用技能对于问题举行庞大修改,而是努力提取问题的素质,是以,该团队利用Codex对于问题举行了收拾。
图2:问题的扩充及重组获得准确的Codex输出。上图中,显示了利用Codex将课程问题转化为编程使命并运行步伐以解决数学问题的要领。每一个面板的左半部门显示了原始问题及经由过程添加问题配景、互动或者简化后而从头表述的问题。添加问题配景长短常有须要的,对于学生及步伐来讲,解题域是选择适合的解题要领的须要信息。例如,假如没有问题配景,一个关在收集的问题,多是关在神经收集的问题也多是关在通讯收集的问题。面板A中对于微积分方程问题的主题配景举行了增补,将其从头表述为一个编程使命的问题。增补配景包括澄清暗昧不清的界说及运算符,或者有一个以上尺度用法的符号,申明学生经由过程进修课程就会知道的隐含假定,包括课程的主题或者课题,指出学生从与问题相干的讲座或者教科书章节中学到的适量要领。面板B中利用了Python库、sympy库及streamplot库的配景,用在解题及绘制可视化图。假如步伐的语法与Python版本不兼容,或者者数据类型有过错,又或者者没有利用库,合成步伐于履行中可能没法获得准确的谜底。面板C中显示了几率及统计学中的一个例子,原始问题被转化为天生模仿的几率编程使命。于做题时学生可以从课程的主题及涵盖的质料中获得一些信息,于这个历程中,要经由过程相识问题配景,确定所需要的是甚么类型的谜底,对于处置惩罚情势有一个合理预期。例如,几率或者组合学中的很多问题可能需要用阶乘、组合函数或者指数往返答。是以于试验中也必需要提供配景,以便用准确的要领来处置惩罚问题。面板D思量到NLP模子于处置惩罚长而繁杂的文本方面有坚苦,是以将较长的问题分化成为了详细的编程使命,并删除了了过剩的信息。经由过程互动孕育发生了多个图,交互式利用Codex可使可视化图很好地被绘制出来,而且可以发明缺掉的功效或者需要的库。面板E来自《计较机科学数学》,对于问题举行了简化处置惩罚,简化包括删除了过剩的信息,将长的句子布局分化成较小的构成部门,并将提醒转换为编程格局。归纳综合提炼出简便的提醒及一系列较短的问题,可以提高Codex机能。除了此以外,他们还有思量了原始课程问题转化为Codex 提醒的三种环境:原样提醒。原始问题及Codex 提醒是不异的;主动提醒转换。原始问题及Codex提醒差别,Codex提醒是由其自己主动天生的;手动提醒转换。原始问题及Codex提醒差别,Codex提醒是由人天生的。当把问题转化为Codex提醒时,又呈现了一个要害性的问题:原始问题与以后孕育发生准确谜底的提醒于语义上的靠近水平怎样?
图3:按课程及种别划分的所有问题的余弦相似度漫衍。如图3所示,为了丈量原始问题及转化后之间的差距,他们利用Sentence-BERT嵌入之间的余弦相似度。Sentence-BERT利用siamese及triplet收集布局对于预练习的BERT模子举行了微调。Sentence-BERT可以或许于句子层面上孕育发生语义嵌入,从而可以于长篇文本中举行语义相似度比力。运用他们的要领,对于在难度较低的课程,修改极少量原始问题(高余弦相似度分数),就能够到达Codex提醒,输出一个提供准确谜底的步伐。而每一个框图左侧的线代表每一门课程的基准相似度分数,经由过程平均每一门课程中所有如许的问题组之间的相似度计较患上出。他们还有做了原始问题及孕育发生准确谜底的转换版本之间的相似性分数的直方图,用来评估。
图4:最右侧的一列代表了按原样或者做了很是小的改动就能准确回覆问题所占的百分比。利用Codex举行提醒天生也会孕育发生一些问题。于某些课程中,直接用未经转化的原始问题来提醒Codex其实不能获得准确的谜底。是以,需要将原始问题的情势举行转化,他们将其重要分为三类:主题配景。为Codex提供与一般课程及详细问题相干的主题及副主题,可以帮忙引导Codex孕育发生准确谜底。例如,对于在几率中的前提预期问题,提供有关贝叶斯定理、预期值等配景。库配景。为Codex提供解决特定问题所需的编程包/库也长短常有帮忙的。例如,指导Codex利用Python中的Numpy包以解决线性代数问题。界说配景。许多时辰,Codex缺少某些术语的界说基础。例如,Codex其实不清晰扑克牌中 Full House 的寄义。明确这些术语的界说并让Codex理解它们,可以更好地引导其步伐合成。此外,他们还有利用Codex,经由过程从数据集中创立一个有编号的问题列表,为每一门课程天生了新的问题。这个列表于天生随机数目的问题后会被堵截,其成果将用在提醒Codex天生下一个问题。反复举行此历程,就能够为每一门课程天生很多新问题。
图5:学生查询拜访问题。学生要对于60个问题中的每个问题举行评分。如上图所示,他们还有于麻省理工学院及哥伦比亚年夜学选修过这些课程或者其划一课程的学生中举行了永劫间查询拜访,比力了呆板天生的问题及人写的问题于每一门课程中的质量及难度。
图6. 学生查询拜访成果。A组基在学生的评分,比力了人工编写的问题及本文研究要领为每一门课程孕育发生的问题的难度。该图显示了1(最轻易)及5(最难)之间的难度评分的平均值,以和它们的95%置信区间。B组显示的是人工编写的及呆板天生的问题被评为合适及不合适该课程的百分比。C组显示了被评为人写的或者呆板天生的问题的百分比。然而,该研究还有有一些局限性,如Codex只能接管基在文本的输入,是以该团队的要领没法对于输入图象举行处置惩罚,没法回覆带有须要视觉构成部门的问题,如数字或者图表。其次,本研究没有触及高级数学证实的问题,他们夸大,这是研究的广度所带来的限定,而不是Codex的限定。而且,他们的要领末了一步是经由过程履行一个步伐来完成的,例如利用Python注释器,存于局限性。此外,理论上繁杂性成果也不合用在本研究解决的详细实例。3总结该团队的研究证实,对于文本举行预练习并对于代码举行微调的 Transformers可以或许解决练习可以或许经由过程步伐合成解决、评定及天生年夜学程度的数学问题。问题集的天生及阐发进一步验证了这些惊人的成果。这项研究乐成证明了现代步伐设计语言可以作为一种替换性的表述及计较情况。由他们的要领不需要分外的练习,就能够扩大到其它STEM课程,而且可以给高档教诲带来巨年夜的帮忙。他们的研究证明了,用现代编程语言举行的神经收集合成是更有活气及广泛合用的,有可能解决更广泛的问题。只管任何有限的计较均可以被暗示为充足年夜的表达式树,但人们可能会看到所需的表达式树的巨细多是肆意年夜的。与图灵完整语言比拟,这类矫捷性获得了增强,由于已经经存于的年夜量步伐语料库让可用的标志表达式树的数目相形见拙。“步伐输出于素质上也更合适人类浏览。由于利用抽象化、模块化及高级逻辑的能力可以更清楚地申明解决问题的要领。”此外,步伐天生可以经由过程注释性的解释以和函数及变量的名称,直接转达逻辑推论。值患上一提的是,于他们的这项研究中于Codex的一些输出中看到了如许的注释文字及推导。“这类正式及非正式语言的同一是咱们要领论的一个固有的上风。”参考资料:1. CQ Choi, 7 revealing ways AIs fail: Neural networks can be disastrously brittle, forgetful, and surprisingly bad at math. IEEE Spectr. 58, 42–47 (2021)雷峰网(公家号:雷峰网) 雷峰网版权文章,未经授权禁止转载。详情见转载须知。





