米兰·(milan)中国官方网站-PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门
作者 | 王玥编纂 | 陈彩娴
近日,一项新研究发布在PNAS,再次刷新了神经收集的能力。此次神经收集被用来解决了高档数学题,并且还有是麻省理工数学课程难度的数学题!
于这项新研究中,研究团队证实了 OpenAI 的 Codex 模子可以举行步伐合成从而解决年夜范围的数学问题,并经由过程小样本进修主动解决数据集中 81%的数学课程问题,而且 Codex 于这些使命的体现上到达了人类程度。
原文链接:https://www.pnas.org/doi/10.1073/pnas.2123433119这项研究的呈现,倾覆了人们遍及认为神经收集没法解决高档数学问题的共鸣。研究团队指出,Codex 之以是能做到实现如许的能力,恰是由于团队举行了一年夜立异,已往那些不可功的研究只利用了基在文本的预练习,而这次现身的 Codex 神经收集不仅要基在文本举行预练习,而且还有对于代码举行了微调。
研究的问题数据集选用来自 MIT 的六门数学课程及哥伦比亚年夜学的一门数学课程,从七门课程中随机抽取 25 个问题:MIT的单变量微积分、多变量微积分、微分方程、几率与统计概论、线性代数及 计较机科学数学及哥伦比亚年夜学的 COMS3251 计较线性代数。
同时,研究团队利用了一个用在评估数学推理的最新高级数学问题基准 MATH,用 MATH 来检测OpenAI Codex 的能力,MATH 从6年夜数学板块:低级代数,代数,计数及几率,中级代数,数论,及低级微积分中各抽取15个问题。
图注:研究中利用的课程问题数据集及MATH基准测试研究显示,Codex 解决了问题数据集及 MATH 数据集中的 265 个问题,此中有 213 个是主动解决的。
1立异何地点于 Transformer 发布后,基在 Transformer 的语言模子于各类天然语言处置惩罚 (NLP) 使命,包括于零样本及少样本语言使命中取患了巨年夜乐成。可是由于 Transformer 仅于文本长进行了预练习,以是这些模子基本上不克不及解决数学问题,GPT-3就是一个典型例子。
厥后,经由过程小样本进修(few-shot learning)及思维链 (Chain-of-thought, CoT) 提醒,GPT-3 的数学推理能力获得了提高;然而,于没有代码的环境下,即便有小样本进修及 CoT 提醒, GPT-3 于年夜学程度数学问题及 MATH 基准测试中仍旧力所不及。
已往关在解数学题的研究,可能于相对于简朴的数学程度上有必然成就。举个例子,基在协同练习输出来验证或者猜测表达式树的技能,好比MAWPS 及 Math23k,可以或许以跨越 81% 的正确率解决小学级另外数学问题,可是其不克不及解决高中、奥林匹克数学或者年夜学难度的课程。协同练习与图神经收集 (GNN) 相联合以猜测算术表达式树,可以或许以高达 95% 的正确率解决呆板进修中的年夜学程度问题。可是这项事情也仅限在数字谜底,而且孕育发生了过拟合,不克不及推广到其他课程。
而这项事情的最年夜立异点之一就是,不仅对于Codex 这类Transformer 模子举行了文本上的预练习,还有于代码长进行了微调,使患上其可以天生年夜范围解决数学问题的步伐。

研究团队从数据集中随机选择不需要输入图象或者证实的问题样原来举行测试。此中,仅对于文本举行预练习的语言模子 (GPT-3 text-davinci-002) 仅主动解决了课程问题中的18%及 MATH基准测试问题中的25.5%。
比拟之下,利用零样本进修及对于文本举行预练习并于代码长进行微调的神经收集(OpenAI Codex code-davinci-002)合成的步伐可以主动解决课程问题中的 71%及 MATH 基准测试问题中的72.2%。
而利用不异的神经收集 Codex 再加之少样本进修,即可主动解决课程中81%的问题及 MATH 基准测试中81.1%的问题。而其余模子没法主动解决的19%的课程问题及18.9%的MATH基准问题,末了经由过程手动提醒解决。
小样本进修方式的增补,则是这项研究的第二年夜立异点。从上图中可以看出,当零样本进修没法解答问题时,便会利用(问题,代码)对于(pair)履行小样本进修:
1) 利用 OpenAI 的 text-similarity-babbage-001 嵌入引擎嵌入所有问题;
2) 利用嵌入的余弦相似度从其课程入彀算与未解决问题最相似的已经解决问题;
3) 将最相似的问题和其响应的代码作为小样本问题的示例。

图注:4种方式的主动解题率对于比
上图别离是Codex的零样本进修、小样本进修及GPT-3的零样本进修、小样本进修4种方式的主动解题率对于比。图上可以看出,橙色条状所代表的小样本进修 Codex 于主动解题率上的优异体现,基本上于每一个数学范畴上的体现都强在其他3种方式。
这项研究的第三年夜立异点,即是提供了一条解决数学问题及注释为什么云云解答的管道,下图展示了MIT 5门数学课程中管道的履行流程。

以 18.01 单变量微积分问题为例,给定一个问题及主动天生的前缀“利用 SymPy”,Codex 被提醒并输出一个步伐。运行步伐会孕育发生准确谜底的方程式。然后,步伐会主动提醒再次输入 Codex,从而天生天生的代码注释。
2问题解决以后除了相识决数学问题及注释谜底,Codex 也被用在为每一门课程天生新问题。
为了评估天生的问题程度,团队于到场过这些课程或者者同程度课程的MIT学生中做了查询拜访,重要是比力呆板天生的问题及人工编写问题的质量及难度。
于MIT的6门课程中,每一门选择5小我私家工编写问题及5个模子天生问题混淆起来而且随机出现。对于在 60 个问题中的每个问题,介入查询拜访的学生都需要回覆 3 个查询拜访问题:
1)你认为这个问题是人工编写的还有是呆板天生的?
2)你认为这个问题合适还有是不合适特定课程?
3 ) 于 1(最简朴)及 5(最难)之间,你认为这个问题的难度级别是几多?

于收回的问卷中,学生查询拜访成果总结以下:
呆板天生及人工编写的问题难度相似。
人工编写的问题比呆板天生的问题更合适课程。
人工编写的谜底很难被辨认错,而呆板天生的问题被学生认为既多是呆板天生的,也多是人工编写的。
呆板天生的问题已经经能让学生没法鉴别,申明Codex 于天生新内容方面已经到达了人类的体现程度。
可是,该模子也有没有法解决的问题,好比,假如问题以图象或者其他非文本情势呈现,它就没法回覆;带有需要证实的解决方案的问题,或者者计较上难以解决的问题,好比分化很是年夜的素数,该模子也没法解决。不外,末了一种问题也不该呈现于任何数学课程功课中,由于就算是真人学生也无法回覆。
参考链接:https://dataspace.princeton.edu/bitstream/88435/dsp01g445ch067/1/Sun_princeton_0181D_13173.pdf
更多内容,点击下方存眷:扫码添加 AI 科技评论 微旌旗灯号,投稿 进群:
雷峰网(公家号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。





