欢迎访问:沃派博客 每天不定时发布IT文章相关资讯
当前位置:沃派博客-沃派网 > IT文章 > 正文

战胜柯洁战胜不了高中生?DeepMind挑战高中数学题,完败

04-06 IT文章

战胜柯洁战胜不了高中生?DeepMind挑战高中数学题,完败

新智元报道

编辑:金磊、元子、张乾

【新智元导读】做数学题一直令多数人头疼不已的事情。近期,DeepMind团队最新研究了利用AI来解数学题,但结果令人大跌眼镜——水平不及高中生。

数学也难倒了AI。

数学可能是大多数人在求学过程中最头疼的一门科目。近日,DeepMind团队便对“AI做数学题”进行了研究,结果大跌眼镜:“万能的AI”在面对数学问题也是不知所措!

战胜柯洁战胜不了高中生?DeepMind挑战高中数学题,完败

论文地址:

人类解题能力超群的关键在于,人类并非主要通过经验和证据,而是通过推断、学习,以及利用定理、公理和符号操纵规则。

DeepMind团队便对神经架构和类似系统的评估(以及最终的设计)提出了新的挑战,开发了一个数学问题的任务处理套件,涉及以自由形式文本输入/输出格式的系列问题和答案。

不过,在研究过程中,DeepMind发现,AI非常擅长做的数学题都是比较偏简单的,例如:查找数字中的位值、四舍五入小数/整数等。但是在诸如素数检测、因式分解以及多项式操作等方面,性能结果存在显著的差异。

AI做数学的能力不及高中生水平?

AI挑战人类最难学科

深层模型远未达到人类所表现出的稳健性和灵活性,由于自身能力的限制,深度学习无法超越所经历的环境去生成新的东西,并且面对存在对抗性构建的输入时极其脆弱。

与神经模型相比,人类智能擅长的一个领域是关于物体和实体的离散组合推理,即“代数泛化”,这个领域也体现了神经模型和人类智之间的差异。

人类在这个领域内的概括能力是复杂的、多方面的。先来看这个数学题:

当:f(x)= 2x + 3,g(x)= 7x-4,h(x)= -5x-8时

求:g(h(f(x)))

人类解决这道数学题时候,用到的各种认知技能有:

  • 将字符解析为数字,算术运算符,变量(一起形成函数)和单词(确定问题)等实体

  • 计划(例如,以正确的顺序识别功能以进行撰写)

    使用子算法进行函数合成(加法,乘法)

    利用工作记忆来存储中间值(例如合成h(f(x)))

    通常应用已获得的规则,转换,过程和公理知识

    DeepMind在这篇论文中引入了一个由许多不同类型的数学问题组成的数据集,对于模型来说,优于缺乏上述人类能力,在处理跨系列的问题类型(包括我们在下面详述的泛化)的时候难度更大,更难获得良好的表现。

    该领域对于一般的神经结构的分析是重要的。除了提供广泛的问题外,还有其他几个优点:

  • 数学提供了一个自洽的宇宙(self-consistent universe);

  • 符号在不同的问题类型中是相同的,是的数据集更容易得到扩展的;

    在一种问题类型上学习的规则和方法通常适用于其他地方。例如数字的加法在任何地方都遵循相同的规则,并且在其他问题中作为“子程序”出现,具体体现在乘法中,以及具体且更抽闲的体现在多项式中;

    具有转移知识能力的模型将在数据集上获得更好的表现(知识迁移可能是解决更难问题的必要条件)。

    数学本身也是一个有趣的领域,虽然解决该数据集中大多数中学数学问题的模型本身不具备应用程序,但它们可能会导致更强大的模型,这些模型可以解决有趣且实质性的新数学问题。

    或者更一般地说,寻求验证以捕获算法/系统推理为目标的新架构的实验经常从这个领域中得出,这并非巧合。因此,在为这些模型提供大规模的训练和评估框架时,希望为继续研究超越数学的机器推理提供坚实的基础。

    请看以下数学问题集示例:

    问题:对于r,求解-42*r+27*c=-1167和130*r+4*c=372。

    答案:4

    问题:计算-841880142.544+411127。

    答案:-841469015.544

    问题:Letx(g)=9*g+1。Letq(C)=2*C+1。Letf(i)=3*i-39.设w(j)=q(x(j))。计算f(w(a))。

    答案:54*a-30

    问题:设e(l)=l-6.2是e(9)和2的因子吗?

    答案:错

    问题:设u(n)=-n**3-n**2。设e(c)=-2*c**3+c。令l(j)=-118*e(j)+54*u(j)。l(a)的衍生物是什么?

    答案:546*a**2-108*a-118

    问题:从qqqkkklkqkkk中选择了三个字母而没有替换。给出序列qql的概率

    答案:1/110

    研究中的主要贡献

    数据集和泛化测试

    研究人员发布1个序列到序列的数据集,包括许多不同类型的数学问题(见图1),用于测量数学推理,同时提供生成代码和预生成的问题。

    数据集附带两组测试:插值测试,一个针对训练集中出现的每种类型的问题;外推测试,测量沿着各种难度轴的概括超出训练期间的概括。将外推测试作为模型是否采用允许它们进行代数泛化的能力的额外度量。

    实验和模型分析

    版权保护: 本文由 沃派博客-沃派网 编辑,转载请保留链接: http://www.bdice.cn/html/49871.html