苹果一篇论文得罪大模型圈？Transformer不会推理，只是高级模式匹配器！所有LLM都判死刑

13 天

楼主 (北美华人网)

https://finance.sina.com.cn/roll/2024-10-19/doc-inctakrz4032388.shtml
新智元报道 编辑：peter东 Aeneas 【新智元导读】苹果研究者发现：无论是OpenAI GPT-4o和o1，还是Llama、Phi、Gemma和Mistral等开源模型，都未被发现任何形式推理的证据，而更像是复杂的模式匹配器。无独有偶，一项多位数乘法的研究也被抛出来，越来越多的证据证实：LLM不会推理！ LLM真的会推理吗？

最近，苹果研究员发文质疑道：LLM根本没有不会推理，所谓的推理能力只是复杂的模式匹配罢了。

论文地址：https://arxiv.org/abs/2410.05229 这项研究也在AI社区引起了广泛讨论。谷歌DeepMind科学家Denny Zhou表示，自己ICML 2023的一片论文中，也发现了类似现象。

Meta AI研究者田渊栋表示，梯度下降可能无法学习到这样的权重。

巧的是，AI2等机构在23年的一篇研究也被翻出，证实模型根本没有学会数学推理，只是在「照背」答案而已。网友们搜罗了越来越多的学术证据，一致证明：LLM可能根本不会推理！

图灵三巨头之一的LeCun，也在最近的万字演讲表示，Meta现在已经完全放弃纯语言模型，因为仅靠文本训练，它永远不可能达到接近人类水平的智能！

目前Transformer架构的大语言模型，难道真的是一条弯路？换个马甲，大模型的数学能力就滑坡了！这次，苹果的研究者们仔细研究了GPT-4o和o1系列闭源模型，以及Llama、Phi、Gemma、Mistral等开源模型的数学能力。此前，业界用来评价大模型数学能力的数据集是2021年发布的GSM8K，该数据集包含8000可小学水平的数学应用题，例如下面的例子：此时距OpenAI发布GSM8K已经三年了，模型性能也从GPT-3的35%，提升到了30亿参数模型的85%以上。

不过，这真的能证明LLM的推理能力确实提高了吗？要知道，由于是21年发布的数据集，如今的主流大模型可能抓取的训练数据无意间涵盖了GSM8K的题目。虽然大部分模型没有公开训练数据的信息，但存在数据污染的可能，这就会导致大模型能够靠背题答对GSM8K中题目。因此，用这个数据集去评判LLM的数学能力，并不准确。于是，为了客观评价LLM的数学能力极限，苹果的研究者们开发了一个名为GSM-Symbolic的数据集。 GSM-Symbolic将GSM8K的题目进行了修改，例如改变了索菲这个名字，侄子这个家人的称谓，以及各种玩具的多少（数字）。这样一来，就可以产生出很多个看起来全新，但实际上却是具有相同内核的题目。

另外，除了GSM-Symbolic，这项研究还提出了GSM-NoOp数据集，GSM-NoOp 向题目中添加看似相关但实际上无关的数据，来判断大模型在执行逻辑推理任务时是否会受到无关数据的影响。 不管开源闭源，都会因题目换皮表现更差 实验结果很有趣：就跟人类一样，数学题干一换，很多LLM就不会了！

苹果的研究者们对比了GSM8k和GSM-Symbolic在多种模型上的性能差异，结果发现—— 无论是主流的开源模型还是闭源的GPT系列模型，甚至专门为数理推断专门优化的o1模型，当面对GSM-Symbolic的换皮题目时，准确率都会下降。大多数模型在GSM-Symbolic上的平均性能，都低于在GSM8K上的平均性能。

GSM8k和GSM-Symbolic和模型性能对比 即使只更改了题目中的名称，大模型的表现也会有存在差异，当只改变了题目中的专有名词时，性能下降在1%-2%之间，当实验者更改数字或结合两类更改时，差异则更为显著。

对比只修改题目中的专有名词，题目中数字和都修改时的准确度从图2中可看出，几乎所有模型都明显出现了分布均值从右向左的逐渐移动（准确度变低），以及方差增加。仅仅是更改一下专有名词，就会存在如此大的差异，这种现象实在是令人担忧：看来，LLM的确没有真正理解数学概念。即使理解了数学题目的小学生，都不会因为题目换汤不换药，就不会做了。

随后，苹果的研究者继续给这些LLM上难度。他们引入了GSM-Symbolic的三个新变体：删除一个分句（GSM-M1），增加一个分句（GSM-P1）或增加两个分句（GSM-P2）。果然，当模型面对的题目变难时，例如题目从「打电话每分钟10分钱，打60分钟多少钱？」变为「打电话前10分钟每分钟10分钱，之后每分钟8分钱，如此打60分钟电话费多钱？」，大模型回答的准确性降低，方差变大，这就意味着，LLM的性能极不稳定，可靠性越来越差。

最后，当模型面对增加了和题目无关的论述的题目（GSM-NoOP），性能的下降更是惨不忍睹。所有模型的性能下降都更加明显，其中Phi-3-mini 模型下降了超过 65%，甚至像o1-preview这样的预期表现更好的模型也显示出显著的下降（17.5%）。 这是由于模型会将无关的论述当成需要操作的步骤，从而画蛇添足地回答错误。 也就是说，当今性能最强大的模型，也依然无法真正理解数学问题。

GSM-NoOP数据集相比GSM8k数据集的性能下降

o1系列模型，依然无法避免这些问题从这项研究的结果来看，大模型在执行真正的数学推理方面的重大局限性。 大模型在不同版本的同一问题上的表现高度差异，随着难度轻微增加而表现大幅下降，以及对无关信息的敏感度表明，大模型进行的推理及运算是脆弱的。 最终，苹果研究者给出这样的结论——它们可能更像是复杂的模式匹配，而不是真正的逻辑推理。 也就是说，即使我们继续堆数据、参数和计算量，或者用更好的训练数据，也只能得到「更好的模式匹配器」，而非「更好的推理器」。大模型实际不是解数学题，还是在进行模式匹配无独有偶，23年的一项研究《信仰与命运：Transformer作为模糊模式匹配器》也证实—— 大模型并没有真正的理解数学概念，而只是根据模糊模式匹配来从训练数据的题库中寻找答案。

论文地址：https://arxiv.org/abs/2305.18654 研究者们很疑惑，为什么Claude或GPT-4这样的模型输出时，听起来非常像一个人在推理，而且问题也都是需要推理才能解决的。它们仿佛已经在超人类智能的边缘，但在处理一些简单的事情上却有很蠢。比如，人类在学习基本计算规则后，可以解决三位数乘三位数的乘法算术。但在23年底，ChatGPT-3.5和GPT-4在此任务上的准确率分别只有55%和59%。到底发生了什么？在《信仰与命运》这篇论文中，Allen AI、华盛顿大学等的学者对LLM的这种表现提出了一种解释——「线性化子图匹配」。 线性子图匹配 他们猜测，大模型解决问题的方式是这样的。为了证明这项猜测，研究者测试了三个任务—— 乘法、爱因斯坦逻辑谜题和动态规划问题。拿乘法举例。如果LLM真的能通过足够的数据学会东西，或者能通过系统化的推理解决复杂的多步骤问题，那它应该能通过足够的例子或对算法的充分解释来学习乘法。而乘法问题可以被分解为更小的问题，因此模型应该能通过逐步推理来做出来。 LLM可以完成吗？为了检验多位数乘法任务，研究者定义了一组大量的乘法问题。从计算两位数和两位数的乘积到五位数和五位数的乘积。首先，他们会要求模型解决如下问题：其次，他们向模型提供了思维链示例，将其分解为更小的任务，使用学校教授的标准乘法算法。

提示模型执行任务的程序但如何衡量一项任务比另一项更难呢？如何追踪模型在哪些地方失败，如何失败？研究者将乘法算法描述为一个包含加法和乘法等基本操作的定向图。比如下面是7乘以49所涉及的运算的图表示：

其中包含7乘以4的子任务。

子程序是图中的子图研究者在评估中发现，即使经过微调，模型也无法从训练集中看到的小乘法问题，推广到更大的乘法问题。在左侧图中，蓝色的单元格表示模型是在这样的乘积上训练的，得分相当不错。原因在于，模型在预测与训练数据规模相同的问题时就表现良好。然而在橙色的单元格，如三位数与三位数或更高位数的乘积，得分就要差得多了。

GPT-3准确率与规模对比在操作图中可以看出，当任务变得更加复杂时，准确度会急剧下降。

宽度衡量需要同时维护多少个中间结果，而深度衡量需要组合多长的步骤序列才能达到结果由此，研究者总结出一些真正有趣的东西。 错误告诉我们，LLM中真正发生的事 首先，研究者观察到：LLM是否能成功解决问题，取决于模型之前是否见过相关的子问题。 换句话说—— 这就是为什么7乘以49会失败，但7乘以4却取得一些进展，因为LL没记住了「7乘以4的呢关于28」这个子问题。更大的意义在于：与其将模型视为以一般和系统的方式处理问题的各个部分，不如将其视为搜索引擎，它会先召回与特定问题部分大致匹配的例子，然后将这些近似回忆拼接起来。也就是说LLM通过仅完成整体问题的一部分而取得部分成功。它是以自己反直觉、更肤浅、更实际的方式分解问题，更关注文本的「表面」，而非系统地思考给定的乘法算法。

高信息增益，甚至能预测意外的部分解决方案 一些问题 作者提出，子图匹配的想法，更多的是一个起点，而非对现状的精确完整描绘。后续的实证研究，又削弱了这一解释的普遍性。比如McLeish 等人（2024 年）表明，通过「算盘嵌入」的架构修改，可以显著提高Transformer在算术上的性能。 LLM能够解决比训练数据中更大的多位数加法问题，但未体现乘法性能的同等提升。如果线性子图匹配是Transformer的一般性限制，那么加法为何会如此容易受到特定修复的影响，而非乘法呢？这又引出了新的问题：什么样的文本表示将使模型更容易处理多步问题——比如推理链问题？那些从外部看起来像是在推理的系统，即使我们知道其内部并未在逻辑蕴涵空间中执行搜索，它们的实际限制在哪里？这些都留待未来解决。马库斯：我早说过了对于苹果的研究，马库斯也专门写了一篇博客进行论述。

他表示，LLM的这种「在受到干扰材料的影响下推理失败」的缺陷，并非新现象。在2017年，斯坦福大学的Robin Jia和Percy Liang就进行过类似研究，得出了相似的结果。

在问答系统中，即使只是改变一两个无关紧要的词或添加一些无关信息，也可能得到完全不同的答案另一个体现LLMs缺乏足够抽象、形式化推理能力的证据是，当问题变得更大时，其性能往往会崩溃。这源于Subbarao Kambhapati团队近期对GPT o1的分析：

性能在小问题上尚可，但很快就会下降在整数算术中，我们也可以看到相同现象。在越来越大的乘法问题中，这种下降趋势在旧模型和新模型中都被反复观察到。

即使 o1 也受到这个问题的影响：

LLM不遵守棋类规则，是其形式推理持续失败的另一个例子：

马斯克提出，甚至马斯克的Robotaxi也会受到类似困扰：它们可能在最常见的情况下安全运行，但在某些情况下可能难以足够抽象地推理。马库斯指出：LLM爱好者总是为它们的个别错误开脱，然而最近的苹果研究及其他相关研究和现象，都太过广泛和系统化，让我们无法视而不见了。他表示，自1998和2001年以来，标准神经网络架构无法可靠地外推和进行形式化推理，一直是自己工作的核心主题。最后，他再次引用了自己在2001年的《代数心智》一书中的观点——

总的来看，无论是将乘法拆解为有向图，还是一旦面对应用题中称谓和数字变换就答错，这都反映了大模型在逻辑推理上的本质缺陷。总之，LLM在背题这件事，算是「人赃俱获」了。这两项研究也警示我们：正如Meta的AI科学家田渊栋所说，只要大模型还是依赖梯度下降，那么就不要期待它变得不那么愚蠢。
参考资料： https://www.reddit.com/r/MachineLearning/comments/1g3cumr/d_will_scale_be_enough_to_get_llms_to_reason/ https://garymarcus.substack.com/p/llms-dont-do-formal-reasoning-and?r=17uk7&triedRedirect=true https://www.answer.ai/posts/2024-07-25-transformers-as-matchers.html