56年无人解开的数学难题,被谷歌的新AI突破了

今日头条
Toutiao
最新回复:2025年5月19日 3点39分 PT
  返回列表
54635 阅读
23 评论
极客公园

人类对知识的征途,或许才刚刚开始。

去年,AI 能解出博士级别的数学题,已是轰动一时的大新闻;而今年,能攻克「未解之谜」级别的数学难题的 AI 已经来了。

5 月 15 日,Google DeepMind 发布了全新编程智能体 AlphaEvolve。

不同于传统的编程 Agent,它专注于通用算法的自动发现与持续优化。顾名思义,AlphaEvolve 擅长在「进化」中寻找更优解,它模拟自然选择机制,能在代码中不断迭代、演化出创新算法。

只要问题能用程序表达、结果能用函数评估,AlphaEvolve 就能迭代算法。Google 表示,在组合数学、几何学、数论等超过 50 个未解问题中应用后,AlphaEvolve 在约 20% 的问题上超越了人类现有解法。

DeepMind 研究员 Matej Balog 表示:「AlphaEvolve 在十多个公开的数学问题上取得了突破。但最让我激动的是:它找到了 56 年以来,4x4 复数矩阵乘法算法的首次改进。这个结果,来自它自创的一种复杂搜索算法。」

AlphaEvolve 的价值不仅在数学,它展现出的是一种通用的「算法发现能力」。Balog 表示:「我们对 AlphaEvolve 的应用,还只是触及表层。」

01

问题能用程序表达、结果能用函数评估,

AlphaEvolve 就能迭代算法

Google DeepMind 表示,AlphaEvolve 能够在多个复杂问题中取得突破,关键在于其背后运作的是一整套自动进化机制,能持续优化算法并提升性能。

从本质上看,AlphaEvolve 解决的是一个通用的黑盒优化问题:maximize h(f)。其中,f 是由大型语言模型生成的程序,h 是衡量该程序质量的评估函数。

在实际流程中,AlphaEvolve 首先通过提示采样器(prompt sampler)组装提示词,引导语言模型生成代码。DeepMind 使用了两个不同的 Gemini 模型协同工作:Gemini Flash 以更高速度生成大量候选方案,扩展思路的广度;Gemini Pro 则提供更深入的结构性建议。二者结合,使模型能产出具备实际可行性和算法深度的程序。

生成的程序会被送入自动评估系统,经过验证、运行和打分后,写入程序数据库。数据库中运行着一套进化算法,会从已有程序中挑选表现最好的方案,为下一轮提示提供方向,不断迭代出更优解。

AlphaEvolve 的一个核心点就是这套自动评估指标。它能对生成程序进行验证、运行和评分。每一个程序都会被 h 函数衡量其准确性、运行效率、代码质量等维度。这些评分标准是客观、量化的,使 AlphaEvolve 能够在无需人类直接干预的前提下持续优化。

图片来源:Google

不过,这里的 h 函数依然由人类研究人员定义,可以是准确率、运行时间,甚至代码可读性等维度的组合。AlphaEvolve 负责的只是在给定 h 的前提下去寻找最优的 f。对于一些数学问题或研究任务,Google 也可能预设 h。

这也说明了 AlphaEvolve 当前的边界:它适用于那些「成果是否优秀」可以自动量化判断的问题。但如何定义「优秀」,仍需人来给出。在需要人类实验才能确定是否优秀的问题上,AlphaEvolve 就无法评估了。

以 DeepMind 研究员提到的 4×4 复数矩阵乘法为例,研究人员设置了一组任务目标,包括达到的最低乘法次数(即张量分解的秩)以及达到该结果的随机种子比例。这些信号构成了 AlphaEvolve 的优化目标,引导它在复杂的搜索空间中稳步「爬山」。

AlphaEvolve 从问题定义出发,基于标准的梯度优化流程(包括初始化器、重建损失函数、Adam 优化器等),演化出了一系列高质量的张量分解算法。最终,它在 14 个矩阵乘法结构上超越了已知最优结果。其中最引人注目的,是它提出了历史上第一个能用 48 次乘法完成 4×4 复数矩阵乘法的算法——打破了 56 年未被突破的记录。

图片来源:Google

AlphaEvolve 的技术路线可追溯到 DeepMind 早期提出的 FunSearch 系统。FunSearch 同样利用语言模型引导程序进化,曾被用于发现数学结构或在线算法策略。但与之相比,AlphaEvolve 的扩展性显著提升:它可以修改完整程序,处理多个函数、组件、甚至跨语言结构协同优化,而不仅限于 Python 中的单一函数。

这种更高的通用性,使 AlphaEvolve 不再只是一个「智能改函数」的工具,而像是一个可以自主演化大型算法系统的「程序设计伙伴」。

据 DeepMind 披露,AlphaEvolve 已被应用于 50 多个数学难题,涵盖数学分析、几何学、组合数学与数论等领域。大多数实验都能在数小时内完成部署。

在约 75% 的问题中,它成功重新发现了当前的最优解。更令人惊喜的是,在约 20% 的问题中,它给出了比已知方法更好的解法。比如在数学界研究了 300 多年的「接吻数问题」中,AlphaEvolve 构造出由 593 个球体组成的新结构,在 11 维空间中刷新了下界。

除了数学,AlphaEvolve 也已在 Google 内部实际落地应用,解决了计算栈中多个层面的工程问题,包括:为 Borg 系统设计新的调度启发式;优化大语言模型训练时使用的矩阵乘法内核;改写 TPU 芯片中的算术电路;加速 Transformer 注意力机制的执行速度。

这些任务之间跨度极大,但都具备一个共性:问题能用程序表达、结果能用函数评估。只要这两点成立,AlphaEvolve 就可以发挥作用。

02

更多的智能供给,带来无限的游戏

此次发布来自 Google DeepMind,这一团队曾推出 AlphaGo、AlphaFold 等具有里程碑意义的 AI 系统,在博弈智能与科学发现领域显著扩展了人工智能的能力边界。

AlphaEvolve,与依赖强化学习和自我博弈(如 AlphaGo)的系统不同,是通过语言模型生成大量程序候选,结合自动评估与进化机制,筛选出更优的算法方案。它更像是一种可编排、可扩展的算法构造与发现框架。

相比 AlphaGo 展示的是人工智能如何在规则明确定义的博弈中超越人类,AlphaEvolve 的意义可能更在于:它为研究者提供了一种持续、可扩展的算法生成与优化能力。

算法设计与调优历来是一种高度稀缺的技术能力。算法工程师在就业市场上普遍享有更高的薪酬与职位门槛,足以反映其复杂性与稀缺性。

而现在,只要设定明确的评估方式,AlphaEvolve 就有可能以接近无限的算力和耐心,自动探索并优化算法解法。这意味着,「发现并改进算法」这项曾依赖个体经验的能力,开始从稀缺、手工、不可复制,变为可自动化、可规模化的智能供给。

尤瓦尔·赫拉利曾经有一个比喻,形容 AlphaGo 为人类带来的冲击。

人类一直在围棋星球上探索如何下围棋,不断有人画出路线图,探索围棋星球的样貌。直到 AI 出现,人类才惊觉,自己不过是在围棋星球的一座小岛上原地打转,而真正的星球辽阔无边,未曾涉足的区域远超想象。

而去年到今年,在科研领域,我们也不断地看到 AI 正在做同样的事情。2024 年,AI 相关成果首次同时获得诺贝尔物理学奖与化学奖,而这很有可能成为未来的科研常态。

从某种程度上说,AlphaEvolve 所做的,是以前所未有的速度加快这张科研的「未知地图」的展开。以无限的智能供给,让每个领域都有可能被再探索一遍。

当「能被发现的算法」不再稀缺,人类对知识的征途,或许才刚刚开始。

令胡冲
1 楼
优化基于对评估函数的定义,这种定义只有领域专家大拿才能有效定义。 换句话说,数学家可以用此类AI Agents来解决前沿数学问题,而同样的工具给你用,你能解决数学问题吗?不能。你都看不懂那个问题。 这也仅仅是一种专业能力和工作效率增强与放大工具。尚没有划时代的质变。
L
LISP
2 楼
这个问题不见得很难 你最好发给所有人,大家一起比赛 我用试错搜索算法找不到比这个更好或者至少同样好的算法吗?
宝刀屠龙
3 楼
对普通人来说,该新闻价值是告诉人们一个事实 google,OpenAI etc.,这种AI巨头们的影响力和价值到底在哪? 在于他们一直在铺设和拓宽AI的应用赛道,而不是简单的给AI已有路面做装饰和维护 对普通人来说,这些数学问题(如为什么1+1=2)本身就是个无法理解的东东 其背后解法就更是个怪物,既无可能理解,更无意义去劳神纠结
R
ROUTARD
4 楼
标题党。只是优化了解决方案,没有创新突破。
灭独者
5 楼
谷歌市值会超过苹果
路過
6 楼
让它解决一下哥德巴赫猜想如何?
X
XM25
7 楼
谷歌做出了很多意义非凡的成就。从GitHub 学习编程已经被程序员用来写程序,现在连算法都能自我优化。自我优化就是进化。对于电子学最黑暗的编程领域,曾经耗费无数码农青春的编程工作现在完全由机器代替,对于这个世界会有翻天覆地的影响。
O
Observerx
8 楼
必然的,谁领先AI谁的科技就会翻倍快速提高
真环
9 楼
被印度AI解开了,吹牛不死人的技术百分之百掌握了
人在旅途2024
10 楼
政治民生话题G点太多动不动就“我们换个话题吧”也就罢了,Deepseek不是也被粉红毛毛们吹嘘最擅长解决数理问题吗?肿么在这种尖端前沿数学难题前就看不见踪影呢? 国产AI也只是善于做中小学数学练习题的小镇做题家。。。
四月如风
11 楼
Deepsake 这种抄袭的玩意儿,永远跟在别人后面抄。就象整个中国的所谓高科技,美国创新它抄袭,永远也搞不出西方没有的东西。鄙视。
m
m301
12 楼
看了某些人的留言 本想说俩句 想想还是算了
f
fonsony
13 楼
以前买下谷狗股票,现在还是做着大闸蟹,唯一信心是谷狗以后会追上AI的选进
G
GP2X
14 楼
旧酒装新瓶,基因算法早就有,区别只是现在迭代优化的速度更快,量变引起质变而已
令胡冲
15 楼
确实,只是一种更有效更加不知疲倦的改进,量变。当然,量变也不容易,都是谷歌白砸巨资养一帮人没事折腾大模型来玩。如今数学和理论物理都要靠AI。人脑已经到了生理极限。没有AI,人类科技将停滞。人类会自生自灭。 —————— 在 DeepMind 的研究员 Matej Balog 提到的 AlphaEvolve 取得的突破之前,4×4 复数矩阵乘法的最优算法是基于 1969 年 Volker Strassen 提出的 Strassen 算法。该算法通过将矩阵分块并递归地应用 2×2 矩阵乘法的优化方法,将乘法次数从传统方法的 64 次减少到 49 次。  然而,Strassen 算法并非专门针对 4×4 复数矩阵优化的。在 2022 年,DeepMind 推出的 AlphaTensor 系统在模 2 算术下发现了一个仅需 47 次乘法的 4×4 矩阵乘法算法,但该算法仅适用于有限域,并不适用于复数域。  直到 2025 年,AlphaEvolve 才首次在复数域中发现了一个仅需 48 次乘法的 4×4 矩阵乘法算法,打破了长达 56 年的记录。这一成果展示了 AI 在发现高效算法方面的潜力,尤其是在传统方法难以取得突破的领域。 总结如下: • 传统方法:64 次乘法。 • Strassen 算法(1969):49 次乘法,适用于任意域。 • AlphaTensor(2022):47 次乘法,仅适用于模 2 算术。 • AlphaEvolve(2025):48 次乘法,适用于复数域。 AlphaEvolve 的发现不仅在理论上具有重要意义,也可能对实际应用中的计算效率产生积极影响。
k
kl3527
16 楼
关键还是逻辑推理能力: 没有
泥川
17 楼
优化,先要生成可能方案,然后从中找一个最好的。虽说AI的幻觉是一大缺陷,但对生成可能方案有用,因为可以打破人类的思维定式。 这种幻觉可能99%没意义,但愚者千虑,必有一得,总会生成人类想不到的,新的,甚至离奇的概念排列组合。于是,新方法就被创造出来了。 AI只管生成方案,而决定方案好坏,现在还要靠人。
M
Maui2021
18 楼
我们人类完了。哈哈。
害怕
19 楼
其实还是跟下棋一样。 计算机的优势是遍历,寻找所有可能性。 谷歌也就是还是在重复10多年前的下围棋那个调调。
微波炉
20 楼
AI很快就会发现人类这个物种是世界上效率最低的东西,纯消耗,不具任何价值。
h
hyperyan
21 楼
基本上就是搜索,不是真正意义上的解开数学难题。
十具
22 楼
找到了更高的kissing number,不过是找到了更优解。不能证明是最优解,还说不上是解了数学难题。
m
manhan
23 楼
一个小小的计算器,就超过所有人类的算力,能说人不如计算器吗?飞机会飞,人不会,就说人不如飞机吗?AI也是一样,不过是人类的创造物而已。