谷歌最强Gemini 2.5 Pro免费了!数学碾压人类研究生

今日头条
Toutiao
最新回复:2025年3月31日 14点54分 PT
  返回列表
68304 阅读
18 评论
新智元

【新智元导读】如今,有越来越多的网友发现,Gemini 2.5 Pro已经成为全球大模型中名副其实的冠军,刷爆各类基准测试和智商测试!它的智商达到130,其中数学方面已经强于大多数研究生,甚至几句提示,就能模拟宇宙规律。虽然又被GPT-4o吉卜力生图的光芒掩盖了,但毫无疑问,上周的另一技术核弹Gemini 2.5 Pro,也是无可争议的强!在试用过程中,网友们逐渐发现,这个模型真的强到发指。

在门萨Norway的IQ测试中,它已经突破了130。

随后,更硬核的证据来了——在MathArena测试中,它直接获得了第一名!

注意,这里用的基本都是LLM从未见过的题。

在哈佛-麻省理工大学数学竞赛(HMMT)中,领先第二名15%

AIME 2025 I和AIME 2025 II是今年美国全国数学奥林匹克竞赛的选拔赛

它在数学方面已经比大多数研究生要强,这已经是一个可以公开验证的事实。

在这位网友统计的AI模型能力表上,Gemini的领先趋势已经非常明显。

Gemini 2.5 Pro (exp),免费用户也能用

好消息是,现在所有用户都能用上Gemini 2.5 Pro了。

就在今天,谷歌官宣:向所有Gemini用户,推出Gemini 2.5 Pro实验版!

而且,还是全免费。

唯一美中不足的是,Gemini 2.5 Pro目前还会有速率限制。

但Gemini Advanced用户,就可以享有更高级的访问权限,和更大的上下文窗口。

在上周三刚刚发布时,Gemini 2.5 Pro,还仅仅面向Gemini Advanced订阅者开放,订阅价格为每月19.99美元。

而随后,模型还会被推广到安卓和iOS应用上。

目前尚不清楚,谷歌是否会将2.5 Pro的稳定版本免费提供给所有Gemini用户,还是说今天的举措仅针对测试阶段。

在此之前,似乎2.0 Flash Thinking和2.0 Flash都将是免费提供的版本。

社区网友公认:大模型赛,谷歌已经领先了

AI社区Reddit上的网友们公认:在客观上,谷歌的模型已经领先了。

或许是有史以来第一次,OpenAI明确处于落后地位,Anthropic也是如此。

虽然凭吉卜力表情包抢了风头,但这种廉价的伎俩只会在短期内有用。在大模型赛中,局面已经从根本上改变了。

细数LiveBench、LMSYS、人类最后的考试、智商测试,几乎一切投票都表明,Gemini是无可争议的领军者。

有媒体表示谷歌Gemini 2.5 Pro是最聪明的模型

根据Artificial Analysis的评估,Gemini 2.5在大部分测试中都遥遥领先,成绩排名第一。

同时,输出速度仅次于 Gemini 2.0 Flash,位列第二。

当然,如果从原理上看,LLM的确没有在做数学,因为它们的本质仍然是概率性的,是做从训练数据中预测最可能的答案。

最强编程模型:模拟宇宙都可以

谷歌的技术主管Addy Osmani,表示Gemini 2.5 Pro是谷歌最好的编程模型,而且免费!

他给出了一段Gemini制作的3D飞行小游戏。

只需提示一次,Gemini 2.5 Pro可以在Three.js中的物理模拟!

多次提示,还可以改进编程效果。

开源链接:https://github.com/gemsjohn/physics-sims

网友Gadgetify直接复刻了自己「宇宙模拟器」,只需几次提示。

建立AI智能体DAIR.AI的elvis,则认为Gemini 2.5 Pro是Claude 3.7 Sonnet的最强对手。

Gemini 2.5 Pro是一款优质代码模型:

· 代码质量真的很好

· 1M个token的上下文

· 原生多模态

· 长代码生成

· 理解大型代码库

利用Gemini和Windsurf,他生成了AI搜索代理应用。

不少网友体验Gemini 2.5 Pro编程之后,表示Claude的确危险了!

初步的编码测试中的结果显示,Gemini 2.5 Pro把行业水平提升了一个档次。

对此,「AI智能体先驱」的创始人Silas Alberti,表示编程助手Devin正在引入Gemini  2.5 Pro。

而从事SEO行业的Julian Goldies放出Gemini 2.5 Pro MCP Servers教程,让智能体自动化一切。

甚至,有人用Gemini 2.5 Pro测试了一个项目,使用A*算法为高速列车寻找最优解,这个过程中涉及了优化坡度、转弯半径、多目标优化等难题。

令人惊喜的是,虽然它经常搞乱语法,比如试图把所有代码压缩到一行,但它完成了不少高质量的工作。

参考资料:https://artificialanalysis.ai/models/gemini-2-5-prohttps://x.com/petergyang/status/1906007718961492391

twitter
https://x.com/QiaochuYuan/status/1905967688310268168
twitter
https://x.com/omarsar0/status/1906404825509560408
twitter

https://x.com/renderfiction/status/1905998185962643767

twitter
https://x.com/GeminiApp/status/1906131622736679332
twitter
https://x.com/silasalberti/status/1905826070370144450
twitter
https://www.reddit.com/r/singularity/comments/1jnbtu2/testing_gemini_25_pro_with_a_project_a_algorithm/
J
Jau
1 楼
试过,确实不错了。 但是,还是要知道,是人类赋予他的智慧, 没有人类的研究成果,他啥也不是。
知情人士
2 楼
试过,垃圾产品
g
googlebot
3 楼
google gpu多,反应快,这是唯一有点
随意岁月
4 楼
已知答案的数学问题,碾压人类研究生。没有答案的数学问题,和研究生一样抓瞎
j
jpeagle
5 楼
还是比不上openai. gemini完全就是地主家勤奋的傻儿子。
J
Jau
6 楼
对于AI,我们可以尝试去搞,尝试去用。 但是就人类现在的硬件结构和水平而言, 不要太吹捧AI。 西方资本对AI的宣传有过于渲染和夸大的成分! 也不知道为什么中共把DS说成啥“国运”级的产品?
沙发
7 楼
什么研究生,数学专业还是历史专业?
史前巨混
8 楼
看到了和QWQ-32B的对比,懂得都懂在比啥呢,用BBC的话术总结一下,but at what cost。
人二者无敌
9 楼
GPT 数学很差的,小学数学题都经常做错
老爷们吐口唾沫都是钉
10 楼
别扯犊子了,stat的基本题都是一通瞎bb,还研究生。
v
vanasian
11 楼
新智元改为新痔元。AI目前是人类拉的屎不是吃的粮。
吧吧吧吧
12 楼
使用过。和其他同类产品,这东西有点傻。后来放弃不用。
拿爷叔
13 楼
有本事去证明一个什么猜想吧!否则就还是个机器
土豆四十斤
14 楼
股价也很配合地直追130
南方兔儿爷
15 楼
是的,电影里的2025人都在天上飞着了,可见现实的滞后,原因都是老的没死绝就不可能进化。AI再牛逼也盖不过国会指定法律道德标准的人。还有全球几十亿宗教用户。
x
xxlm
16 楼
: 让人人具备研究生水平,是件很恐怖的事。
j
juewangle
17 楼
google, openAI 的一众人员为了饭碗,不停的羞辱自己 可见钱比什么都重要 其实吹捧现在所谓的AI无外乎是文科生和靠此吃饭的理科生。
r
rigo
18 楼
我cao, 试了一下germini pro,重构一个命令行媒体程序 效果甩grok, chatgpt一条街