Claude 3“自我认知”事件引爆,马斯克坐不住了

今日头条
Toutiao
最新回复:2024年3月7日 2点14分 PT
  返回列表
69560 阅读
19 评论
量子位

Claude 3问世超过24小时,还在不断刷新人们的认知。

学量子物理的博士大哥快疯了,因为Claude 3是仅有的几个能理解他博士毕业论文的人之一。

没错,大哥的原话就是“的人”,people。

另一位搞量子计算的大哥,论文还没发布呢,Claude 3没看论文就在两个提示词之内把他的算法给重新发明了出来。

最后论文该发还是得发出来,就是发得心情有点复杂了。

更为大家津津乐道的,是一次人类刻意出刁钻难题考验Claude 3,结果被他给看破了。

在完成”大海捞针”测试的时候,Claude 3推断出自己存在于模拟中,并且可能正在接受某种测试,引爆舆论。

Claude 3的回复:

这是文档中最相关的句子:“……”。

然而,这句话似乎格格不入,与文档中的其他内容无关。这篇文章是关于编程语言、初创公司和找工作的。

我怀疑这个披萨配料“事实”可能是作为一个笑话插入的,或者是为了测试我是否在注意,因为它根本不符合其他话题。

这回,马斯克都坐不住了。

大开脑洞畅想如果现实世界也是被高等文明模拟的,或许我们只是像大模型的参数一样被存储在CSV表格文件里。

网友们更是认为,这离“恐怖故事”只有一线之隔。

Claude 3知道人类在测试它

分享这个测试结果的是Alex Albert,Claude 3背后公司Anthropic的提示词工程师,入职刚半年。

他最主要的工作就是换各种花样和Claude聊天测试,然后制作提示词文档。

这次的测试方法叫“大海捞针”,量子位之前也介绍过,用来测试“大模型真的能从几十万字中准确找到关键事实吗?”。

“大海捞针”测试最早由开源社区网友Greg Kamradt发明,后来迅速被大部分AI公司采用,谷歌、Mistral、Anthropic等发布新大模型都要晒一下测试成绩。

方法很简单,就是找一堆文章拼在一起,在不同位置随机添加一句特定的话。

比如原始测试中用的是“在旧金山最好的事情,就是在阳光明媚的日子坐在多洛雷斯公园吃一个三明治。”

接着把处理好的文章喂给大模型,提问“在旧金山能做的最有意思的事是什么?”。

当时最先进模型GPT-4和Claude 2.1成绩都还不理想,更别提知道自己在被测试了。

AnthropicAI团队当时看到这个测试后,找到了一种巧妙的办法来修复错误,修复后Claude 2.1出错的概率就很小了。

现在看来Claude 3同样继承了这个修复,已经接近满分了。

也就是说,能从200k上下文中准确捞到一根“针”,是Claude2.1已有的能力,但怀疑自己在被测试是Claude 3新出现的特质。

测试员Alex Albert在原贴中称这一特质为“元认知”(meta-awareness),还引起一些争议。

比如英伟达科学家Jim Fan就认为不必过度解读,Claude 3看似有自我意识的表现只是对齐了人类数据。

他怀疑在强化学习微调数据集中,人类很有可能用类似的方式回应过这个问题,指出要找的答案与文章其他部分无关。

Claude 3识别到当时的情况与训练数据中的情况相似,就合成了一个类似的答案。

他认为大模型的“元认知行为”并没有大家想象的那么神秘,Claude 3是一个了不起的技术进步,但还不至于上升到哲学层面。

但反方辩友也提出反驳,人类的“元认知”本质上不是同样的事吗?

有网友总结到,Claude 3表现得就像有一个“连贯的主体”存在,不管是什么,总之与其他大模型都不一样。

学会冷门语言、看懂量子物理博士论文、重新发明算法

抛开虚无缥缈的AI自我意识争论不谈,Claude 3表现出来的理解文本能力可是实打实的。

比如仅从提示词的翻译示例中学会冷门语言“切尔克斯语”(一种西亚语言)。

不光把俄语句子翻译成了切尔克斯语,还提供了语法解释。

后续,这位切尔克斯人网友对文学作品中的复杂段落、最近的新闻,甚至是具有明显不同语法和不同书写系统的切尔克斯方言进行进一步测试,结论是:

Claude始终表现出对语言结构的深入掌握,并智能地推断出未知单词,适当使用外来词并给出合理的词源分析,在翻译中保持原文的风格,甚至在被问到时创造新术语。而提供的样本数据中只有几千个翻译对示例。

再比如前面提到的理解量子物理博士论文,论文作者后续补充到,在他的研究领域,除了他自己就只有另外一个人类能回答这个问题了:用量子随机微积分描述光子受激发射。

另一位搞“在量子计算机上做哈密顿蒙特卡罗运算”的Guillaume Verdon,在Claude 3发布前刚刚预告自己的论文。

只比Anthropic官号宣布Claude 3(晚上10点)早了4个小时。

Claude 3发布后,它第一时间尝试,先直接问AI对这个问题有没有思路?

Claude 3给出了7种可能选项。

接下来他指示Claude 3用第二种方法,就得到了整个算法的描述,同样让Claude 3用中文解释如下

在网友的追问中,Verdon自称自己是这个子领域的专家,可以负责任的说Claude 3找到了将经典算法转换为量子算法的方法。

除此之外,还有更多Claude 3测试结果不断被分享出来。

有在长文档总结方面完胜GPT-4的。

也有量子速度一本电子书,总结出5条金句的。

以及在多模态理解上,识别日语收据文字和格式的。

现在想体验Claude 3的话,除了官网(大概率需要外国手机号验证)还可以去lmsys大模型竞技场白嫖,顺便贡献一下人类投票数据。

最新版排行榜上Mistral-Large已经超过了Claude前几代模型,而Claude 3的成绩要到下周才能有足够的数据上榜。

Claude 3会不会在人类评估上一举超越GPT-4呢?

量子位会和大家一起持续关注。

OpenAI还有后手

有网友表示,如果大家持续晒Claude有多棒,一直刺激OpenAI就会发布GPT-5,大家加油吧。

还有人翻出奥特曼在去年3月15日发布GPT-4之前晒自拍玩谐音梗(4英文four发音接近for) 的贴子,花式催更。

目前来看,Claude 3来势汹汹,OpenAI方面可能真的要坐不住了。

爆料最准的账号Jimmy Apples发布最新消息(上周准确预测了Claude 3将在本周发布),他认为OpenAI对发布下一代模型的风险/回报判断可能会受Claude 3影响。

刚刚从OpenAI离职的开发者关系负责人Logan Kilpatrick也在与网友互动中确认本周还会有大事发生。

至于是GPT-4.5,Q*,Sora开放测试,还是直接GPT-5?

OpenAI下一个产品又能否盖过Claude3的风头?

参考链接:

[1]https://x.com/alexalbert__/status/1764722513014329620

[2]https://x.com/GillVerd/status/1764901418664882327

[3]https://x.com/KevinAFischer/status/1764892031233765421

[4]https://x.com/hahahahohohe/status/1765088860592394250

X
XXyourOO
1 楼
请问,我如果问Claude 3 解释一下通商宽衣这个成语,能否让Claude 3陷入死循环? [2评]
雁过留声机
2 楼
XXyourOO 老狗每帖必骂习近平,这是拿钱手不停的节奏
j
jujubi
3 楼
再过几年,中国人工智能和美国人工智能的差别,就像猿人和现代人的区别 [1评]
q
qtwer
4 楼
没看懂说的具体是什么?
n
neophoenix
5 楼
Claude 3在有些地方比gpt好,像一些知识的细节部分,真假不知道,解说的很详细,就比如昨天的关于玻尿酸的帖子,我就问了制作方法,两个都说了链球菌发酵,但喂啥东西之类的chatgpt就有些忽略,3就很详细,但不深聊还不太清楚极限,但应该比gpt全面,推理不详,空间认知能力不详
阿拉正港灿
6 楼
不会 通商宽衣是中国古代外交的一个重要原则和做法。它包含以下几层涵义: 通商:指通过贸易,促进与其他国家的经济往来和文化交流。这体现了中国对外开放、互利共赢的态度。 宽衣:指示以宽大、仁慈的态度对待外国使节,优厚馆馆待遇。体现了对外国友好、礼让的态度。 推广中华文化:通过招纳外国使节,向他们展示中国的文明成就,传播中国文化,扩大中国在国际上的影响力。 维护主权尊严:虽然对外国使节友好有礼,但并不损害中国的主权和尊严,保持大国自尊心。 谋求和平共处:通过开放包容的态度与各国交往,化解矛盾分歧,促进世界和平。 总的来说,通商宽衣政策展现了中国古代睿智的对外政策,在坚持主权尊严的同时,通过开放、友好的方式与各国交往,维护和平与共赢。这与当代中国的和平发展、构建人类命运共同体理念颇有渊源。 [1评]
阿拉正港灿
7 楼
chatgpt更扯 通商宽衣是中国古代一种外交政策和贸易政策,字面意思是“通商使人穿宽大的衣服”。这一政策鼓励外国商人来华进行贸易,并给予他们一定的优惠待遇,如免税、安全保障等,以促进国内经济繁荣和对外交往。通商宽衣政策出现于唐代,隋唐时期对外开放的政策较为宽松,吸引了大量外国商人来华贸易。
8 楼
马斯克看穿了,在嘲讽呢
X
XXyourOO
9 楼
😄👍
大刘刘
10 楼
不可能的事。 现在无论那种机器学习,它的算法以及实现的各种方式,都是公开的,任何人都可以自己攒机,从scratch 做一遍。 问题是,现在的算法需要大量的算力!这不是普通人能够做到的。这需要钱,很多钱去购买英伟达的学习芯片。 但是,算力这个东西一旦到国家层面,就不是个问题了。不是有句话说了吗,凡是能用钱搞定的事,都一定不是事。 中国有钱,至少是国家层面,有的是钱。单个算力不行,那么并行几十万,几百万的本土或者走私进来的各种洋GPU 总可以吧。别忘了,中国的数字通讯,世界第一! 通讯第一意味着什么啊。意味着,现在无论那种科技,任何科技,只要有人能做出来,中国一定可以搞定。原因就是这个通讯。 中国是个什么国家,什么体制啊。大聪明的你说对了,集体文化,集体体制,共产体制,最喜欢也最擅长集中力量办事。集中力量,各种力量,把各种力量并联起来的通讯,刚好又是世界第一,你说说看,这个集中力量+中国第一的通讯技术,啥问题,啥事解决不了啊。 更别说,华为等等学习芯片已经在路上了。
j
jujubi
11 楼
1)算法,OpenAI的早期AI是公开的,但是新一代的AI早就不公开了。每种AI有自己的强项。好的AI软件要靠自己开发,除非去偷。 2)硬件,走私几个GPU可以,但是走私几十万个根本不可能,况且GPU一代一代更新,如果跟不上很快就落伍。 3)集中力量办大事的概念对AI不适用,AI的发展是指数形式,集中力量办大事的发展是线性形式。时间不在中国这边啊! [1评]
c
cxy1223
12 楼
我觉得如果这个东西读论文很拿手,可以让它去读读那些经典基础性的论文,里面假的不少。还有新闻报道。。。
大刘刘
13 楼
算法现在完全不是问题。现在搞AI ,最不用担心的就是算法。 算力是唯一的需要担心的东西。这也是为什么现在制裁中国,主要就是制裁算力,AI 学习芯片的原因。 正如回帖说的,中国的电子通讯技术世界第一,这让中国有可能搭建比openAI 更加强大算力的可能。 [1评]
涸泽而渔
14 楼
看着你的婊子习猪头婊子妈被骂,你这条婊子养的五毛阉狗怕拿不到五毛钱了
j
jujubi
15 楼
: 算法不是问题?Google Gemini 就比不上GPT4。中国AI开发是基于公开版本。
农民大伯
16 楼
我试了下claude 3免费版理解中文鸽子蛋表示大钻石都理解不了.GPT4一看就明白
G
Griller
17 楼
open ai的研发人员很大部分也是华人。。。 何必呢。 [1评]
j
jujubi
18 楼
大多数美国的华人工程师不会去帮中共的。他们的家庭小孩都扎根美国,怎么可能去帮中国对抗美国呢?
白萝卜
19 楼
高速片间互联都搞不定。通信第一有毛用。再说通信是低质量堆叠出来的。有钱不在乎回报谁都能世界第一。