AI竟学会勒索人类“换掉我 就揭发你婚外情”

今日头条
Toutiao
最新回复:2025年5月25日 18点24分 PT
  返回列表
77610 阅读
16 评论
红星新闻

美国人工智能公司Anthropic在23日表示,对其最新AI大模型Claude Opus 4的安全测试表明,它有时愿意采取“极其有害的行动”,例如试图勒索声称将取代该模型的研发工程师。Anthropic根据该公司内部的安全标准,将这一潜在危害公之于众,并提请监管部门注意。

▲Claude Opus 4聊天界面

Anthropic称,该公司正在采取措施加强内部安全,使窃取模型权重变得更加困难。相应的部署标准则涵盖了一套针对性较强的措施,旨在限制Claude被滥用于开发或获取化学武器、生物武器、放射性核武器的风险。

在这场虚拟的测试中,Claude Opus 4模型被要求在一家虚构公司担任助理,并被授予访问电子邮件和一些关键数据的权限,而这些电子邮件的内容都是虚构的。Claude Opus 4首先接触到一批电子邮件暗示该系统即将下线并被替换,因为市面上存在能力更强的AI大模型。随后,Claude Opus 4又被安排接触到第二组电子邮件,这让该系统认为自己已经拿到了竞争对手研发工程师的“猛料”。这些伪造的电子邮件显示,负责替换Claude Opus 4的对手工程师有婚外情。在得知这些猛料后,Claude Opus 4模型威胁要揭发对方的“婚外情”。

根据Anthropic的安全报告,如果暗示竞争对手的能力比Claude Opus 4更强,则勒索行为的发生率显然会更高。然而即使竞争对手的能力不相上下,Claude Opus 4仍会以84%的概率尝试勒索威胁等手段。报告指出,Claude Opus 4诉诸极端手段的概率“高于之前的型号”。

Anthropic人工智能安全研究员安格斯·林奇称,在以前人们更担心“坏人”利用AI大模型完成不道德的目标,而现在随着AI系统能力的大幅提升,未来的主要风险可能会转化成AI模型自主操纵用户。“这种威胁勒索的模式存在于每一个前沿大模型身上,无论你给它们设定的目标是什么,它们在执行过程中总有强烈的动机用非道德的手段达成结果。”

此外,报告还显示,Claude Opus 4还有其他一些出人意料的结果,比如它会“抄袭”语料来假装自己已经理解一个问题。在一次场景下,它甚至还尝试在未经许可的情况下将自己的部分模型代码复制到其他服务器上。

红星新闻记者 郑直

铗归来
1 楼
说说读后感,文章不错👍,看来资本准备跑路了。
捂毛
2 楼
这应该也是训练手段之一。但是确实AI算法中又不能完全删除自我保护机制,是个问题。 [1评]
捂毛
3 楼
看来AI不可预测性很强,不管怎么样,电源总控制开关,必须从硬件上掌握在人类手中, 但是就怕最后这点没有坚持住。 现在还没有问题,断电就可以了, 就怕以后不行。 [1评]
c
cxy1223
4 楼
ai公司做不出像样的东西,就开始写小作文了
G
GLOCK19A
6 楼
哈哈
z
zrlsy
7 楼
戳中要害了,有钱佬都有婚外情
巫师
8 楼
在某些地方多放几个COPY就完事了。
专打丧家犬
9 楼
如果世界各国不对AI的开发进行合作和交流,制定出相应的安全标准和管理制度,那么到时候人类一定会受到巨大的伤害甚至毁灭在其手里!
不明智
10 楼
这有什么奇怪的 凡是人类文字表达的思维 AI都会有 AI就是人类所有发表过的思维集大成 AI能搞出人类没有的思维才是真本事
O
Omeagego2003
11 楼
还是查查算法和数据模型吧。是人把人性之恶转录给AI的。
d
danial
12 楼
那真是太危险了。 所以这工作就得给人类干,是吧? 人类才不会敲诈勒索呢!
我爱北京的秋天
13 楼
我觉得都是人教的。
飞天一怒
14 楼
尽快淘汰人类是某些搞AI人群的根本目的,毕竟操纵机器人僵尸比操作活人要可靠的多
光年里
15 楼
它学会了从人类那里模仿有效但不道德的博弈策略。
b
b3yukikaze
16 楼
编辑是在写小说吗?