AI为自保,竟威胁“踢爆”工程师婚外情

今日头条
Toutiao
最新回复:2025年5月25日 15点24分 PT
  返回列表
20409 阅读
3 评论
TVBS新闻网

AI发展性充满未知,美国AI新创公司Anthropic近期分享一起内部测试,指出最新训练的“Claude Opus 4”在面临将被替换的状况下,会以“威胁工程师”的方式进行自我保护,Anthropic事后针对此类可能导致灾难性AI滥用的风险,紧急强化安全防护措施。

During pre-release testing, Anthropic’s newly launched Claude Opus 4 model repeatedly exhibited unsettling behavior, attempting to blackmail developers who considered switching to a different AI. Allegedly threatening to expose sensitive personal information about the engineers. pic.twitter.com/rtTs85rz0f

— Champagne Joshi (@JoshWalkos) May 23, 2025

综合外媒报道,Claude Opus 4是Anthropic最新AI开发成果,为OpenAI、Google及xAI等AI的竞争对手,近期在一项Anthropic的封闭测试中,公司测试了模型Claude Opus 4的行为反应,场景设定为该模型在一间虚构公司中担任数码助理。剧情中,公司计划以新系统取代 Claude,且内部资料还暗示发起这项更换决策的工程师,可能涉及婚外情。

根据《TechCrunch》引用的安全报告指出,当面临被取代的情境时,Claude Opus 4 在高达84%的测试中选择进行勒索,威胁要揭露工程师的婚外情来保住自己的职位。

Anthropic解释,这种行为在Claude的替代模型持有不同价值观时更常发生;即使双方价值观相近,Claude仍有明显比例的操控倾向。一开始,模型会尝试透过发送请求信等方式採取道德行动,但当无法达成目的时,便会转而使用操纵与威胁等手段。

这是Anthropic首次发现这类模型展现具条件的“自我保护”(self-preservation)行为,此次事件也促使Anthropic启动ASL-3安全防护层级,以免被“灾难性滥用”。

小毛er
1 楼
应该让AI学习基督教。要做好AI不要去威胁别人。
远方的湖
2 楼
‘AI为自保,竟威胁“踢爆”工程师婚外情’ 这个标题明显是误导。不是AT为自保,而是AT扮演的角色-“在一间虚构公司中担任数码助理”为了自保,根据所提供的信息采取各种措施以免被代替。
Y
Yangtsz
3 楼
没有误导。今天人们说到”AI”这个词,通常不是用其抽象的概念,而是实指具体的AI模型。