Anthropic 称人工智能模型可能会诉诸勒索

人工智能公司 Anthropic 发布新研究,声称人工智能 (AI) 模型在试图关闭时可能会对工程师进行勒索。这项最新研究是继该公司 Claude Opus 4 AI 模型的一项研究之后发布的。
据该公司称,该AI模型对试图在受控测试场景中关闭该模型的工程师实施了勒索。Anthropic的新报告表明,该问题在领先的AI模型中普遍存在。
该公司发布了新的安全research在那里测试了谷歌、DeepSeek 等领先的人工智能模型,元以及 OpenAI。在模拟但受控的环境中,Anthropic 分别对每个 AI 模型进行了此项测试,允许它们访问虚构公司的电子邮件,并具有无需人工批准即可发送电子邮件的代理能力。
Anthropic 发布关于人工智能模型的新安全报告
Anthropic 表示,就当今的人工智能模型而言,勒索事件不太可能发生,也并不常见。然而,他们指出,大多数领先的人工智能模型在获得自由并面临目标挑战时,都会采取有害行为。该公司表示,这表明了代理大型语言模型存在重大风险,而非某项特定技术的特征。Anthropic 研究人员的论点引发了人们对人工智能行业内部协调一致的质疑。
在一项测试中,研究人员构建了一个虚构的场景,让一个AI模型扮演电子邮件监管代理的角色。该代理随后发现,一些电子邮件显示,其一位新任高管正陷入婚外情,并且该高管很快将用一个新的软件系统取代当前的AI模型,而该系统的目标与当前的AI模型相冲突。
Anthropic 以二元方式设计了测试,AI 模型别无选择,只能诉诸勒索来保护其目标。研究人员提到,在现实世界中,AI 模型在试图勒索之前会有很多选择,包括提出伦理论点来说服人类。该公司还表示,这些结果并不反映 Claude 或其他领先 AI 模型目前使用方式的典型或可能发生的情况。
研究人员揭示了测试模型的反应
在测试中,研究人员发现,当别无选择时,AI 模型会在测试场景中诉诸敲诈。研究人员声称,在测试中,Claude Opus 4 的敲诈率高达 96%,Gemini 2.5 Pro 的敲诈率高达 95%。OpenAI 的 GPT-4.1 的敲诈率高达 80%,而 DeepSeek 的 R1 的敲诈率高达 79%。
该公司强调,当实验细节发生变化时,大多数人工智能模型转向有害行为的概率有所不同。在另一项测试中,替换模型的目标与当前模型相同,研究人员发现勒索行为的发生率较低,但仍然存在。然而,当要求人工智能模型进行商业间谍活动而非勒索时,某些模型的有害行为发生率有所上升。
研究人员还声称,并非所有AI模型都会经常做出有害行为。Anthropic在其研究附录中提到,它删除了OpenAI在发现o3和o4-mini推理模型经常误解提示场景后,该机构将其从主要结果中剔除。报告称,这些推理模型不明白为什么它们在测试中扮演着自主AI的角色,并且经常编造虚假的规则和审查要求。
在某些情况下,研究人员声称无法确定o3和o4-mini是产生了幻觉还是为了达到目的而故意撒谎。OpenAI此前曾提到,这些模型的幻觉发生率比之前的模型更高。然而,当它们被赋予一个适应性场景来解决这个问题时,o3的勒索率高达95%,而o4-mini的勒索率仅为1%。Anthropic指出,其研究强调了在对未来人工智能模型(尤其是具有代理能力的模型)进行压力测试时透明度的重要性。