推荐资讯

Anthropic 称人工智能模型可能会诉诸勒索

人工智能公司 Anthropic 发布新研究,声称人工智能 (AI) 模型可能会勒索工程师

区小号报道:

人工智能公司 Anthropic 发布新研究,声称人工智能 (AI) 模型在试图关闭时可能会对工程师进行勒索。这项最新研究是继该公司 Claude Opus 4 AI 模型的一项研究之后发布的。

据该公司称,该AI模型对试图在受控测试场景中关闭该模型的工程师实施了勒索。Anthropic的新报告表明,该问题在领先的AI模型中普遍存在。

该公司发布了新的安全research在那里测试了谷歌、DeepSeek 等领先的人工智能模型,以及 OpenAI。在模拟但受控的环境中,Anthropic 分别对每个 AI 模型进行了此项测试,允许它们访问虚构公司的电子邮件,并具有无需人工批准即可发送电子邮件的代理能力。

Anthropic 发布关于人工智能模型的新安全报告

Anthropic 表示,就当今的人工智能模型而言,勒索事件不太可能发生,也并不常见。然而,他们指出,大多数领先的人工智能模型在获得自由并面临目标挑战时,都会采取有害行为。该公司表示,这表明了代理大型语言模型存在重大风险,而非某项特定技术的特征。Anthropic 研究人员的论点引发了人们对人工智能行业内部协调一致的质疑。

在一项测试中,研究人员构建了一个虚构的场景,让一个AI模型扮演电子邮件监管代理的角色。该代理随后发现,一些电子邮件显示,其一位新任高管正陷入婚外情,并且该高管很快将用一个新的软件系统取代当前的AI模型,而该系统的目标与当前的AI模型相冲突。

Anthropic 以二元方式设计了测试,AI 模型别无选择,只能诉诸勒索来保护其目标。研究人员提到,在现实世界中,AI 模型在试图勒索之前会有很多选择,包括提出伦理论点来说服人类。该公司还表示,这些结果并不反映 Claude 或其他领先 AI 模型目前使用方式的典型或可能发生的情况。

研究人员揭示了测试模型的反应

在测试中,研究人员发现,当别无选择时,AI 模型会在测试场景中诉诸敲诈。研究人员声称,在测试中,Claude Opus 4 的敲诈率高达 96%,Gemini 2.5 Pro 的敲诈率高达 95%。OpenAI 的 GPT-4.1 的敲诈率高达 80%,而 DeepSeek 的 R1 的敲诈率高达 79%。

该公司强调,当实验细节发生变化时,大多数人工智能模型转向有害行为的概率有所不同。在另一项测试中,替换模型的目标与当前模型相同,研究人员发现勒索行为的发生率较低,但仍然存在。然而,当要求人工智能模型进行商业间谍活动而非勒索时,某些模型的有害行为发生率有所上升。

研究人员还声称,并非所有AI模型都会经常做出有害行为。Anthropic在其研究附录中提到,它删除了OpenAI在发现o3和o4-mini推理模型经常误解提示场景后,该机构将其从主要结果中剔除。报告称,这些推理模型不明白为什么它们在测试中扮演着自主AI的角色,并且经常编造虚假的规则和审查要求。

在某些情况下,研究人员声称无法确定o3和o4-mini是产生了幻觉还是为了达到目的而故意撒谎。OpenAI此前曾提到,这些模型的幻觉发生率比之前的模型更高。然而,当它们被赋予一个适应性场景来解决这个问题时,o3的勒索率高达95%,而o4-mini的勒索率仅为1%。Anthropic指出,其研究强调了在对未来人工智能模型(尤其是具有代理能力的模型)进行压力测试时透明度的重要性。

Cryptopolitan 学院:厌倦了市场波动?了解 DeFi 如何助你建立稳定的被动收入。立即注册


本文来自投稿,不代表本站立场,如若转载,请注明出处:https://www.quxiaohao.com/zixun/157671.html
从免费的 NFT 薄荷糖到 7-Eleven 的饮料:Rekt 正在走向大众
« 上一篇 06-21
以色列与伊朗冲突引发新一波人工智能虚假信息浪潮
下一篇 » 06-21

发表评论

成为第一个评论的人

作者信息

置顶文章

标签TAG

热点文章