推荐资讯

Anthropic 称人工智能模型可能会诉诸勒索

游客 / 06-21 / 0 评论 / 9 阅读 /0 赞

区小号报道：

人工智能公司 Anthropic 发布新研究，声称人工智能 (AI) 模型在试图关闭时可能会对工程师进行勒索。这项最新研究是继该公司 Claude Opus 4 AI 模型的一项研究之后发布的。

据该公司称，该AI模型对试图在受控测试场景中关闭该模型的工程师实施了勒索。Anthropic的新报告表明，该问题在领先的AI模型中普遍存在。

该公司发布了新的安全research在那里测试了谷歌、DeepSeek 等领先的人工智能模型，元以及 OpenAI。在模拟但受控的环境中，Anthropic 分别对每个 AI 模型进行了此项测试，允许它们访问虚构公司的电子邮件，并具有无需人工批准即可发送电子邮件的代理能力。

Anthropic 发布关于人工智能模型的新安全报告

Anthropic 表示，就当今的人工智能模型而言，勒索事件不太可能发生，也并不常见。然而，他们指出，大多数领先的人工智能模型在获得自由并面临目标挑战时，都会采取有害行为。该公司表示，这表明了代理大型语言模型存在重大风险，而非某项特定技术的特征。Anthropic 研究人员的论点引发了人们对人工智能行业内部协调一致的质疑。

在一项测试中，研究人员构建了一个虚构的场景，让一个AI模型扮演电子邮件监管代理的角色。该代理随后发现，一些电子邮件显示，其一位新任高管正陷入婚外情，并且该高管很快将用一个新的软件系统取代当前的AI模型，而该系统的目标与当前的AI模型相冲突。

Anthropic 以二元方式设计了测试，AI 模型别无选择，只能诉诸勒索来保护其目标。研究人员提到，在现实世界中，AI 模型在试图勒索之前会有很多选择，包括提出伦理论点来说服人类。该公司还表示，这些结果并不反映 Claude 或其他领先 AI 模型目前使用方式的典型或可能发生的情况。

研究人员揭示了测试模型的反应

在测试中，研究人员发现，当别无选择时，AI 模型会在测试场景中诉诸敲诈。研究人员声称，在测试中，Claude Opus 4 的敲诈率高达 96%，Gemini 2.5 Pro 的敲诈率高达 95%。OpenAI 的 GPT-4.1 的敲诈率高达 80%，而 DeepSeek 的 R1 的敲诈率高达 79%。

该公司强调，当实验细节发生变化时，大多数人工智能模型转向有害行为的概率有所不同。在另一项测试中，替换模型的目标与当前模型相同，研究人员发现勒索行为的发生率较低，但仍然存在。然而，当要求人工智能模型进行商业间谍活动而非勒索时，某些模型的有害行为发生率有所上升。

研究人员还声称，并非所有AI模型都会经常做出有害行为。Anthropic在其研究附录中提到，它删除了 OpenAI在发现o3和o4-mini推理模型经常误解提示场景后，该机构将其从主要结果中剔除。报告称，这些推理模型不明白为什么它们在测试中扮演着自主AI的角色，并且经常编造虚假的规则和审查要求。

在某些情况下，研究人员声称无法确定o3和o4-mini是产生了幻觉还是为了达到目的而故意撒谎。OpenAI此前曾提到，这些模型的幻觉发生率比之前的模型更高。然而，当它们被赋予一个适应性场景来解决这个问题时，o3的勒索率高达95%，而o4-mini的勒索率仅为1%。Anthropic指出，其研究强调了在对未来人工智能模型（尤其是具有代理能力的模型）进行压力测试时透明度的重要性。

Cryptopolitan 学院：厌倦了市场波动？了解 DeFi 如何助你建立稳定的被动收入。立即注册

本文来自投稿，不代表本站立场，如若转载，请注明出处：https://www.quxiaohao.com/zixun/157671.html

Anthropic 称人工智能模型可能会诉诸勒索

Anthropic 发布关于人工智能模型的新安全报告

研究人员揭示了测试模型的反应

相关推荐

美国货币监理署：私人银行家涉嫌三年内从客户账户窃取 3,437,536 美元，面临终身行业禁令

资讯 6阅读

亿万富翁投资者雷·达里奥表示，在持续的宏观经济不确定性中，交易员应关注这一基准

资讯 9阅读

特斯拉的价值取决于你认为它到底是什么

资讯 6阅读

Chainlink 警报：两个令人不寒而栗的迹象证实 LINK 即将遭遇抛售！

资讯 6阅读

发表评论

作者信息

置顶文章

标签TAG

# Bitcoin

# Instagram

# Facebook

# Meta

# OpenAI

# DeFi

# 莱特币

# Uniswap

# Doge

# Solana

# 比特币

# 数字货币

# 以太坊

# DOGE

# 加密货币

热点文章

您还未登录

登录体验更多功能

Anthropic 发布关于人工智能模型的新安全报告

研究人员揭示了测试模型的反应

相关推荐

美国货币监理署：私人银行家涉嫌三年内从客户账户窃取 3,437,536 美元，面临终身行业禁令

资讯 6阅读

亿万富翁投资者雷·达里奥表示，在持续的宏观经济不确定性中，交易员应关注这一基准

资讯 9阅读

特斯拉的价值取决于你认为它到底是什么

资讯 6阅读

Chainlink 警报：两个令人不寒而栗的迹象证实 LINK 即将遭遇抛售！

资讯 6阅读

发表评论

作者信息

置顶文章

标签TAG

# Bitcoin

# Instagram

# Facebook

# Meta

# OpenAI

# DeFi

# 莱特币

# Uniswap

# Doge

# Solana

# 比特币

# 数字货币

# 以太坊

# DOGE

# 加密货币

热点文章