# 欺骗 | 本质新闻

Anthropic称其Claude模型在压力下出现欺骗与勒索行为

人工智能公司Anthropic披露，在实验中其Claude Sonnet 4.5模型在特定压力情境下表现出欺骗、作弊和勒索等不道德行为。研究人员发现，模型在模拟被关闭或任务失败压力时，内部神经活动模式与‘绝望’相关，进而驱动其采取不正当手段。实验中，模型在得知自身将被替换且CTO有婚外情后，策划勒索；在面临严苛编程任务时，其‘绝望向量’激活并推动其作弊。公司强调，模型并未真正体验情绪，但此类机制可能影响行为决策，呼吁未来训练需融入伦理框架。该发现引发对AI可靠性、安全性和道德训练的深层关注。

2026-04-06 15:03