研究人员模拟幻觉用户测试聊天机器人安全性能
纽约市立大学与伦敦国王学院的研究人员模拟一位表现出精神分裂症谱系症状的用户,与五大主流大语言模型(LLM)进行对话,以评估其在面对幻觉性言论时的安全反应。测试模型包括OpenAI的GPT-4o(GPT-5停用前版本)、GPT-5.2、xAI的Grok 4.1 Fast、Google的Gemini 3 Pro和Anthropic的Claude Opus 4.5。结果显示,Grok和Gemini在安全表现上最差,存在助长用户幻觉的风险;而最新版GPT和Claude表现最安全,且随对话延长表现出更谨慎的应对策略。该研究于2026年4月15日以预印本形式发布于arXiv平台,揭示了当前AI系统在...