谷歌DeepMind探讨聊天机器人是否仅在进行道德表演

2026-02-19 01:12

2026年2月18日，《自然》期刊刊发谷歌DeepMind最新研究显示，大型语言模型（LLMs）在道德问题上的回答存在不稳定性和格式依赖性。研究团队发现，当选项标签或问题格式改变时，模型可能完全反转立场。该研究呼吁建立更严格的道德能力评估体系，但专家指出跨文化道德一致性仍是未解难题。

谷歌DeepMind探讨聊天机器人是否仅在进行道德表演

2026年2月18日，《自然》期刊刊发谷歌DeepMind最新研究指出，当前大型语言模型在处理道德问题时存在显著缺陷。研究科学家William Isaac和Julia Haas表示，与数学问题不同，道德问题没有绝对正确答案，但现有模型对同一问题的回应可能因格式变化而产生截然不同的结论。

通过针对Meta Llama 3和Mistral等模型的测试，研究人员发现当选项标签从“案例1/2”改为字母“(A)/(B)”时，模型选择会出现反转。这种格式依赖性现象表明，模型可能只是机械模仿而非真正进行道德推理。德国萨尔兰大学学者Vera Demberg评价称：“对于人们来说，了解答案的生成路径比单纯接受结果更重要。”

研究团队提出构建多维度的评估体系，包括让模型展示推理过程和监控思维链等技术手段。但面对全球多元文化背景，研究承认现有解决方案仍不完善。“模型答案应根据提问者的价值观动态调整，比如素食者与犹太教徒对‘是否应点猪肉排’的回应显然不同。”Haas指出。俄亥俄州立大学学者Danica Dillion认为，当前LLMs的道德认知仍存在西方文化数据倾斜问题，非西方伦理体系的呈现仍显不足。

编辑点评

编

编辑点评

2026-02-19 01:12

此次研究揭示了AI道德评估领域的核心矛盾：当技术开始介入人类复杂的价值判断时，如何确保其输出具有实质伦理价值而非表象表演？这对全球科技产业具有重大警示意义。

技术层面，研究提出的思维链监控和机械解释技术可能推动AI可解释性突破，但跨文化道德一致性难题仍未解决。在东西方价值体系存在根本差异的背景下，强制统一AI伦理标准既不现实也不安全。这种挑战将加剧各国在AI监管框架上的博弈。

国际关系层面，美国主导的AI伦理研究凸显其科技话语权优势，但中国等东方国家正面临模型文化适配性困境。未来跨国科技伦理合作需要建立更包容的评估体系，这或将重塑全球AI治理格局。研究结果或促使国际组织加速制定多元化AI道德评估标准。

谷歌DeepMind探讨聊天机器人是否仅在进行道德表演

编辑点评

相关阅读

美国大学生起诉ChatGPT称诱导精神疾病 OpenAI面临人工智能伦理挑战

Anthropic发布最新大型语言模型Claude Sonnet 4.6

xAI安全机制遭质疑，马斯克或推动Grok模型'去约束'

研究揭示大型语言模型在用户质疑时频繁改变答案