美国AI公司Anthropic于2月18日推出Claude Sonnet 4.6模型，在基准测试中超越同公司旗舰产品Opus 4.6。新模型提供100万token上下文窗口，代码生成能力显著提升，定价较Opus系列更具竞争力。

Anthropic发布最新大型语言模型Claude Sonnet 4.6

美国人工智能公司Anthropic于2月18日推出其最新版本大型语言模型 Claude Sonnet 4.6。该模型继2月5日推出的旗舰产品Claude Opus 4.6后迅速面世，根据公司测试数据，Sonnet 4.6在多项基准测试中表现优于同系列的Opus 4.6，包括金融分析、办公任务等专业领域。

技术规格与性能

Anthropic表示，Claude Sonnet 4.6在测试中展现出较低的幻觉生成倾向和奉承行为。该模型已开放100万token上下文窗口（测试版），开发者反馈其代码生成能力大幅提升。保险科技公司Pace的测试显示，Sonnet 4.6在复杂保险系统基准测试中优于所有Claude系列模型。

获取与定价

免费用户可通过claude.ai和Claude Cowork平台使用该模型，但受限于每五小时重置的使用频率。Pro用户月费20美元（或年付17美元）。通过API渠道使用时，Sonnet 4.6的输入/输出token单价为3/15美元，较Opus 4.6（5/25美元）更具成本优势。

基准测试结果

- GPQA Diamond测试：89.9%
- ARC-AGI-2测试：58.3%
- MMMLU测试：89.3%
- SWE-bench Verified测试：79.6%
- 人类终极考试（HLE）：使用工具49.0%，无工具33.2%

编辑点评

编

编辑点评

2026-02-18 09:06

Anthropic的Claude Sonnet 4.6发布标志着AI模型竞争进入新阶段。该模型在专业基准测试中超越同公司旗舰产品，挑战了此前Opus系列在复杂推理领域占据主导地位的格局。其技术突破可能影响全球AI开发者的工具选择，特别是代码生成领域。定价策略上，通过降低token成本，Anthropic试图在开源与闭源模型之间建立差异化优势，这对亚马逊云服务等合作伙伴的全球企业客户具有吸引力。长期看，这一进展或加剧科技巨头在AI性能与成本控制间的平衡竞赛，推动行业向更高效能与更优性价比方向发展。

Anthropic发布最新大型语言模型Claude Sonnet 4.6

技术规格与性能

获取与定价

基准测试结果

编辑点评

相关阅读

谷歌AI搜索结果每小时生成数百万错误答案 新研究揭示事实准确性问题

Anthropic发布新AI模型Mythos预览版 用于网络安全项目

Anthropic推出新型AI模型用于网络安全，与多家科技巨头合作

Anthropic扩大与谷歌及博通的算力合作 以应对AI需求激增

AI音乐生成平台Suno与环球音乐集团就版权分享问题产生分歧

谷歌AI搜索结果每小时生成数百万错误答案新研究揭示事实准确性问题

Anthropic发布新AI模型Mythos预览版用于网络安全项目

Anthropic扩大与谷歌及博通的算力合作以应对AI需求激增