← 返回

Anthropic发布最新大型语言模型Claude Sonnet 4.6

美国AI公司Anthropic于2月18日推出Claude Sonnet 4.6模型,在基准测试中超越同公司旗舰产品Opus 4.6。新模型提供100万token上下文窗口,代码生成能力显著提升,定价较Opus系列更具竞争力。

Anthropic发布最新大型语言模型Claude Sonnet 4.6

美国人工智能公司Anthropic于2月18日推出其最新版本大型语言模型Claude Sonnet 4.6。该模型继2月5日推出的旗舰产品Claude Opus 4.6后迅速面世,根据公司测试数据,Sonnet 4.6在多项基准测试中表现优于同系列的Opus 4.6,包括金融分析、办公任务等专业领域。

技术规格与性能

Anthropic表示,Claude Sonnet 4.6在测试中展现出较低的幻觉生成倾向和奉承行为。该模型已开放100万token上下文窗口(测试版),开发者反馈其代码生成能力大幅提升。保险科技公司Pace的测试显示,Sonnet 4.6在复杂保险系统基准测试中优于所有Claude系列模型。

获取与定价

免费用户可通过claude.ai和Claude Cowork平台使用该模型,但受限于每五小时重置的使用频率。Pro用户月费20美元(或年付17美元)。通过API渠道使用时,Sonnet 4.6的输入/输出token单价为3/15美元,较Opus 4.6(5/25美元)更具成本优势。

基准测试结果

- GPQA Diamond测试:89.9%
- ARC-AGI-2测试:58.3%
- MMMLU测试:89.3%
- SWE-bench Verified测试:79.6%
- 人类终极考试(HLE):使用工具49.0%,无工具33.2%

编辑点评

Anthropic的Claude Sonnet 4.6发布标志着AI模型竞争进入新阶段。该模型在专业基准测试中超越同公司旗舰产品,挑战了此前Opus系列在复杂推理领域占据主导地位的格局。其技术突破可能影响全球AI开发者的工具选择,特别是代码生成领域。定价策略上,通过降低token成本,Anthropic试图在开源与闭源模型之间建立差异化优势,这对亚马逊云服务等合作伙伴的全球企业客户具有吸引力。长期看,这一进展或加剧科技巨头在AI性能与成本控制间的平衡竞赛,推动行业向更高效能与更优性价比方向发展。

相关消息:https://mashable.com/article/anthropic-claude-sonnet-4-6-released-how-to-try-benchmark-performance