2026年2月19日，谷歌推出最新一代核心推理模型Gemini 3.1 Pro，在Humanity's Last Exam和ARC-AGI-2等关键基准测试中超越Claude Opus 4.6和GPT-5.2。该模型已在Gemini App、API和Notebook LM平台上线，付费用户可享有更高使用权限。

谷歌发布Gemini 3.1 Pro模型：基准测试表现突出

2026年2月19日，谷歌推出其最新一代核心推理模型Gemini 3.1 Pro，官方数据显示该模型在Humanity's Last Exam基准测试中得分44.4%，超越Claude Opus 4.6的40.0%和GPT-5.2的34.5%。在ARC-AGI-2测试中，Gemini 3.1 Pro取得77.1%成绩，对比此前的Gemini 3 Pro（31.1%）、Claude Opus 4.6（68.8%）和GPT-5.2（52.9%）。

试用渠道与用户分层

该模型目前已通过Gemini App、Gemini API和Notebook LM平台向用户开放。免费用户可在桌面端和移动端Gemini App体验3.1 Pro版本，而Google AI Pro和AI Ultra付费用户将获得更高的使用额度。企业开发者可通过AI Studio、Antigravity、Vertex AI等渠道访问新模型，Notebook LM平台目前仅对付费用户开放。

竞争格局与技术突破

谷歌披露，其11月发布的Gemini 3 Pro已导致OpenAI首席执行官山姆·阿尔特曼（Sam Altman）宣布紧急状态。最新数据显示，GPT-5.2在Arena等AI模型排行榜中掉出前列，而Gemini 3.1 Pro在多数测试中保持领先优势。值得注意的是，OpenAI的GPT-5.3-Codex在SWE-Bench Pro基准测试中仍以56.8%保持优势，谷歌则以54.2%位列第二。

本质新闻

谷歌发布Gemini 3.1 Pro模型：基准测试表现突出

谷歌发布Gemini 3.1 Pro模型：基准测试表现突出

试用渠道与用户分层

竞争格局与技术突破

相关背景

编辑点评

谷歌发布Gemini 3.1 Pro模型：基准测试表现突出

试用渠道与用户分层

竞争格局与技术突破

相关背景

编辑点评

相关阅读

马斯克在诉讼中要求罢免OpenAI首席执行官奥尔特曼及总裁布罗克曼

英特尔加入马斯克Terafab芯片项目 与SpaceX、特斯拉共建德州芯片厂

Anthropic发布新AI模型Mythos 并与苹果等企业合作推进网络安全计划

谷歌AI搜索结果每小时生成数百万错误答案 新研究揭示事实准确性问题

Anthropic推出新型AI模型用于网络安全，与多家科技巨头合作

英特尔加入马斯克Terafab芯片项目与SpaceX、特斯拉共建德州芯片厂

谷歌AI搜索结果每小时生成数百万错误答案新研究揭示事实准确性问题