← 返回

谷歌发布Gemini 3.1 Pro模型:基准测试表现突出

2026年2月19日,谷歌推出最新一代核心推理模型Gemini 3.1 Pro,在Humanity's Last Exam和ARC-AGI-2等关键基准测试中超越Claude Opus 4.6和GPT-5.2。该模型已在Gemini App、API和Notebook LM平台上线,付费用户可享有更高使用权限。

谷歌发布Gemini 3.1 Pro模型:基准测试表现突出

2026年2月19日,谷歌推出其最新一代核心推理模型Gemini 3.1 Pro,官方数据显示该模型在Humanity's Last Exam基准测试中得分44.4%,超越Claude Opus 4.6的40.0%和GPT-5.2的34.5%。在ARC-AGI-2测试中,Gemini 3.1 Pro取得77.1%成绩,对比此前的Gemini 3 Pro(31.1%)、Claude Opus 4.6(68.8%)和GPT-5.2(52.9%)。

试用渠道与用户分层

该模型目前已通过Gemini App、Gemini API和Notebook LM平台向用户开放。免费用户可在桌面端和移动端Gemini App体验3.1 Pro版本,而Google AI Pro和AI Ultra付费用户将获得更高的使用额度。企业开发者可通过AI Studio、Antigravity、Vertex AI等渠道访问新模型,Notebook LM平台目前仅对付费用户开放。

竞争格局与技术突破

谷歌披露,其11月发布的Gemini 3 Pro已导致OpenAI首席执行官山姆·阿尔特曼(Sam Altman)宣布紧急状态。最新数据显示,GPT-5.2在Arena等AI模型排行榜中掉出前列,而Gemini 3.1 Pro在多数测试中保持领先优势。值得注意的是,OpenAI的GPT-5.3-Codex在SWE-Bench Pro基准测试中仍以56.8%保持优势,谷歌则以54.2%位列第二。

相关背景

2025年4月,Mashable母公司Ziff Davis曾起诉OpenAI,指控其训练AI系统侵犯版权。该披露信息与当前发布的Gemini 3.1 Pro无直接关联,但反映了AI技术竞争的法律层面。

编辑点评

谷歌此次推出的Gemini 3.1 Pro标志着大模型技术竞赛进入新阶段。在Humanity's Last Exam等综合性AI基准测试中,其得分较竞品提升近10个百分点,显示其在通用推理能力上的突破。这一进展或将加速全球科技企业对AI底层架构的升级速度,尤其在垂直领域(如代码生成)的竞争仍需持续观察。

国际社会对AI技术发展的关注度持续升温,谷歌在推理模型上的优势可能影响全球AI产业链分工。OpenAI在代码生成领域的保持领先地位(SWE-Bench Pro 56.8%)则体现了其专项优化能力,这种差异化竞争或将推动AI技术向专业化细分方向发展。

从全球科技治理角度看,此类技术突破可能引发更多关于AI伦理与知识产权的讨论。当前AI模型迭代周期已缩短至3-6个月,企业之间的技术壁垒正在被快速突破,这种动态将深刻影响未来全球科技格局。中国科技企业若要在这一赛道保持竞争力,需在基础研究与应用场景创新上同步发力。

相关消息:https://mashable.com/article/google-releases-gemini-3-1-pro-benchmarks