谷歌发布两款新型TPU芯片应对“智能体时代”
谷歌推出第八代Tensor处理单元(TPU)芯片,分为用于模型训练的TPU 8t和用于推理的TPU 8i,旨在提升AI系统效率和性能。谷歌认为“智能体时代”与传统AI系统有本质区别,需要全新的硬件架构支持。
TPU 8t:专为训练优化
TPU 8t专为训练前沿AI模型设计,目标是将训练周期从数月缩短至数周。更新后的Tensor 8t服务器集群(称为“Pod”)每Pod集成了9600颗芯片,配备两PB共享高带宽内存。谷歌宣称单Pod计算能力达121 FP4 EFlops,是前代Ironwood TPU的近三倍。该架构支持线性扩展,单逻辑集群可容纳多达一百万颗芯片。
公司称其“goodpute”率(有效计算率)达97%,通过优化不规则内存访问、自动处理硬件故障及实时跨芯片遥测,减少等待和资源浪费。TPU 8t还支持更高效的训练流程,提升整体利用率。
TPU 8i:高效推理平台
TPU 8i专为推理任务设计,适用于运行多个专用智能体。与前代Ironwood推理集群每Pod 256颗芯片相比,TPU 8i每Pod集成1152颗芯片,单Pod性能达11.6 EFlops。每颗芯片片上SRAM增至384MB,支持更大键值缓存,提升长上下文窗口模型处理速度。
TPU 8i采用谷歌自研Axion ARM CPU作为主机,每两颗TPU配一颗CPU,取代Ironwood中每四颗TPU配一颗x86 CPU的设计。这种“全栈ARM”架构提升系统效率。
能效与数据中心优化
谷歌声称新TPU能效提升两倍,每瓦性能较Ironwood翻倍。数据中心与TPU协同设计,通过将网络与计算集成于单芯片、优化Pod布局,使每单位电力的计算能力提升六倍。冷却方面,谷歌升级第四代液冷系统,采用主动控制阀门,根据负载动态调节水流,提升冷却效率。
开发者支持与市场影响
TPU 8t与8i支持JAX、PyTorch、MaxText、SGLang、vLLM等主流开发框架,面向第三方开发者开放。谷歌表示,新芯片将用于其Gemini智能体系统,并支持未来AI应用。
Nvidia股价在谷歌宣布后一度下跌约1.5%,但随后回升并重回每股200美元以上。尽管AI芯片需求持续增长,市场仍存在对“AI泡沫”的担忧,但谷歌等企业仍视其为智能体时代发展的起点。
编辑点评
谷歌此次发布TPU 8t和TPU 8i,标志着其在AI基础设施领域进一步深化自研能力。将训练与推理硬件分离,体现了对AI生命周期本质的深刻理解——训练需要极致算力,而推理则需高效率与低延迟。这一策略不仅优化资源利用,也为智能体(agent)的规模化部署铺路。在当前全球AI算力竞赛中,谷歌此举或加剧与Nvidia的差异化竞争。Nvidia虽在市场主导地位稳固,但谷歌通过全栈自研架构(包括ARM CPU、TPU、液冷、数据中心)构建了更紧密的生态闭环,可能在未来AI成本控制和定制化服务中占据优势。此外,TPU 8i对长上下文处理的优化,契合多智能体协作、复杂任务分解等新兴场景,预示AI应用将向更复杂、更自主的方向演进。从全球角度看,此举推动AI基础设施向专业化、模块化发展,可能影响全球云服务提供商的硬件选型策略,尤其对寻求降低AI成本的企业具有参考价值。技术路线的分野也暗示,未来AI市场或呈现‘专用芯片+通用框架’的混合模式,而谷歌正试图成为这一生态的核心构建者。