谷歌发布两款新型TPU芯片应对“智能体时代”

2026-04-23 02:04

谷歌推出第八代Tensor处理单元（TPU）芯片，分为用于模型训练的TPU 8t和用于推理的TPU 8i，旨在提升AI系统效率和性能。TPU 8t支持每Pod 9600颗芯片、两PB共享高速内存，单Pod计算能力达121 FP4 EFlops，训练时间从数月缩短至数周。TPU 8i则优化推理效率，每Pod配备1152颗芯片，支持384MB片上SRAM，提升长上下文模型处理速度。新芯片采用全栈ARM架构，能效提升两倍，数据中心计算能效提升六倍。谷歌称其为“智能体时代”定制，支持JAX、PyTorch等主流框架，面向开发者开放。Nvidia股价一度因消息下跌1.5%，但随后回升。

谷歌发布两款新型TPU芯片应对“智能体时代”

谷歌推出第八代Tensor处理单元（TPU）芯片，分为用于模型训练的TPU 8t和用于推理的TPU 8i，旨在提升AI系统效率和性能。谷歌认为“智能体时代”与传统AI系统有本质区别，需要全新的硬件架构支持。

TPU 8t：专为训练优化

TPU 8t专为训练前沿AI模型设计，目标是将训练周期从数月缩短至数周。更新后的Tensor 8t服务器集群（称为“Pod”）每Pod集成了9600颗芯片，配备两PB共享高带宽内存。谷歌宣称单Pod计算能力达121 FP4 EFlops，是前代Ironwood TPU的近三倍。该架构支持线性扩展，单逻辑集群可容纳多达一百万颗芯片。

公司称其“goodpute”率（有效计算率）达97%，通过优化不规则内存访问、自动处理硬件故障及实时跨芯片遥测，减少等待和资源浪费。TPU 8t还支持更高效的训练流程，提升整体利用率。

TPU 8i：高效推理平台

TPU 8i专为推理任务设计，适用于运行多个专用智能体。与前代Ironwood推理集群每Pod 256颗芯片相比，TPU 8i每Pod集成1152颗芯片，单Pod性能达11.6 EFlops。每颗芯片片上SRAM增至384MB，支持更大键值缓存，提升长上下文窗口模型处理速度。

TPU 8i采用谷歌自研Axion ARM CPU作为主机，每两颗TPU配一颗CPU，取代Ironwood中每四颗TPU配一颗x86 CPU的设计。这种“全栈ARM”架构提升系统效率。

能效与数据中心优化

谷歌声称新TPU能效提升两倍，每瓦性能较Ironwood翻倍。数据中心与TPU协同设计，通过将网络与计算集成于单芯片、优化Pod布局，使每单位电力的计算能力提升六倍。冷却方面，谷歌升级第四代液冷系统，采用主动控制阀门，根据负载动态调节水流，提升冷却效率。

开发者支持与市场影响

TPU 8t与8i支持JAX、PyTorch、MaxText、SGLang、vLLM等主流开发框架，面向第三方开发者开放。谷歌表示，新芯片将用于其Gemini智能体系统，并支持未来AI应用。

Nvidia股价在谷歌宣布后一度下跌约1.5%，但随后回升并重回每股200美元以上。尽管AI芯片需求持续增长，市场仍存在对“AI泡沫”的担忧，但谷歌等企业仍视其为智能体时代发展的起点。

编辑点评

编

编辑点评

2026-04-23 02:04

谷歌此次发布TPU 8t和TPU 8i，标志着其在AI基础设施领域进一步深化自研能力。将训练与推理硬件分离，体现了对AI生命周期本质的深刻理解——训练需要极致算力，而推理则需高效率与低延迟。这一策略不仅优化资源利用，也为智能体（agent）的规模化部署铺路。在当前全球AI算力竞赛中，谷歌此举或加剧与Nvidia的差异化竞争。Nvidia虽在市场主导地位稳固，但谷歌通过全栈自研架构（包括ARM CPU、TPU、液冷、数据中心）构建了更紧密的生态闭环，可能在未来AI成本控制和定制化服务中占据优势。此外，TPU 8i对长上下文处理的优化，契合多智能体协作、复杂任务分解等新兴场景，预示AI应用将向更复杂、更自主的方向演进。从全球角度看，此举推动AI基础设施向专业化、模块化发展，可能影响全球云服务提供商的硬件选型策略，尤其对寻求降低AI成本的企业具有参考价值。技术路线的分野也暗示，未来AI市场或呈现‘专用芯片+通用框架’的混合模式，而谷歌正试图成为这一生态的核心构建者。

谷歌发布两款新型TPU芯片应对“智能体时代”

TPU 8t：专为训练优化

TPU 8i：高效推理平台

能效与数据中心优化

开发者支持与市场影响

编辑点评

相关阅读

谷歌发布两款新型AI芯片应对“智能代理时代”

谷歌云发布两款新型AI芯片以应对英伟达竞争

谷歌将Chrome浏览器升级为AI职场助手

谷歌推出专用AI训练与推理芯片，挑战英伟达领先地位

苹果提升芯片负责人约翰尼·斯鲁吉职位，强化自研芯片战略