# 多令牌预测

谷歌Gemma 4模型通过预测未来令牌实现三倍速度提升

谷歌于今年春季发布Gemma 4开源AI模型,旨在提升本地AI性能。近日,谷歌推出多令牌预测(MTP)草案模型,利用推测性解码技术预判未来令牌,显着加速生成过程。该技术在不牺牲输出质量的前提下,将推理速度提升至原来的三倍。Gemma 4基于与前沿Gemini模型相同的底层技术,但专为本地运行优化,可适配消费级GPU。谷歌同时将Gemma 4许可证更新为Apache 2.0,增强开放性。MTP通过轻量级草案模型(如7400万参数的E2B)在主模型计算间隙生成推测令牌,结合共享键值缓存和稀疏解码技术,有效提升效率。

2026-05-07 01:04