# 本地AI

谷歌Gemma 4模型通过预测未来令牌实现三倍速度提升

谷歌于今年春季发布Gemma 4开源AI模型，旨在提升本地AI性能。近日，谷歌推出多令牌预测（MTP）草案模型，利用推测性解码技术预判未来令牌，显着加速生成过程。该技术在不牺牲输出质量的前提下，将推理速度提升至原来的三倍。Gemma 4基于与前沿Gemini模型相同的底层技术，但专为本地运行优化，可适配消费级GPU。谷歌同时将Gemma 4许可证更新为Apache 2.0，增强开放性。MTP通过轻量级草案模型（如7400万参数的E2B）在主模型计算间隙生成推测令牌，结合共享键值缓存和稀疏解码技术，有效提升效率。

2026-05-07 01:04

苹果获授权定制谷歌Gemini模型用于开发本地运行的小型AI模型

据外媒报道，苹果公司已获得谷歌Gemini大型语言模型的完整定制权限，可基于Gemini的推理过程训练出更小型、低功耗的AI模型，用于Siri等设备本地功能，无需联网。《Information》指出，苹果通过让Gemini执行特定任务并获取其推理路径，将结果用于训练高效小型模型，实现类似Gemini的性能但计算资源需求更低。然而，由于Gemini主要为聊天和编程优化，其响应方式与苹果产品需求存在不匹配，苹果在定制过程中面临挑战。

2026-03-26 06:07

谷歌Gemma 4模型通过预测未来令牌实现三倍速度提升

苹果获授权定制谷歌Gemini模型 用于开发本地运行的小型AI模型

苹果获授权定制谷歌Gemini模型用于开发本地运行的小型AI模型