← 返回

谷歌推出TurboQuant AI压缩算法 可将大模型内存占用降低6倍

谷歌研究团队近日发布TurboQuant AI压缩算法,可将大型语言模型(LLM)的内存占用减少6倍,同时提升运行速度达8倍,且保持模型准确率不变。该算法主要优化关键值缓存(key-value cache)的存储效率,通过PolarQuant系统将高维向量转换为极坐标表示,仅保留半径和方向两个参数,从而实现高效压缩。该技术有望降低大模型部署成本,推动AI在边缘设备和资源受限环境的应用。

谷歌推出TurboQuant AI压缩算法 可将大模型内存占用降低6倍

谷歌研究团队近日发布TurboQuant,一种新型AI压缩算法,可将大型语言模型(LLM)的内存占用减少6倍,同时在部分测试中实现8倍性能提升,且未出现质量下降。

该算法主要针对LLM中关键值缓存(key-value cache)进行优化。谷歌将该缓存比作“数字作弊表”,用于存储避免重复计算的重要信息。由于LLM通过高维向量映射文本语义,这些向量可能包含数百甚至数千个嵌入,导致缓存体积庞大,成为性能瓶颈。

为解决此问题,谷歌采用量化技术降低模型精度,但传统方法常导致输出质量下降。TurboQuant通过PolarQuant系统实现高质量压缩——将标准XYZ坐标系中的向量转换为极坐标,仅保留半径(核心数据强度)和方向(数据语义)两个参数,从而大幅降低存储需求。

该技术已在内部测试中验证效果,有望降低大模型部署成本,推动AI在边缘计算、移动设备等资源受限场景的应用。

编辑点评

谷歌TurboQuant算法的推出标志着AI模型效率优化进入新阶段。当前大语言模型的内存和算力需求已成为普及应用的主要障碍,尤其在边缘设备和低功耗场景中。TurboQuant通过创新的极坐标压缩方式,在不牺牲准确性的前提下实现6倍内存压缩与8倍性能提升,为AI模型轻量化提供了全新路径。

从全球科技竞争角度看,该技术可能加速AI在消费电子、自动驾驶、智能终端等领域的落地。同时,它也可能引发新一轮模型压缩技术竞赛,推动生成式AI的普惠化。长期来看,若该技术被广泛采用,将改变AI基础设施的部署模式,降低企业与个人用户的算力成本,推动全球AI生态向更高效、更可及的方向发展。

值得注意的是,虽然目前成果主要基于谷歌内部测试,但其开源前景将直接影响技术扩散速度。若未来公开PolarQuant框架,或将成为全球AI开发者通用工具,进一步巩固谷歌在AI基础设施领域的领先地位。

相关消息:https://arstechnica.com/ai/2026/03/google-says-new-turboquant-compression-can-lower-ai-memory-usage-without-sacrificing-quality/
当日日报:查看 2026年03月26日 当日日报