谷歌推出TurboQuant AI压缩算法 可将大模型内存占用降低6倍
谷歌研究团队近日发布TurboQuant AI压缩算法,可将大型语言模型(LLM)的内存占用减少6倍,同时提升运行速度达8倍,且保持模型准确率不变。该算法主要优化关键值缓存(key-value cache)的存储效率,通过PolarQuant系统将高维向量转换为极坐标表示,仅保留半径和方向两个参数,从而实现高效压缩。该技术有望降低大模型部署成本,推动AI在边缘设备和资源受限环境的应用。
# AI压缩算法
谷歌研究团队近日发布TurboQuant AI压缩算法,可将大型语言模型(LLM)的内存占用减少6倍,同时提升运行速度达8倍,且保持模型准确率不变。该算法主要优化关键值缓存(key-value cache)的存储效率,通过PolarQuant系统将高维向量转换为极坐标表示,仅保留半径和方向两个参数,从而实现高效压缩。该技术有望降低大模型部署成本,推动AI在边缘设备和资源受限环境的应用。