LMCache
SHA-256一个与引擎无关的 KV 缓存管理层,让大模型推理更快、更省资源,支持持久化缓存跨会话复用。
把 LLM 的 KV 缓存变为可持久、可跨引擎复用的“AI 知识”,加速推理。
核心功能
- 引擎独立部署:缓存独立于推理引擎运行,引擎崩溃后缓存不丢失
- 多层卸载与复用:将 KV 缓存从 GPU 卸载到 CPU、本地磁盘、Redis 等,支持跨请求、跨会话复用
- 非前缀缓存重用:利用 CacheBlend 技术,在提示中任意位置复用缓存块,不受限于前缀匹配
- 生产级可观测性:提供健康监控、性能诊断、token 级缓存命中率等丰富指标
- 可插拔存储后端:统一接口支持 CPU 内存、SSD、Redis/Valkey、S3 等多种后端,也支持 RDMA 和 TCP 传输
避坑指南
- •首次使用时需要设置缓存后端,默认仅使用 CPU 内存,可能不适合内存紧张的机器
- •非前缀缓存重用(CacheBlend)可能需要更多计算资源,建议根据场景评估是否启用
- •卸载后之前的缓存数据不会自动清理,如需释放磁盘空间需手动删除缓存目录
适用场景
- 长上下文智能体对话(如多轮问答、Agent 工作流),降低重复预填充耗时
- 知识增强生成(RAG)场景,复用预计算的知识缓存,提升响应速度
详细介绍
LMCache 是一个与引擎无关的 KV 缓存管理层,专为大语言模型推理加速而设计。它将原本临时的 KV 缓存转化为可持久化、可跨引擎复用的 AI 原生知识,显著降低首 token 生成时间(TTFT)并提升吞吐量。相比 vLLM 等框架内置的 KV 缓存,LMCache 的核心优势是引擎独立运行,即使推理引擎崩溃缓存也不会丢失;支持非前缀缓存重用(CacheBlend 技术,能在提示中任意位置复用缓存块);并提供生产级的可观测性(Kubernetes 指标、token 级命中率等)。它支持将缓存卸载到 CPU 内存、本地磁盘、Redis 等多种存储后端,并支持多节点 P2P 共享,特别适合长上下文智能体、多轮对话和 RAG 场景。
标签
快速上手
安装软件
双击下载的安装程序,按提示完成安装
打开终端,执行 pip install lmcache 安装
根据文档配置缓存后端(默认使用 CPU 内存),在 vLLM 或 SGLang 等框架中启用 LMCache 插件
启动推理服务,LMCache 自动管理缓存,无需额外操作
- 打开终端,执行 pip install lmcache 安装
- 根据文档配置缓存后端(默认使用 CPU 内存),在 vLLM 或 SGLang 等框架中启用 LMCache 插件
- 启动推理服务,LMCache 自动管理缓存,无需额外操作
已提供 SHA-256 校验码,下载后可自行核对文件完整性
该校验码提取自 GitHub 官方 Release 页面
SHA256 校验码
a8d251fa10e8e8e0df91eeef056d473929f38ac7ad8d771c6fbe656da228ca89该校验码提取自 GitHub Release 页面,下载后请自行核对文件完整性
本平台所有 SHA-256 校验码均提取自项目在 GitHub 官方 Release 页面发布的文件,未做任何修改。你可以通过 GitHub Releases 页面自行验证。
开源透明
查看 GitHub 源码卸载说明
在终端执行 pip uninstall lmcache 即可卸载。如果使用了配置文件,需手动删除相关配置。
无额外依赖
下载后即可直接使用,无需安装其他运行环境