OpenSource-Hub
L

LMCache

SHA-256
8.7k stars·AI 生产力·已提供 SHA-256 校验码,下载后可自行核对文件完整性

一个与引擎无关的 KV 缓存管理层,让大模型推理更快、更省资源,支持持久化缓存跨会话复用。

把 LLM 的 KV 缓存变为可持久、可跨引擎复用的“AI 知识”,加速推理。

核心功能

  • 引擎独立部署:缓存独立于推理引擎运行,引擎崩溃后缓存不丢失
  • 多层卸载与复用:将 KV 缓存从 GPU 卸载到 CPU、本地磁盘、Redis 等,支持跨请求、跨会话复用
  • 非前缀缓存重用:利用 CacheBlend 技术,在提示中任意位置复用缓存块,不受限于前缀匹配
  • 生产级可观测性:提供健康监控、性能诊断、token 级缓存命中率等丰富指标
  • 可插拔存储后端:统一接口支持 CPU 内存、SSD、Redis/Valkey、S3 等多种后端,也支持 RDMA 和 TCP 传输

避坑指南

  • 首次使用时需要设置缓存后端,默认仅使用 CPU 内存,可能不适合内存紧张的机器
  • 非前缀缓存重用(CacheBlend)可能需要更多计算资源,建议根据场景评估是否启用
  • 卸载后之前的缓存数据不会自动清理,如需释放磁盘空间需手动删除缓存目录

适用场景

  • 长上下文智能体对话(如多轮问答、Agent 工作流),降低重复预填充耗时
  • 知识增强生成(RAG)场景,复用预计算的知识缓存,提升响应速度

详细介绍

LMCache 是一个与引擎无关的 KV 缓存管理层,专为大语言模型推理加速而设计。它将原本临时的 KV 缓存转化为可持久化、可跨引擎复用的 AI 原生知识,显著降低首 token 生成时间(TTFT)并提升吞吐量。相比 vLLM 等框架内置的 KV 缓存,LMCache 的核心优势是引擎独立运行,即使推理引擎崩溃缓存也不会丢失;支持非前缀缓存重用(CacheBlend 技术,能在提示中任意位置复用缓存块);并提供生产级的可观测性(Kubernetes 指标、token 级命中率等)。它支持将缓存卸载到 CPU 内存、本地磁盘、Redis 等多种存储后端,并支持多节点 P2P 共享,特别适合长上下文智能体、多轮对话和 RAG 场景。

标签

LLMKV Cache推理加速缓存管理AI Infrastructure

快速上手

1

下载安装包

点击上方按钮下载对应系统的安装包

2

安装软件

双击下载的安装程序,按提示完成安装

3

打开终端,执行 pip install lmcache 安装

4

根据文档配置缓存后端(默认使用 CPU 内存),在 vLLM 或 SGLang 等框架中启用 LMCache 插件

5

启动推理服务,LMCache 自动管理缓存,无需额外操作

安装指引
  1. 打开终端,执行 pip install lmcache 安装
  2. 根据文档配置缓存后端(默认使用 CPU 内存),在 vLLM 或 SGLang 等框架中启用 LMCache 插件
  3. 启动推理服务,LMCache 自动管理缓存,无需额外操作
文件完整性

已提供 SHA-256 校验码,下载后可自行核对文件完整性

该校验码提取自 GitHub 官方 Release 页面

SHA256 校验码

a8d251fa10e8e8e0df91eeef056d473929f38ac7ad8d771c6fbe656da228ca89

该校验码提取自 GitHub Release 页面,下载后请自行核对文件完整性

本平台所有 SHA-256 校验码均提取自项目在 GitHub 官方 Release 页面发布的文件,未做任何修改。你可以通过 GitHub Releases 页面自行验证。

运维指引

卸载说明

在终端执行 pip uninstall lmcache 即可卸载。如果使用了配置文件,需手动删除相关配置。

无额外依赖

下载后即可直接使用,无需安装其他运行环境

项目信息
开源协议Apache-2.0
最后更新2026-06-13T06:25:29Z
GitHub 仓库官方网站

相似推荐