LMCache

Name: LMCache
Author: LMCache

SHA-256

8.7k stars·AI 生产力·已提供 SHA-256 校验码，下载后可自行核对文件完整性

一个与引擎无关的 KV 缓存管理层，让大模型推理更快、更省资源，支持持久化缓存跨会话复用。

智能下载

下载 Download 版本

v0.4.7 · 12.7 MB

把 LLM 的 KV 缓存变为可持久、可跨引擎复用的“AI 知识”，加速推理。

核心功能

引擎独立部署：缓存独立于推理引擎运行，引擎崩溃后缓存不丢失
多层卸载与复用：将 KV 缓存从 GPU 卸载到 CPU、本地磁盘、Redis 等，支持跨请求、跨会话复用
非前缀缓存重用：利用 CacheBlend 技术，在提示中任意位置复用缓存块，不受限于前缀匹配
生产级可观测性：提供健康监控、性能诊断、token 级缓存命中率等丰富指标
可插拔存储后端：统一接口支持 CPU 内存、SSD、Redis/Valkey、S3 等多种后端，也支持 RDMA 和 TCP 传输

避坑指南

•首次使用时需要设置缓存后端，默认仅使用 CPU 内存，可能不适合内存紧张的机器
•非前缀缓存重用（CacheBlend）可能需要更多计算资源，建议根据场景评估是否启用
•卸载后之前的缓存数据不会自动清理，如需释放磁盘空间需手动删除缓存目录

适用场景

长上下文智能体对话（如多轮问答、Agent 工作流），降低重复预填充耗时
知识增强生成（RAG）场景，复用预计算的知识缓存，提升响应速度

详细介绍

LMCache 是一个与引擎无关的 KV 缓存管理层，专为大语言模型推理加速而设计。它将原本临时的 KV 缓存转化为可持久化、可跨引擎复用的 AI 原生知识，显著降低首 token 生成时间（TTFT）并提升吞吐量。相比 vLLM 等框架内置的 KV 缓存，LMCache 的核心优势是引擎独立运行，即使推理引擎崩溃缓存也不会丢失；支持非前缀缓存重用（CacheBlend 技术，能在提示中任意位置复用缓存块）；并提供生产级的可观测性（Kubernetes 指标、token 级命中率等）。它支持将缓存卸载到 CPU 内存、本地磁盘、Redis 等多种存储后端，并支持多节点 P2P 共享，特别适合长上下文智能体、多轮对话和 RAG 场景。

快速上手

下载安装包

点击上方按钮下载对应系统的安装包

Windows· 12.7 MB

安装软件

双击下载的安装程序，按提示完成安装

打开终端，执行 pip install lmcache 安装

根据文档配置缓存后端（默认使用 CPU 内存），在 vLLM 或 SGLang 等框架中启用 LMCache 插件

启动推理服务，LMCache 自动管理缓存，无需额外操作

安装指引

打开终端，执行 pip install lmcache 安装
根据文档配置缓存后端（默认使用 CPU 内存），在 vLLM 或 SGLang 等框架中启用 LMCache 插件
启动推理服务，LMCache 自动管理缓存，无需额外操作

文件完整性

已提供 SHA-256 校验码，下载后可自行核对文件完整性

该校验码提取自 GitHub 官方 Release 页面

SHA256 校验码

a8d251fa10e8e8e0df91eeef056d473929f38ac7ad8d771c6fbe656da228ca89

该校验码提取自 GitHub Release 页面，下载后请自行核对文件完整性

本平台所有 SHA-256 校验码均提取自项目在 GitHub 官方 Release 页面发布的文件，未做任何修改。你可以通过 GitHub Releases 页面自行验证。

开源透明

查看 GitHub 源码

运维指引

卸载说明

在终端执行 pip uninstall lmcache 即可卸载。如果使用了配置文件，需手动删除相关配置。

无额外依赖

下载后即可直接使用，无需安装其他运行环境

项目信息

开源协议Apache-2.0

最后更新2026-06-13T06:25:29Z

GitHub 仓库官方网站

相似推荐

LocalAI

本地运行 AI 模型的开源引擎，无需 GPU，兼容 OpenAI API，支持多种硬件和模型类型。

daily_stock_analysis

基于AI大模型的A股/港股/美股智能分析系统，自动生成决策仪表盘并通过多渠道推送，零成本定时运行。

ollama

在本地一键运行和管理大语言模型的开源工具，支持多种平台和丰富模型。