LMCache

Name: LMCache
Author: LMCache

SHA-256

8.7k stars·AI 생산성·SHA-256 체크섬 확인됨

엔진에 독립적인 KV 캐시 관리 계층으로, 대규모 모델 추론을 더 빠르고 자원 효율적으로 만들어 주며, 지속적 캐시를 통해 세션 간 재사용을 지원합니다.

스마트 다운로드

Download 버전 다운로드

v0.4.7 · 12.7 MB

LLM의 KV 캐시를 지속 가능하고 엔진 간 재사용 가능한 "AI 지식"으로 변환하여 추론을 가속화합니다.

주요 기능

엔진 독립 배포: 캐시가 추론 엔진과 독립적으로 실행되며, 엔진 충돌 시 캐시가 손실되지 않음
다중 계층 오프로드 및 재사용: KV 캐시를 GPU에서 CPU, 로컬 디스크, Redis 등으로 오프로드하여 요청 간, 세션 간 재사용 지원
비접두사 캐시 재사용: CacheBlend 기술을 활용하여 프롬프트 내任意 위치에서 캐시 블록을 재사용하며, 접두사 일치에 제한받지 않음
프로덕션 수준 관찰 가능성: 상태 모니터링, 성능 진단, 토큰 수준 캐시 히트율 등 풍부한 메트릭 제공
플러그형 스토리지 백엔드: 통합 인터페이스로 CPU 메모리, SSD, Redis/Valkey, S3 등 다양한 백엔드를 지원하며, RDMA 및 TCP 전송도 지원

할 수 없는 것

•처음 사용 시 캐시 백엔드를 설정해야 하며, 기본적으로 CPU 메모리만 사용하므로 메모리가 부족한 머신에는 적합하지 않을 수 있습니다.
•비-접두사 캐시 재사용(CacheBlend)은 더 많은 계산 리소스가 필요할 수 있으므로, 사용 여부는 시나리오에 따라 평가하는 것을 권장합니다.
•제거 후 이전 캐시 데이터는 자동으로 정리되지 않으며, 디스크 공간을 확보하려면 캐시 디렉토리를 수동으로 삭제해야 합니다.

사용 사례

긴 컨텍스트 에이전트 대화(예: 다중 턴 질의응답, Agent 워크플로)에서 반복적인 프리필(prefill) 소요 시간을 줄입니다.
지식 증강 생성(RAG) 시나리오에서 미리 계산된 지식 캐시를 재사용하여 응답 속도를 향상시킵니다.

상세 설명

LMCache는 엔진에 독립적인 KV 캐시 관리 계층으로, 대규모 언어 모델 추론 가속화를 위해 설계되었습니다. 기존의 임시 KV 캐시를 지속 가능하고 엔진 간 재사용이 가능한 AI 네이티브 지식으로 변환하여, 최초 토큰 생성 시간(TTFT)을 크게 단축하고 처리량을 향상시킵니다. vLLM과 같은 프레임워크에 내장된 KV 캐시와 비교하여 LMCache의 핵심 장점은 엔진과 독립적으로 작동한다는 점으로, 추론 엔진이 충돌하더라도 캐시가 손실되지 않습니다. 또한 비접두사 캐시 재사용(CacheBlend 기술 지원, 프롬프트 내 임의 위치에서 캐시 블록 재사용 가능) 및 프로덕션 수준의 관찰 가능성(Kubernetes 메트릭, 토큰 수준 히트율 등)을 제공합니다. CPU 메모리, 로컬 디스크, Redis 등 다양한 스토리지 백엔드로 캐시를 오프로드할 수 있으며, 다중 노드 P2P 공유를 지원하여 특히 긴 컨텍스트 에이전트, 다중 턴 대화 및 RAG 시나리오에 적합합니다.

시작하기

설치 프로그램 다운로드

위 버튼을 클릭하여 시스템에 맞는 설치 프로그램을 다운로드

Windows· 12.7 MB

소프트웨어 설치

다운로드한 설치 프로그램을 더블 클릭하고 안내에 따르세요

터미널을 열고 `pip install lmcache`를 실행하여 설치합니다.

문서에 따라 캐시 백엔드를 구성하고(기본값은 CPU 메모리 사용), vLLM 또는 SGLang 등의 프레임워크에서 LMCache 플러그인을 활성화합니다.

추론 서비스를 시작하면 LMCache가 캐시를 자동으로 관리하므로 추가 작업이 필요하지 않습니다.

설치 가이드

터미널을 열고 `pip install lmcache`를 실행하여 설치합니다.
문서에 따라 캐시 백엔드를 구성하고(기본값은 CPU 메모리 사용), vLLM 또는 SGLang 등의 프레임워크에서 LMCache 플러그인을 활성화합니다.
추론 서비스를 시작하면 LMCache가 캐시를 자동으로 관리하므로 추가 작업이 필요하지 않습니다.

파일 무결성

SHA-256 체크섬 확인됨

GitHub 공식 Release 페이지에서 추출된 체크섬

SHA256 체크섬

a8d251fa10e8e8e0df91eeef056d473929f38ac7ad8d771c6fbe656da228ca89

이 체크섬은 GitHub Release 페이지에서 추출되었습니다. 다운로드 후 파일 무결성을 확인하세요.

이 플랫폼의 모든 SHA-256 체크섬은 프로젝트의 공식 GitHub Release 페이지에서 추출되었으며, 어떠한 변경도 없습니다. GitHub Releases 페이지에서 직접 검증할 수 있습니다.

오픈소스 투명성

GitHub 소스 보기

환경 가이드

제거 정보

터미널에서 pip uninstall lmcache를 실행하면 제거됩니다. 설정 파일을 사용한 경우 관련 설정을 수동으로 삭제해야 합니다.

추가 의존성 없음

다운로드 후 바로 사용 가능. 추가 런타임이 필요하지 않습니다.

프로젝트 정보

라이선스Apache-2.0

마지막 업데이트2026-06-13T06:25:29Z

GitHub 저장소 공식 웹사이트

유사한 프로젝트

LocalAI

本地运行 AI 模型的开源引擎，无需 GPU，兼容 OpenAI API，支持多种硬件和模型类型。

daily_stock_analysis

AI 대모델 기반의 A주/홍콩주/미국주 지능형 분석 시스템, 자동으로 의사 결정 대시보드를 생성하고 다중 채널을 통해 푸시하며, 제로 비용으로 정기적으로 실행됩니다.

ollama

在本地一键运行和管理大语言模型的开源工具，支持多种平台和丰富模型。