OpenSource-Hub
L

LMCache

SHA-256
8.7k stars·AI 생산성·SHA-256 체크섬 확인됨

엔진에 독립적인 KV 캐시 관리 계층으로, 대규모 모델 추론을 더 빠르고 자원 효율적으로 만들어주며 지속적 캐시의 세션 간 재사용을 지원합니다.

LLM의 KV 캐시를 지속 가능하고 엔진 간 재사용 가능한 "AI 지식"으로 만들어 추론을 가속화합니다.

주요 기능

  • 엔진 독립 배포: 캐시가 추론 엔진과 독립적으로 실행되며, 엔진이 충돌해도 캐시가 손실되지 않습니다
  • 다중 계층 오프로드 및 재사용: KV 캐시를 GPU에서 CPU, 로컬 디스크, Redis 등으로 오프로드하며, 요청 및 세션 간 재사용을 지원합니다
  • 비접두사 캐시 재사용: CacheBlend 기술을 활용하여 프롬프트 내 임의 위치에서 캐시 블록을 재사용하며, 접두사 일치에 제한되지 않습니다
  • 프로덕션 수준의 관찰 가능성: 상태 모니터링, 성능 진단, token 수준 캐시 적중률 등 풍부한 지표를 제공합니다
  • 플러그형 스토리지 백엔드: 통합 인터페이스로 CPU 메모리, SSD, Redis/Valkey, S3 등 다양한 백엔드를 지원하며, RDMA 및 TCP 전송도 지원합니다

할 수 없는 것

  • 처음 사용할 때 캐시 백엔드를 설정해야 합니다. 기본적으로 CPU 메모리만 사용하므로 메모리가 부족한 기기에는 적합하지 않을 수 있습니다.
  • 비접두사 캐시 재사용(CacheBlend)은 더 많은 계산 리소스가 필요할 수 있으므로, 사용 환경에 따라 활성화 여부를 평가하는 것이 좋습니다.
  • 제거 후 이전 캐시 데이터는 자동으로 정리되지 않습니다. 디스크 공간을 확보하려면 캐시 디렉터리를 수동으로 삭제해야 합니다.

사용 사례

  • 긴 컨텍스트 에이전트 대화(멀티턴 QA, Agent 워크플로 등)에서 반복 프리필 소요 시간 감소
  • 지식 증강 생성(RAG) 시나리오에서 사전 계산된 지식 캐시를 재사용하여 응답 속도 향상

상세 설명

LMCache는 엔진에 독립적인 KV 캐시 관리 계층으로, 대규모 언어 모델 추론 가속화를 위해 설계되었습니다. 기존의 임시 KV 캐시를 지속 가능하고 엔진 간 재사용 가능한 AI 네이티브 지식으로 변환하여 초기 토큰 생성 시간(TTFT)을 크게 줄이고 처리량을 향상시킵니다. vLLM과 같은 프레임워크에 내장된 KV 캐시와 비교했을 때, LMCache의 핵심 장점은 엔진과 독립적으로 작동하므로 추론 엔진이 충돌해도 캐시가 손실되지 않는다는 점입니다. 또한 비접두사 캐시 재사용(CacheBlend 기술, 프롬프트 내 임의 위치에서 캐시 블록을 재사용 가능)을 지원하며, 프로덕션 수준의 가시성(Kubernetes 지표, 토큰 단위 히트율 등)을 제공합니다. 캐시를 CPU 메모리, 로컬 디스크, Redis 등 다양한 스토리지 백엔드로 오프로드할 수 있고, 다중 노드 P2P 공유도 지원하여 긴 컨텍스트 에이전트, 다중 턴 대화, RAG 시나리오에 특히 적합합니다.

태그

LLMKV Cache推理加速缓存管理AI Infrastructure

시작하기

1

설치 프로그램 다운로드

위 버튼을 클릭하여 시스템에 맞는 설치 프로그램을 다운로드

2

소프트웨어 설치

다운로드한 설치 프로그램을 더블 클릭하고 안내에 따르세요

3

终端을 열고 pip install lmcache를 실행하여 설치합니다.

4

문서에 따라 캐시 백엔드를 구성하고(기본적으로 CPU 메모리 사용), vLLM 또는 SGLang 같은 프레임워크에서 LMCache 플러그인을 활성화합니다.

5

추론 서비스를 시작하면 LMCache가 자동으로 캐시를 관리하므로 추가 작업이 필요하지 않습니다.

설치 가이드
  1. 终端을 열고 pip install lmcache를 실행하여 설치합니다.
  2. 문서에 따라 캐시 백엔드를 구성하고(기본적으로 CPU 메모리 사용), vLLM 또는 SGLang 같은 프레임워크에서 LMCache 플러그인을 활성화합니다.
  3. 추론 서비스를 시작하면 LMCache가 자동으로 캐시를 관리하므로 추가 작업이 필요하지 않습니다.
파일 무결성

SHA-256 체크섬 확인됨

GitHub 공식 Release 페이지에서 추출된 체크섬

SHA256 체크섬

a8d251fa10e8e8e0df91eeef056d473929f38ac7ad8d771c6fbe656da228ca89

이 체크섬은 GitHub Release 페이지에서 추출되었습니다. 다운로드 후 파일 무결성을 확인하세요.

이 플랫폼의 모든 SHA-256 체크섬은 프로젝트의 공식 GitHub Release 페이지에서 추출되었으며, 어떠한 변경도 없습니다. GitHub Releases 페이지에서 직접 검증할 수 있습니다.

오픈소스 투명성

GitHub 소스 보기
환경 가이드

제거 정보

터미널에서 pip uninstall lmcache를 실행하면 제거할 수 있습니다. 설정 파일을 사용한 경우 관련 구성을 수동으로 삭제해야 합니다.

추가 의존성 없음

다운로드 후 바로 사용 가능. 추가 런타임이 필요하지 않습니다.

프로젝트 정보
라이선스Apache-2.0
마지막 업데이트2026-06-13T06:25:29Z
GitHub 저장소공식 웹사이트

유사한 프로젝트