LMCache

Name: LMCache
Author: LMCache

SHA-256

8.7k stars·AI 生産性·SHA-256 チェックサム確認済み

エンジン非依存のKVキャッシュ管理層により、大規模モデルの推論をより高速かつリソース効率よくし、永続化キャッシュのセッション間再利用をサポートします。

スマートダウンロード

Download 版をダウンロード

v0.4.7 · 12.7 MB

LLMのKVキャッシュを永続化可能で、エンジンを跨いで再利用可能な「AI知識」に変え、推論を高速化する。

主な機能

エンジン独立デプロイ：キャッシュは推論エンジンから独立して動作し、エンジンがクラッシュしてもキャッシュは失われない。
多層オフロードと再利用：KVキャッシュをGPUからCPU、ローカルディスク、Redisなどにオフロードし、リクエスト間、セッション間での再利用をサポート。
非プレフィックスキャッシュ再利用：CacheBlend技術を利用し、プロンプトの任意の位置でキャッシュブロックを再利用可能。プレフィックス一致に制限されない。
プロダクションレベルの可観測性：ヘルスモニタリング、パフォーマンス診断、トークンレベルのキャッシュヒット率などの豊富なメトリクスを提供。
プラグ可能なストレージバックエンド：統一インターフェースでCPUメモリ、SSD、Redis/Valkey、S3などの多様なバックエンドをサポート。さらにRDMAおよびTCP転送もサポート。

できないこと

•初回使用時はキャッシュバックエンドの設定が必要です。デフォルトではCPUメモリのみを使用しますが、メモリが不足しているマシンには適さない場合があります。
•非プレフィックスキャッシュ再利用（CacheBlend）はより多くの計算リソースを必要とする可能性があるため、利用シーンに応じて有効化するかを評価することを推奨します。
•アンインストール後、以前のキャッシュデータは自動的に削除されません。ディスク容量を解放する必要がある場合は、手動でキャッシュディレクトリを削除してください。

使用例

長文脈エージェント対話（多ターンQ&A、エージェントワークフローなど）において、繰り返しのプリフィル時間を短縮する。知識拡張生成（RAG）シナリオにおいて、事前計算された知識キャッシュを再利用し、応答速度を向上させる。

詳細説明

LMCacheは、エンジンに依存しないKVキャッシュ管理層であり、大規模言語モデルの推論高速化のために設計されています。従来の一時的なKVキャッシュを、永続化可能でエンジン間で再利用可能なAIネイティブな知識に変換し、最初のトークン生成時間（TTFT）を大幅に削減し、スループットを向上させます。vLLMなどのフレームワークに組み込まれたKVキャッシュと比較して、LMCacheの核心的な利点はエンジンから独立して動作する点であり、推論エンジンがクラッシュしてもキャッシュが失われることはありません。さらに、非プレフィックスキャッシュの再利用（CacheBlend技術により、プロンプト内の任意の位置でキャッシュブロックを再利用可能）をサポートし、プロダクションレベルの可観測性（Kubernetesメトリクス、トークンレベルのヒット率など）を提供します。また、キャッシュをCPUメモリ、ローカルディスク、Redisなどの多様なストレージバックエンドにオフロードすることができ、マルチノードのP2P共有もサポートしており、特に長コンテキストのエージェント、マルチターン対話、RAGのシナリオに適しています。

はじめ方

インストーラをダウンロード

上のボタンをクリックして、お使いのシステム用のインストーラをダウンロード

Windows· 12.7 MB

ソフトウェアをインストール

ダウンロードしたインストーラをダブルクリックし、指示に従ってください

ターミナルを開き、pip install lmcache を実行してインストールします

ドキュメントに従ってキャッシュバックエンド（デフォルトではCPUメモリを使用）を設定し、vLLM または SGLang などのフレームワークで LMCache プラグインを有効にします

推論サービスを起動すると、LMCache が自動的にキャッシュを管理するため、追加の操作は不要です

インストールガイド

ターミナルを開き、pip install lmcache を実行してインストールします
ドキュメントに従ってキャッシュバックエンド（デフォルトではCPUメモリを使用）を設定し、vLLM または SGLang などのフレームワークで LMCache プラグインを有効にします
推論サービスを起動すると、LMCache が自動的にキャッシュを管理するため、追加の操作は不要です

ファイルの整合性

SHA-256 チェックサム確認済み

GitHub 公式 Release ページから抽出されたチェックサム

SHA256 チェックサム

a8d251fa10e8e8e0df91eeef056d473929f38ac7ad8d771c6fbe656da228ca89

このチェックサムは GitHub Release ページから抽出されたものです。ダウンロード後にファイルの整合性を確認してください。

本プラットフォーム上のすべての SHA-256 チェックサムは、プロジェクトの公式 GitHub Release ページから抽出されたもので、一切の改変はありません。GitHub Releases ページで独自に検証できます。

オープンソースの透明性

GitHub ソースを見る

環境ガイド

アンインストール情報

端末で pip uninstall lmcache を実行すればアンインストールできます。設定ファイルを使用している場合は、手動で関連設定を削除する必要があります。

追加の依存関係なし

ダウンロード後すぐに使用可能。追加のランタイムは不要です。

プロジェクト情報

ライセンスApache-2.0

最終更新2026-06-13T06:25:29Z

GitHub リポジトリ公式サイト

類似プロジェクト

LocalAI

本地运行 AI 模型的开源引擎，无需 GPU，兼容 OpenAI API，支持多种硬件和模型类型。

daily_stock_analysis

AI大モデルを基盤としたA株/香港株/米株のスマート分析システムにより、意思決定ダッシュボードを自動生成し、マルチチャネルでプッシュ配信。ゼロコストで定期実行が可能。

ollama

在本地一键运行和管理大语言模型的开源工具，支持多种平台和丰富模型。