LMCache
SHA-256エンジンに依存しないKVキャッシュ管理層で、大規模モデルの推論をより高速かつリソース効率的にし、永続化キャッシュによるセッション間の再利用をサポートします。
スマートダウンロード
Download 版をダウンロード
v0.4.7 · 12.7 MB
LLMのKVキャッシュを永続的かつエンジン間で再利用可能な「AI知識」に変え、推論を高速化する。
主な機能
- エンジン独立デプロイ:キャッシュは推論エンジンとは独立して動作し、エンジンがクラッシュしてもキャッシュは消失しない
- 多層オフロードと再利用:KVキャッシュをGPUからCPU、ローカルディスク、Redisなどにオフロードし、リクエスト間、セッション間での再利用をサポート
- 非プレフィックスキャッシュ再利用:CacheBlend技術を利用し、プロンプト内の任意の位置でキャッシュブロックを再利用可能。プレフィックス一致に制限されない
- プロダクション対応の可観測性:ヘルスモニタリング、パフォーマンス診断、トークンレベルのキャッシュヒット率などの豊富なメトリクスを提供
- プラガブルなストレージバックエンド:統一インターフェースでCPUメモリ、SSD、Redis/Valkey、S3などの複数のバックエンドをサポート。RDMAおよびTCP転送もサポート
できないこと
- •初回使用時にはキャッシュバックエンドを設定する必要があります。デフォルトではCPUメモリのみを使用するため、メモリが不足しているマシンには適さない可能性があります。
- •非プレフィックスキャッシュ再利用(CacheBlend)はより多くの計算リソースを必要とする場合があります。シナリオに応じて有効にするかどうかを評価することをお勧めします。
- •アンインストール後、以前のキャッシュデータは自動的にクリーンアップされません。ディスク容量を解放する必要がある場合は、手動でキャッシュディレクトリを削除してください。
使用例
- 長文脈エージェント対話(マルチターンQ&A、Agentワークフローなど)における繰り返しプリフィル時間の短縮
- 知識強化生成(RAG)シナリオにおいて、事前計算された知識キャッシュを再利用し、応答速度を向上
詳細説明
LMCacheは、エンジンに依存しないKVキャッシュ管理層であり、大規模言語モデルの推論高速化のために設計されています。これにより、従来の一時的なKVキャッシュを永続化可能で、エンジンをまたいで再利用できるAIネイティブな知識へと変換し、最初のトークン生成時間(TTFT)を大幅に短縮するとともに、スループットを向上させます。vLLMなどのフレームワークに内蔵されたKVキャッシュと比較して、LMCacheの核となる強みは、エンジンから独立して動作するため、推論エンジンがクラッシュしてもキャッシュが失われない点です。また、非プレフィックスキャッシュ再利用(CacheBlend技術により、プロンプト内の任意の位置でキャッシュブロックを再利用可能)をサポートし、プロダクションレベルの可観測性(Kubernetesメトリクス、トークンレベルのヒット率など)を提供します。さらに、キャッシュをCPUメモリ、ローカルディスク、Redisなどのさまざまなストレージバックエンドにオフロードすることが可能で、マルチノードのP2P共有もサポートしており、特に長いコンテキストを持つエージェント、マルチターン対話、RAGのシナリオに適しています。
タグ
はじめ方
ソフトウェアをインストール
ダウンロードしたインストーラをダブルクリックし、指示に従ってください
ターミナルを開き、pip install lmcache を実行してインストールします。ドキュメントに従ってキャッシュバックエンド(デフォルトはCPUメモリ)を設定し、vLLM や SGLang などのフレームワークで LMCache プラグインを有効にします。推論サービスを起動すると、LMCache が自動的にキャッシュを管理するため、追加の操作は不要です。
- ターミナルを開き、pip install lmcache を実行してインストールします。ドキュメントに従ってキャッシュバックエンド(デフォルトはCPUメモリ)を設定し、vLLM や SGLang などのフレームワークで LMCache プラグインを有効にします。推論サービスを起動すると、LMCache が自動的にキャッシュを管理するため、追加の操作は不要です。
SHA-256 チェックサム確認済み
GitHub 公式 Release ページから抽出されたチェックサム
SHA256 チェックサム
a8d251fa10e8e8e0df91eeef056d473929f38ac7ad8d771c6fbe656da228ca89このチェックサムは GitHub Release ページから抽出されたものです。ダウンロード後にファイルの整合性を確認してください。
本プラットフォーム上のすべての SHA-256 チェックサムは、プロジェクトの公式 GitHub Release ページから抽出されたもので、一切の改変はありません。GitHub Releases ページで独自に検証できます。
オープンソースの透明性
GitHub ソースを見るアンインストール情報
ターミナルで pip uninstall lmcache を実行すればアンインストールできます。設定ファイルを使用している場合は、手動で該当の設定を削除する必要があります。
追加の依存関係なし
ダウンロード後すぐに使用可能。追加のランタイムは不要です。