1 open source tools found
LLMのKVキャッシュを永続的かつエンジン間で再利用可能な「AI知識」に変え、推論を高速化する。
エンジンに依存しないKVキャッシュ管理層で、大規模モデルの推論をより高速かつリソース効率的にし、永続化キャッシュによるセッション間の再利用をサポートします。