1 open source tools found
LLM의 KV 캐시를 지속 가능하고 엔진 간 재사용 가능한 "AI 지식"으로 만들어 추론을 가속화합니다.
엔진에 독립적인 KV 캐시 관리 계층으로, 대규모 모델 추론을 더 빠르고 자원 효율적으로 만들어주며 지속적 캐시의 세션 간 재사용을 지원합니다.