llama.cpp
SHA-256순수 C/C++ 기반의 고성능 대규모 모델 추론 엔진으로, 저비트 양자화 및 다양한 하드웨어(Apple Silicon, CUDA, Vulkan 등)를 지원하며, 경량화되어 임베딩이 가능합니다.
로컬에서 대규모 언어 모델을 실행하는 가장 가벼운 엔진, PyTorch 설치 필요 없음, 메모리 절약!
주요 기능
- 순수 C/C++ 구현, 제로 의존성, 다양한 애플리케이션에 직접 내장 가능
- 5~8비트 정수 양자화 지원, VRAM 점유율이 매우 낮음
- 멀티 백엔드: Apple Silicon, x86, NVIDIA, AMD, Vulkan, SYCL
- 수십 가지 모델 형식(GGUF) 호환, 주요 오픈소스 대형 모델 지원
- 명령줄 추론 및 OpenAI 호환 API 서버 제공
할 수 없는 것
- •모델은 반드시 GGUF 형식이어야 하며, 일부 구버전 도구는 최신 GGUF를 지원하지 않습니다. 2. 양자화 모델(특히 2-bit 이하)은 추론 품질이 일부 저하되므로, 작업에 따라 속도와 효과의 균형을 조정해야 합니다. 3. 최초 실행 시 Hugging Face에서 모델을 다운로드하므로 네트워크 연결이 원활해야 합니다.
사용 사례
- 개인용 컴퓨터에서 7B~70B 매개변수의 대규모 모델을 실행, 네트워크 지연 없음
- LLM 추론을 데스크톱, 모바일 또는 서버 소프트웨어에 통합
- 텍스트 생성, 번역, 요약 등 작업을 일괄 처리, 저비용 배포
llama.cpp는 순수 C/C++로 구현된 대규모 언어 모델 추론 엔진으로, PyTorch나 TensorFlow와 같은 무거운 프레임워크를 설치할 필요가 없습니다. Apple Silicon, x86(AVX/AVX2/AVX512), RISC‑V, NVIDIA(CUDA), AMD(HIP) 및 Vulkan/SYCL 백엔드를 기본 지원합니다. 핵심 강점은 매우 효율적인 정수 양자화(1.5비트~8비트)로, VRAM 사용량을 크게 줄이면서도 좋은 성능을 유지한다는 점입니다. LLaMA, Mistral, Qwen, Gemma, DeepSeek 등 수십 가지 모델 아키텍처와 호환되며, 명령줄 도구 `llama-cli`와 OpenAI 호환 API 서버 `llama-server`를 제공합니다. Ollama나 LM Studio와 비교할 때, llama.cpp는 더 가볍고, 백그라운드 상주 프로세스가 없으며, 고정된 인터페이스가 없어 개발자가 자신의 애플리케이션이나 스크립트에 임베드하기에 매우 적합합니다.
태그
시작하기
소프트웨어 설치
다운로드한 설치 프로그램을 더블 클릭하고 안내에 따르세요
从 GitHub Releases 下载适合你系统的预编译包,或通过 brew/nix/winget 安装
准备一个 GGUF 格式的模型文件(可从 Hugging Face 直接下载,如 `ggml-org/gemma-3-1b-it-GGUF`)
打开终端,运行 `llama-cli -m 模型路径.gguf` 开始对话;或运行 `llama-server -m 模型路径.gguf` 启动 API 服务器
- 从 GitHub Releases 下载适合你系统的预编译包,或通过 brew/nix/winget 安装
- 准备一个 GGUF 格式的模型文件(可从 Hugging Face 直接下载,如 `ggml-org/gemma-3-1b-it-GGUF`)
- 打开终端,运行 `llama-cli -m 模型路径.gguf` 开始对话;或运行 `llama-server -m 模型路径.gguf` 启动 API 服务器
SHA-256 체크섬 확인됨
GitHub 공식 Release 페이지에서 추출된 체크섬
SHA256 체크섬
f96935e7e385e3b2d0189239077c10fe8fd7e95690fea4afec455b1b6c7e3f18이 체크섬은 GitHub Release 페이지에서 추출되었습니다. 다운로드 후 파일 무결성을 확인하세요.
이 플랫폼의 모든 SHA-256 체크섬은 프로젝트의 공식 GitHub Release 페이지에서 추출되었으며, 어떠한 변경도 없습니다. GitHub Releases 페이지에서 직접 검증할 수 있습니다.
오픈소스 투명성
GitHub 소스 보기제거 정보
brew를 통해 설치한 경우 `brew uninstall llama.cpp`; nix로 설치한 경우 `nix profile remove llama.cpp`; 수동으로 다운로드한 패키지는 실행 파일과 `~/.cache/llama.cpp` 캐시 디렉터리를 직접 삭제하면 됩니다.
추가 의존성 없음
다운로드 후 바로 사용 가능. 추가 런타임이 필요하지 않습니다.
문제 발생? 아래 FAQ 확인
4 FAQs