llama.cpp
SHA-256纯 C/C++ 的高性能大模型推理引擎,支持低比特量化与多种硬件(Apple Silicon、CUDA、Vulkan 等),轻量可嵌入。
本地运行大语言模型的最轻量引擎,不用装 PyTorch,省内存!
核心功能
- 纯 C/C++ 实现,零依赖,可直接嵌入到各种应用中
- 支持 1.5 至 8 比特整数量化,显存占用极低
- 多后端:Apple Silicon、x86、NVIDIA、AMD、Vulkan、SYCL
- 兼容数十种模型格式(GGUF),覆盖主流开源大模型
- 提供命令行推理和 OpenAI 兼容的 API 服务器
避坑指南
- •模型必须为 GGUF 格式,部分旧版本工具不支持最新 GGUF;2. 量化模型(尤其 2-bit 以下)会损失部分推理质量,需要根据任务平衡速度与效果;3. 首次运行时会从 Hugging Face 下载模型,需保证网络畅通。
适用场景
- 在个人电脑上运行 7B~70B 参数的大模型,无网络延迟
- 将 LLM 推理集成到桌面、移动或服务器软件中
- 批量处理文本生成、翻译、摘要等任务,低成本部署
llama.cpp 是一个纯 C/C++ 实现的大语言模型推理引擎,不需要安装 PyTorch 或 TensorFlow 等重型框架。它原生支持 Apple Silicon、x86(AVX/AVX2/AVX512)、RISC‑V、NVIDIA(CUDA)、AMD(HIP)以及 Vulkan/SYCL 后端。核心亮点是极高效的整数量化(1.5 比特到 8 比特),大幅降低显存占用,同时保持不错的效果。它兼容数十种模型架构(如 LLaMA、Mistral、Qwen、Gemma、DeepSeek 等),并提供命令行工具 `llama-cli` 和兼容 OpenAI 的 API 服务器 `llama-server`。相比 Ollama 或 LM Studio,llama.cpp 更轻量、无后台常驻进程、无固定界面,非常适合开发者将其嵌入自己的应用或脚本中。
标签
快速上手
安装软件
双击下载的安装程序,按提示完成安装
从 GitHub Releases 下载适合你系统的预编译包,或通过 brew/nix/winget 安装
准备一个 GGUF 格式的模型文件(可从 Hugging Face 直接下载,如 `ggml-org/gemma-3-1b-it-GGUF`)
打开终端,运行 `llama-cli -m 模型路径.gguf` 开始对话;或运行 `llama-server -m 模型路径.gguf` 启动 API 服务器
- 从 GitHub Releases 下载适合你系统的预编译包,或通过 brew/nix/winget 安装
- 准备一个 GGUF 格式的模型文件(可从 Hugging Face 直接下载,如 `ggml-org/gemma-3-1b-it-GGUF`)
- 打开终端,运行 `llama-cli -m 模型路径.gguf` 开始对话;或运行 `llama-server -m 模型路径.gguf` 启动 API 服务器
已提供 SHA-256 校验码,下载后可自行核对文件完整性
该校验码提取自 GitHub 官方 Release 页面
SHA256 校验码
f96935e7e385e3b2d0189239077c10fe8fd7e95690fea4afec455b1b6c7e3f18该校验码提取自 GitHub Release 页面,下载后请自行核对文件完整性
本平台所有 SHA-256 校验码均提取自项目在 GitHub 官方 Release 页面发布的文件,未做任何修改。你可以通过 GitHub Releases 页面自行验证。
开源透明
查看 GitHub 源码卸载说明
若通过 brew 安装则 `brew uninstall llama.cpp`;通过 nix 安装则 `nix profile remove llama.cpp`;手动下载的包直接删除可执行文件和 `~/.cache/llama.cpp` 缓存目录即可。
无额外依赖
下载后即可直接使用,无需安装其他运行环境
遇到问题?查看下方 FAQ
4 FAQs