llama.cpp
SHA-256純粋なC/C++による高性能大規模モデル推論エンジン。低ビット量子化および多種ハードウェア(Apple Silicon、CUDA、Vulkanなど)をサポート。軽量で組込み可能。
スマートダウンロード
Download 版をダウンロード
vb9222 · 383.9 MB
ローカルで大規模言語モデルを実行するための最も軽量なエンジン、PyTorchをインストールする必要はなく、メモリも節約!
主な機能
- 純粋なC/C++実装で、依存関係がなく、各種アプリケーションに直接組み込み可能
- 5〜8ビットの整数量子化に対応し、VRAM消費が非常に低い
- マルチバックエンド:Apple Silicon、x86、NVIDIA、AMD、Vulkan、SYCL
- 数十種類のモデル形式(GGUF)に対応し、主要なオープンソース大規模言語モデルをカバー
- コマンドライン推論およびOpenAI互換のAPIサーバーを提供
できないこと
- •モデルはGGUF形式である必要があります。一部の旧バージョンツールは最新のGGUFをサポートしていません。
- •量子化モデル(特に2-bit以下)は推論品質の一部を損なうため、タスクに応じて速度と効果のバランスを取る必要があります。
- •初回実行時にはHugging Faceからモデルをダウンロードするため、ネットワークが正常であることを確認してください。
使用例
- 在个人电脑上运行 7B~70B 参数的大模型,无网络延迟
- 将 LLM 推理集成到桌面、移动或服务器软件中
- 批量处理文本生成、翻译、摘要等任务,低成本部署
llama.cppは、PyTorchやTensorFlowといったヘビーなフレームワークを必要としない、純粋なC/C++実装の大規模言語モデル推論エンジンです。Apple Silicon、x86(AVX/AVX2/AVX512)、RISC‑V、NVIDIA(CUDA)、AMD(HIP)、Vulkan/SYCLバックエンドをネイティブサポートします。中核の特長は、非常に効率的な整数量子化(1.5ビットから8ビット)で、VRAM使用量を大幅に削減しつつ、良好な性能を維持できる点です。数十のモデルアーキテクチャ(LLaMA、Mistral、Qwen、Gemma、DeepSeekなど)に対応し、コマンドラインツール`llama-cli`およびOpenAI互換のAPIサーバー`llama-server`を提供します。OllamaやLM Studioと比較して、llama.cppはより軽量で、バックグラウンド常駐プロセスがなく、固定のUIもないため、開発者が自身のアプリケーションやスクリプトに組み込むのに非常に適しています。
タグ
はじめ方
ソフトウェアをインストール
ダウンロードしたインストーラをダブルクリックし、指示に従ってください
GitHub Releases から自分のシステムに合ったプリコンパイル済みパッケージをダウンロードするか、brew/nix/winget を使ってインストールしてください。
GGUF 形式のモデルファイルを準備します(Hugging Face から直接ダウンロード可能。例:`ggml-org/gemma-3-1b-it-GGUF`)。
ターミナルを開き、`llama-cli -m モデルパス.gguf` を実行して対話を開始するか、`llama-server -m モデルパス.gguf` を実行して API サーバーを起動します。
- GitHub Releases から自分のシステムに合ったプリコンパイル済みパッケージをダウンロードするか、brew/nix/winget を使ってインストールしてください。
- GGUF 形式のモデルファイルを準備します(Hugging Face から直接ダウンロード可能。例:`ggml-org/gemma-3-1b-it-GGUF`)。
- ターミナルを開き、`llama-cli -m モデルパス.gguf` を実行して対話を開始するか、`llama-server -m モデルパス.gguf` を実行して API サーバーを起動します。
SHA-256 チェックサム確認済み
GitHub 公式 Release ページから抽出されたチェックサム
SHA256 チェックサム
f96935e7e385e3b2d0189239077c10fe8fd7e95690fea4afec455b1b6c7e3f18このチェックサムは GitHub Release ページから抽出されたものです。ダウンロード後にファイルの整合性を確認してください。
本プラットフォーム上のすべての SHA-256 チェックサムは、プロジェクトの公式 GitHub Release ページから抽出されたもので、一切の改変はありません。GitHub Releases ページで独自に検証できます。
オープンソースの透明性
GitHub ソースを見るアンインストール情報
brewでインストールした場合は `brew uninstall llama.cpp`;nixでインストールした場合は `nix profile remove llama.cpp`;手動でダウンロードしたパッケージは実行ファイルと `~/.cache/llama.cpp` キャッシュディレクトリを直接削除すればよい。
追加の依存関係なし
ダウンロード後すぐに使用可能。追加のランタイムは不要です。
問題が発生?以下のFAQを確認
4 FAQs