llama.cpp
SHA-256純粋なC/C++の高性能のビッグモデル推理エンジンで、低ビット量子化とさまざまなハードウェア(Apple Silicon、CUDA、Vulkanなど)をサポートし、簡単に組み込むことができます。
スマートダウンロード
Download 版をダウンロード
vb9222 · 383.9 MB
最大言語モデルの最軽量エンジンをローカルで実行し、PyTorchを搭載せずにメモリを節約!
主な機能
- 「純粋なC/C++実装、ゼロ依存、さまざまなアプリケーションに直接埋め込む」、「1.5〜8ビットの整数化をサポートし、ディスプレイ使用量が非常に低い」、「Apple Silicon、x86、NVIDIA、AMD、Vulkan、SYCL」、「数十種類のモデルフォーマット(GGUF)に対応し、主流のオープンソースモデルをカバー」、「コマンドライン推理とOpenAIに対応するAPIサーバーを提供」
できないこと
- •モデルは GGUF フォーマットでなければならず、一部の古いバージョンのツールは最新の GGUF をサポートしません; 2. 定量化されたモデル(特に 2 ビット未満)は部分的な推論の品質を失い、タスクに応じてスピードと効果をバランスを取る必要があります; 3. 最初の実行時に Hugging Face からモデルをダウンロードし、ネットワークの流通を確保する必要があります。
使用例
- 「7B〜70BパラメータをPC上で実行する大きなモデル、ネットワーク遅延なし」、「LLM推論をデスクトップ、モバイル、サーバーソフトウェアに統合」、「テキスト生成、翻訳、概要などのタスクの大量処理、低コストの展開」
詳細説明
llama.cpp は PyTorch または TensorFlow などのハードフレームワークをインストールする必要がなく、純粋に C/C++ を実装する大言語モデル推論エンジンです。 Apple Silicon、x86 (AVX/AVX2/AVX512)、RISC‐V、NVIDIA (CUDA)、AMD (HIP)および Vulkan/SYCL バックエンドをネイティブにサポートしています。コアの強みは、非常に効率的な整数化(1.5 ビットから 8 ビット)で、ディスプレイの使用量を大幅に削減し、良い効果を保つことです。 それは、数十種類のモデルアーキテクチャ(LLaMA、Mistral、Qwen、Gemma、DeepSeek など)
タグ
はじめ方
ソフトウェアをインストール
ダウンロードしたインストーラをダブルクリックし、指示に従ってください
「GitHub Releases からシステムに適したプレコンパイル パッケージをダウンロードするか、brew/nix/winget でインストールするか」、「GGGUF 形式のモデル ファイルを準備する(Hugging Face から直接ダウンロードできる、例えば `ggml-org/gemma-3-1b-it-GGUF`)」、「ターミナルを開いて、『llama-cli -m モデル パス.gguf 』を実行して対話を開始するか、『llama-server -m モデル パス.gguf 』を実行して API サーバを起動する」
- 「GitHub Releases からシステムに適したプレコンパイル パッケージをダウンロードするか、brew/nix/winget でインストールするか」、「GGGUF 形式のモデル ファイルを準備する(Hugging Face から直接ダウンロードできる、例えば `ggml-org/gemma-3-1b-it-GGUF`)」、「ターミナルを開いて、『llama-cli -m モデル パス.gguf 』を実行して対話を開始するか、『llama-server -m モデル パス.gguf 』を実行して API サーバを起動する」
最新のリリースノート
<details open>
hexagon: add support for TRI op (#22822)
* Hexagon: TRI HVX Kernel addition to ggml hexagon HTP ops and context
* addressed PR review comments for TRI op
* hexagon: clang format
* hex-unary: remove merge conflict markers
* hex-ggml: remove duplicate op cases (merge conflict)
* hex-ggml: fix editor config errors
---------
Co-authored-by: Todor Boinovski <todorb@qti.qualcomm.com>
Co-authored-by: Max Krasnyansky <maxk@qti.qualcomm.com>
</details>
**macOS/iOS:**
- [macOS Apple Silicon (arm64)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-macos-arm64.tar.gz)
- [macOS Apple Silicon (arm64, KleidiAI enabled)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-macos-arm64-kleidiai.tar.gz)
- [macOS Intel (x64)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-macos-x64.tar.gz)
- [iOS XCFramework](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-xcframework.zip)
**Linux:**
- [Ubuntu x64 (CPU)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-ubuntu-x64.tar.gz)
- [Ubuntu arm64 (CPU)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-ubuntu-arm64.tar.gz)
- [Ubuntu s390x (CPU)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-ubuntu-s390x.tar.gz)
- [Ubuntu x64 (Vulkan)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-ubuntu-vulkan-x64.tar.gz)
- [Ubuntu arm64 (Vulkan)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-ubuntu-vulkan-arm64.tar.gz)
- [Ubuntu x64 (ROCm 7.2)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-ubuntu-rocm-7.2-x64.tar.gz)
- [Ubuntu x64 (OpenVINO)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-ubuntu-openvino-2026.0-x64.tar.gz)
- [Ubuntu x64 (SYCL FP32)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-ubuntu-sycl-fp32-x64.tar.gz)
- [Ubuntu x64 (SYCL FP16)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-ubuntu-sycl-fp16-x64.tar.gz)
**Android:**
- [Android arm64 (CPU)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-android-arm64.tar.gz)
**Windows:**
- [Windows x64 (CPU)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-win-cpu-x64.zip)
- [Windows arm64 (CPU)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-win-cpu-arm64.zip)
- [Windows x64 (CUDA 12)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-win-cuda-12.4-x64.zip) - [CUDA 12.4 DLLs](https://github.com/ggml-org/llama.cpp/releases/download/b9222/cudart-llama-bin-win-cuda-12.4-x64.zip)
- [Windows x64 (CUDA 13)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-win-cuda-13.1-x64.zip) - [CUDA 13.1 DLLs](https://github.com/ggml-org/llama.cpp/releases/download/b9222/cudart-llama-bin-win-cuda-13.1-x64.zip)
- [Windows x64 (Vulkan)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-win-vulkan-x64.zip)
- [Windows x64 (SYCL)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-win-sycl-x64.zip)
- [Windows x64 (HIP)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-win-hip-radeon-x64.zip)
**openEuler:**
- [openEuler x86 (310p)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-310p-openEuler-x86.tar.gz)
- [openEuler x86 (910b, ACL Graph)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-910b-openEuler-x86-aclgraph.tar.gz)
- [openEuler aarch64 (310p)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-310p-openEuler-aarch64.tar.gz)
- [openEuler aarch64 (910b, ACL Graph)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-910b-openEuler-aarch64-aclgraph.tar.gz)
SHA-256 チェックサム確認済み
GitHub 公式 Release ページから抽出されたチェックサム
SHA256 チェックサム
f96935e7e385e3b2d0189239077c10fe8fd7e95690fea4afec455b1b6c7e3f18このチェックサムは GitHub Release ページから抽出されたものです。ダウンロード後にファイルの整合性を確認してください。
本プラットフォーム上のすべての SHA-256 チェックサムは、プロジェクトの公式 GitHub Release ページから抽出されたもので、一切の改変はありません。GitHub Releases ページで独自に検証できます。
オープンソースの透明性
GitHub ソースを見るアンインストール情報
brew をインストールすると `brew uninstall llama.cpp`; nix をインストールすると `nix profile remove llama.cpp`; 手動でダウンロードしたパッケージは、実行可能なファイルと `~/.cache/llama.cpp` キャッシュディレクトリを直接削除します。
追加の依存関係なし
ダウンロード後すぐに使用可能。追加のランタイムは不要です。