OpenSource-Hub
L

llama.cpp

SHA-256
111.2k stars·AI 生産性·SHA-256 チェックサム確認済み

純粋なC/C++の高性能のビッグモデル推理エンジンで、低ビット量子化とさまざまなハードウェア(Apple Silicon、CUDA、Vulkanなど)をサポートし、簡単に組み込むことができます。

スマートダウンロード

Download 版をダウンロード

vb9222 · 383.9 MB

最大言語モデルの最軽量エンジンをローカルで実行し、PyTorchを搭載せずにメモリを節約!

主な機能

  • 「純粋なC/C++実装、ゼロ依存、さまざまなアプリケーションに直接埋め込む」、「1.5〜8ビットの整数化をサポートし、ディスプレイ使用量が非常に低い」、「Apple Silicon、x86、NVIDIA、AMD、Vulkan、SYCL」、「数十種類のモデルフォーマット(GGUF)に対応し、主流のオープンソースモデルをカバー」、「コマンドライン推理とOpenAIに対応するAPIサーバーを提供」

できないこと

  • モデルは GGUF フォーマットでなければならず、一部の古いバージョンのツールは最新の GGUF をサポートしません; 2. 定量化されたモデル(特に 2 ビット未満)は部分的な推論の品質を失い、タスクに応じてスピードと効果をバランスを取る必要があります; 3. 最初の実行時に Hugging Face からモデルをダウンロードし、ネットワークの流通を確保する必要があります。

使用例

  • 「7B〜70BパラメータをPC上で実行する大きなモデル、ネットワーク遅延なし」、「LLM推論をデスクトップ、モバイル、サーバーソフトウェアに統合」、「テキスト生成、翻訳、概要などのタスクの大量処理、低コストの展開」

詳細説明

llama.cpp は PyTorch または TensorFlow などのハードフレームワークをインストールする必要がなく、純粋に C/C++ を実装する大言語モデル推論エンジンです。 Apple Silicon、x86 (AVX/AVX2/AVX512)、RISC‐V、NVIDIA (CUDA)、AMD (HIP)および Vulkan/SYCL バックエンドをネイティブにサポートしています。コアの強みは、非常に効率的な整数化(1.5 ビットから 8 ビット)で、ディスプレイの使用量を大幅に削減し、良い効果を保つことです。 それは、数十種類のモデルアーキテクチャ(LLaMA、Mistral、Qwen、Gemma、DeepSeek など)

タグ

llminferencec++quantizationggufapple-silicongpulocal-ai

はじめ方

1

インストーラをダウンロード

上のボタンをクリックして、お使いのシステム用のインストーラをダウンロード

2

ソフトウェアをインストール

ダウンロードしたインストーラをダブルクリックし、指示に従ってください

3

「GitHub Releases からシステムに適したプレコンパイル パッケージをダウンロードするか、brew/nix/winget でインストールするか」、「GGGUF 形式のモデル ファイルを準備する(Hugging Face から直接ダウンロードできる、例えば `ggml-org/gemma-3-1b-it-GGUF`)」、「ターミナルを開いて、『llama-cli -m モデル パス.gguf 』を実行して対話を開始するか、『llama-server -m モデル パス.gguf 』を実行して API サーバを起動する」

インストールガイド
  1. 「GitHub Releases からシステムに適したプレコンパイル パッケージをダウンロードするか、brew/nix/winget でインストールするか」、「GGGUF 形式のモデル ファイルを準備する(Hugging Face から直接ダウンロードできる、例えば `ggml-org/gemma-3-1b-it-GGUF`)」、「ターミナルを開いて、『llama-cli -m モデル パス.gguf 』を実行して対話を開始するか、『llama-server -m モデル パス.gguf 』を実行して API サーバを起動する」

最新のリリースノート

<details open>

hexagon: add support for TRI op (#22822)

* Hexagon: TRI HVX Kernel addition to ggml hexagon HTP ops and context

* addressed PR review comments for TRI op

* hexagon: clang format

* hex-unary: remove merge conflict markers

* hex-ggml: remove duplicate op cases (merge conflict)

* hex-ggml: fix editor config errors

---------

Co-authored-by: Todor Boinovski <todorb@qti.qualcomm.com>

Co-authored-by: Max Krasnyansky <maxk@qti.qualcomm.com>

</details>

**macOS/iOS:**

- [macOS Apple Silicon (arm64)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-macos-arm64.tar.gz)

- [macOS Apple Silicon (arm64, KleidiAI enabled)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-macos-arm64-kleidiai.tar.gz)

- [macOS Intel (x64)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-macos-x64.tar.gz)

- [iOS XCFramework](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-xcframework.zip)

**Linux:**

- [Ubuntu x64 (CPU)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-ubuntu-x64.tar.gz)

- [Ubuntu arm64 (CPU)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-ubuntu-arm64.tar.gz)

- [Ubuntu s390x (CPU)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-ubuntu-s390x.tar.gz)

- [Ubuntu x64 (Vulkan)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-ubuntu-vulkan-x64.tar.gz)

- [Ubuntu arm64 (Vulkan)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-ubuntu-vulkan-arm64.tar.gz)

- [Ubuntu x64 (ROCm 7.2)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-ubuntu-rocm-7.2-x64.tar.gz)

- [Ubuntu x64 (OpenVINO)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-ubuntu-openvino-2026.0-x64.tar.gz)

- [Ubuntu x64 (SYCL FP32)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-ubuntu-sycl-fp32-x64.tar.gz)

- [Ubuntu x64 (SYCL FP16)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-ubuntu-sycl-fp16-x64.tar.gz)

**Android:**

- [Android arm64 (CPU)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-android-arm64.tar.gz)

**Windows:**

- [Windows x64 (CPU)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-win-cpu-x64.zip)

- [Windows arm64 (CPU)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-win-cpu-arm64.zip)

- [Windows x64 (CUDA 12)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-win-cuda-12.4-x64.zip) - [CUDA 12.4 DLLs](https://github.com/ggml-org/llama.cpp/releases/download/b9222/cudart-llama-bin-win-cuda-12.4-x64.zip)

- [Windows x64 (CUDA 13)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-win-cuda-13.1-x64.zip) - [CUDA 13.1 DLLs](https://github.com/ggml-org/llama.cpp/releases/download/b9222/cudart-llama-bin-win-cuda-13.1-x64.zip)

- [Windows x64 (Vulkan)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-win-vulkan-x64.zip)

- [Windows x64 (SYCL)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-win-sycl-x64.zip)

- [Windows x64 (HIP)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-win-hip-radeon-x64.zip)

**openEuler:**

- [openEuler x86 (310p)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-310p-openEuler-x86.tar.gz)

- [openEuler x86 (910b, ACL Graph)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-910b-openEuler-x86-aclgraph.tar.gz)

- [openEuler aarch64 (310p)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-310p-openEuler-aarch64.tar.gz)

- [openEuler aarch64 (910b, ACL Graph)](https://github.com/ggml-org/llama.cpp/releases/download/b9222/llama-b9222-bin-910b-openEuler-aarch64-aclgraph.tar.gz)

ファイルの整合性

SHA-256 チェックサム確認済み

GitHub 公式 Release ページから抽出されたチェックサム

SHA256 チェックサム

f96935e7e385e3b2d0189239077c10fe8fd7e95690fea4afec455b1b6c7e3f18

このチェックサムは GitHub Release ページから抽出されたものです。ダウンロード後にファイルの整合性を確認してください。

本プラットフォーム上のすべての SHA-256 チェックサムは、プロジェクトの公式 GitHub Release ページから抽出されたもので、一切の改変はありません。GitHub Releases ページで独自に検証できます。

オープンソースの透明性

GitHub ソースを見る
環境ガイド

アンインストール情報

brew をインストールすると `brew uninstall llama.cpp`; nix をインストールすると `nix profile remove llama.cpp`; 手動でダウンロードしたパッケージは、実行可能なファイルと `~/.cache/llama.cpp` キャッシュディレクトリを直接削除します。

追加の依存関係なし

ダウンロード後すぐに使用可能。追加のランタイムは不要です。

プロジェクト情報
ライセンスMIT
最終更新2026-05-19T06:14:00Z
GitHub リポジトリ公式サイト

類似プロジェクト