概要
DFlash 是一款轻量级块扩散模型,专为大型语言模型的投机解码设计。它支持 vLLM、SGLang 和 Transformers 等多种推理后端,实现高效高质量的并行草稿生成。项目提供了针对多种流行 LLM 的预训练草稿模型。
README プレビュー
# DFlash: Block Diffusion for Flash Speculative Decoding\n[**Paper**](https://arxiv.org/abs/2602.06036) | [**Blog**](https://z-lab.ai/projects/dflash/) | [**Models**](https://huggingface.co/collections/z-lab/dflash)\n\n**DFlash** is a lightweight **block diffusion** model designed for speculative decoding. It enables efficient and high-quality parallel drafting.\n\n\n\nhttps://github.com/user-attachments/assets/5b29cabb-eb95-44c9-8ffe-367c0758de8c\n\n## Supported Models\n\n| Model | DFlash Draft |\n|---|---|\n| gemma-4-26B-A4B-it | [z-lab/gemma-4-26B-A4B-it-DFlash](https://huggingface.co/z-lab/gemma-4-26B-A4B-it-DFlash) |\n| gemma-4-31B-it | [z-lab/gemma-4-31B-it-DFlash](https://huggingface.co/z-lab/gemma-4-31B-it-DFlash) |\n| Qwen3.6-27B | [z-lab/Qwen3.6-27B-DFlash](https://huggingface.co/z-lab/Qwen3.6-27B-DFlash) |\n| Qwen3.6-35B-A3B | [z-lab/Qwen3.6-35B-A3B-DFlash](https://huggingface.co/z-lab/Qwen3.6-35B-A3B-DFlash) |\n| MiniMax-M2.5 (Preview) | [z-lab/MiniMax-M2.5-DFlash](https://huggingface.co/z-lab/MiniMax-M2.5-DFlash) |\n| Kimi-K2.5 | [z-lab/Kimi-K2.5-DFlash](https://huggingface.co/z-lab/Kimi-K2.5-DFlash) |\n| Qwen3.5-4B | [z-lab/Qwen3.5-4B-DFlash](https://huggingface.co/z-lab/Qwen3.5-4B-DFlash) |\n| Qwen3.5-9B | [z-lab/Qwen3.5-9B-DFlash](https://huggingface.co/z-lab/Qwen3.5-9B-DFlash) |\n| Qwen3.5-27B | [z-lab/Qwen3.5-27B-DFlash](https://huggingface.co/z-lab/Qwen3.5-27B-DFlash) |\n| Qwen3.5-35B-A3B | [z-lab/Qwen3.5-35B-A3B-DFlash](https://huggingface.co/z-lab/Qwen3.5-35B-A3B-DFlash) |\n| Qwen3.5-122B-A10B | [z-lab/Qwen3.5-122B-A10B-DFlash](https://huggingface.co/z-lab/Qwen3.5-122B-A10B-DFlash) |\n| Qwen3-Coder-Next | [z-lab/Qwen3-Coder-Next-DFlash](https://huggingface.co/z-lab/Qwen3-Coder-Next-DFlash) |\n| Qwen3-Coder-30B-A3B | [z-lab/Qwen3-Coder-30B-A3B-DFlash](https://huggingface.co/z-lab/Qwen3-Coder-30B-A3B-DFlash) |\n| gpt-oss-20b | [z-lab/gpt-oss-20b-DFlash](https://huggingface.co/z-lab/gpt-oss-20b-DFlash) |\n| gpt-oss-120b | [z-lab/gpt-oss-120b-DFlash
FAQ (4)
informationDFlashにおけるKV cache injectionとinput fusionを比較するアブレーション研究はどれで、どちらの手法がより良いパフォーマンスを示しますか?
直接的なアブレーション比較において、DFlash-inputfusion-5L(融合隠れ特徴を入力として与える)とDFlash-5L(KV injection)を比較した結果、KV injectionはより高い受入長とスピードアップを達成することが示された。GSM8Kでは、KV injectionは4.2 ALおよび3.3倍のスピードアップを達成し、input fusionの3.5 ALおよび2.9倍のスピードアップに対し、HumanEvalでは4.0 ALおよび3.2倍のスピードアップ対3.5 ALおよび2.9倍のスピードアップ、MT-Benchでは3.0 ALおよび2.2倍のスピードアップ対2.6 ALおよび2.0倍のスピードアップとなった。また、KV injectionはドラフトプリフィル時間を削減する。これは、ターゲットコンテキストが完全なトークン処理をバイパスし、K/Vキャッシュに直接注入されるためである。
implementation guidanceDFlash speculative decoding を Qwen3-VL のような視覚言語モデル (VLMs) で使用できますか?
はい、DFlashはVLMに適応可能です。SGLangの場合は、PR #18387(#16818から適応)を使用してください。vLLMの場合は、PR #36847を使用してください。Qwen3-VL-8B-InstructとDFlash-b16を使用した初期テストでは、VLM固有のトレーニングを行わなくても、平均受理ステップ長が約2であることが示されています。Qwen3-VL向けの公式DFlashチェックポイントは、GPT-OSSおよびGLM-4.7-Flashの作業が完了した後に計画されています。
トラブル対応GPTQモデル上でvLLMとDFlash投機的デコーディングを使用する際に、「CUDA error: an illegal memory access was encountered」が発生するのはなぜですか?
このCUDAの不正なメモリアクセスエラー(多くの場合cublasGemmExで発生)は、2026年4月上旬頃の特定のvLLMナイトリービルドで発生しました。後続のナイトリーリリースで修正されています。問題を解決するには、最新のvLLMナイトリーバージョン(2026-04-08以降)にアップグレードしてください。エラーが続く場合は、互換性のあるNVIDIAドライバとCUDAバージョン(例:CUDA 13.0以上)を使用していることも確認してください。
トラブル対応A6000でDFlash推測復号を使用する際の「CUDA error: an illegal memory access」の修正方法は?
この断続的なクラッシュ(dflash_worker_v2.py:335で発生)は、Ampere GPU(SM86、例:A6000)でflashinferバックエンドを使用してDFlash投機的デコード機能を利用する際の既知の問題です。メンテナは、PR #20547の最新コミットで修正されたと考えています。SGLangのインストールを更新して最新の変更を取り込んでください:pip install -e git+https://github.com/sgl-project/sglang.git@refs/pull/20547/head#egg=sglang を実行し、再実行してください。問題が続く場合は、CUDA_LAUNCH_BLOCKING=1 で同期CUDA起動を有効にして問題のカーネルを特定し、flashinferがSMアーキテクチャと互換性があることを確認してください。