Question 1

DFlashにおけるKV cache injectionとinput fusionを比較するアブレーション研究はどれで、どちらの手法がより良いパフォーマンスを示しますか？

Accepted Answer

直接的なアブレーション比較において、DFlash-inputfusion-5L（融合隠れ特徴を入力として与える）とDFlash-5L（KV injection）を比較した結果、KV injectionはより高い受入長とスピードアップを達成することが示された。GSM8Kでは、KV injectionは4.2 ALおよび3.3倍のスピードアップを達成し、input fusionの3.5 ALおよび2.9倍のスピードアップに対し、HumanEvalでは4.0 ALおよび3.2倍のスピードアップ対3.5 ALおよび2.9倍のスピードアップ、MT-Benchでは3.0 ALおよび2.2倍のスピードアップ対2.6 ALおよび2.0倍のスピードアップとなった。また、KV injectionはドラフトプリフィル時間を削減する。これは、ターゲットコンテキストが完全なトークン処理をバイパスし、K/Vキャッシュに直接注入されるためである。

Question 2

DFlash speculative decoding を Qwen3-VL のような視覚言語モデル (VLMs) で使用できますか？

Accepted Answer

はい、DFlashはVLMに適応可能です。SGLangの場合は、PR #18387（#16818から適応）を使用してください。vLLMの場合は、PR #36847を使用してください。Qwen3-VL-8B-InstructとDFlash-b16を使用した初期テストでは、VLM固有のトレーニングを行わなくても、平均受理ステップ長が約2であることが示されています。Qwen3-VL向けの公式DFlashチェックポイントは、GPT-OSSおよびGLM-4.7-Flashの作業が完了した後に計画されています。

Question 3

GPTQモデル上でvLLMとDFlash投機的デコーディングを使用する際に、「CUDA error: an illegal memory access was encountered」が発生するのはなぜですか？

Accepted Answer

このCUDAの不正なメモリアクセスエラー（多くの場合cublasGemmExで発生）は、2026年4月上旬頃の特定のvLLMナイトリービルドで発生しました。後続のナイトリーリリースで修正されています。問題を解決するには、最新のvLLMナイトリーバージョン（2026-04-08以降）にアップグレードしてください。エラーが続く場合は、互換性のあるNVIDIAドライバとCUDAバージョン（例：CUDA 13.0以上）を使用していることも確認してください。

Question 4

A6000でDFlash推測復号を使用する際の「CUDA error: an illegal memory access」の修正方法は？

Accepted Answer

この断続的なクラッシュ（dflash_worker_v2.py:335で発生）は、Ampere GPU（SM86、例：A6000）でflashinferバックエンドを使用してDFlash投機的デコード機能を利用する際の既知の問題です。メンテナは、PR #20547の最新コミットで修正されたと考えています。SGLangのインストールを更新して最新の変更を取り込んでください：`pip install -e git+https://github.com/sgl-project/sglang.git@refs/pull/20547/head#egg=sglang` を実行し、再実行してください。問題が続く場合は、`CUDA_LAUNCH_BLOCKING=1` で同期CUDA起動を有効にして問題のカーネルを特定し、flashinferがSMアーキテクチャと互換性があることを確認してください。

dflash

概要

README プレビュー

FAQ (4)

同类型项目

puppeteer

PaddleOCR

crawl4ai

supervision