Question 1

在DFlash中，哪项消融研究比较了KV缓存注入与输入融合，哪种方法表现更好？

Accepted Answer

直接消融实验对比了DFlash-inputfusion-5L（将融合后的隐藏特征作为输入）和DFlash-5L（KV注入），结果显示KV注入在接收长度和加速比上均更优。在GSM8K上，KV注入达到4.2 AL和3.3倍加速比，而输入融合为3.5 AL和2.9倍加速比；在HumanEval上，分别为4.0 AL和3.2倍加速比 vs 3.5 AL和2.9倍加速比；在MT-Bench上，为3.0 AL和2.2倍加速比 vs 2.6 AL和2.0倍加速比。KV注入还减少了草稿预填充时间，因为目标上下文跳过了完整的token处理，直接注入到K/V缓存中。

Question 2

我可以将DFlash推测解码用于像Qwen3-VL这样的视觉语言模型（VLM）吗？

Accepted Answer

是的，DFlash可以适配视觉语言模型（VLM）。对于SGLang，使用PR #18387（改编自#16818）。对于vLLM，使用PR #36847。使用Qwen3-VL-8B-Instruct和DFlash-b16进行的初步测试显示，即使没有针对VLM的专门训练，平均接受步长也约为2。针对Qwen3-VL的官方DFlash检查点计划在GPT-OSS和GLM-4.7-Flash工作完成后发布。

Question 3

为什么在使用vLLM配合DFlash投机解码处理GPTQ模型时，会遇到“CUDA error: an illegal memory access was encountered”？

Accepted Answer

这个CUDA非法内存访问错误（通常出现在cublasGemmEx中）发生在2026年4月初左右的某些vLLM nightly构建版本中。该问题已在后续的nightly版本中得到修复。升级到最新的vLLM nightly版本（2026-04-08之后）以解决此问题。如果错误仍然存在，请同时确保您使用的是兼容的NVIDIA驱动和CUDA版本（例如，CUDA 13.0+）。

Question 4

如何修复在A6000上使用DFlash推测解码时出现的'CUDA error: an illegal memory access'错误？

Accepted Answer

这种偶发性崩溃发生在 dflash_worker_v2.py:335 行，是在 Ampere GPU（SM86，例如 A6000）上使用 DFlash 推测解码功能并搭配 flashinfer 后端时的已知问题。维护者认为该问题已在 PR #20547 的最新提交中修复。请更新您的 SGLang 安装以拉取最新更改：`pip install -e git+https://github.com/sgl-project/sglang.git@refs/pull/20547/head#egg=sglang`，然后重新运行。如果问题仍然存在，请使用 `CUDA_LAUNCH_BLOCKING=1` 启用同步 CUDA 启动，以确定具体有问题的内核，并确保 flashinfer 与您的 SM 架构兼容。

dflash

项目简介

README 预览

常见问题 (4)

同类型项目

puppeteer

PaddleOCR

crawl4ai

supervision