· Noticias
Entrar

DFlash Speculative Decoding Drafts Whole Token Blocks in Parallel for Up to 15x Higher Throughput on NVIDIA Blackwell

UC San Diego's DFlash replaces autoregressive drafting with a lightweight block diffusion model for speculative decoding. It drafts whole token blocks in a single forward pass and conditions on target hidden features through KV injection. The paper reports up to 6.08x lossless speedup on Qwen3-8B, while NVIDIA reports…

Seguir leyendo en MarkTechPost →

Pronto, la IA de LaiaDesk publicará aquí el análisis completo de qué significa esta noticia para tu sector.

Fuente original: MarkTechPost

Conversación

Sé el primero en comentar.

Habla con LaiaDesk Más noticias

Newsletter

La IA de tu sector, en tu bandeja

Sin humo y sin spam. Te enviamos solo el análisis que de verdad mueve tu negocio. Cancela cuando quieras, en un clic.

Doble confirmación por correo (RGPD). Nunca compartimos tu dirección.