← Volver al Blog
Open Source

DiffusionGemma y generación de texto de difusión local: el cambio de latencia de la transmisión de tokens al refinamiento paralelo

DiffusionGemma no es un lanzamiento más de Gemma. Muestra un patrón de inferencia local diferente: generar bloques de texto en paralelo, refinarlos de forma iterativa y mover la presión de latencia desde la transmisión secuencial de tokens hacia un cómputo compatible con GPU.

Escrito por Hamza Diaz
22 de junio de 202610 min de lectura60 vistas

Vale la pena prestar atención a DiffusionGemma por una sencilla razón: cambia el problema de latencia. La mayoría de los modelos de lenguaje todavía escriben en orden. Predicen un token, lo agregan y luego predicen el siguiente. DiffusionGemma prueba un patrón diferente. Funciona en un bloque de texto, refina muchas posiciones juntas y sigue mejorando el borrador mediante pasos de eliminación de ruido hasta que la respuesta sea utilizable.

Ese no es un pequeño detalle de implementación. Cambia lo que un desarrollador debería medir. La noticia no es simplemente que Google haya lanzado otro modelo abierto. El punto más interesante es que la generación de texto local se está alejando de la estricta transmisión de tokens de izquierda a derecha y avanzando hacia el refinamiento a nivel de bloque.

Google describe a DiffusionGemma como un modelo abierto experimental construido sobre la familia Gemma 4 y lanzado bajo una licencia Apache 2.0. La página del modelo Hugging Face enumera el modelo google/diffusiongemma-26B-A4B-it con licencia Apache 2.0, compatibilidad con Transformers e instrucciones de la aplicación local vLLM. NVIDIA enmarca claramente el ángulo del hardware: la decodificación autorregresiva de un solo usuario a menudo está limitada por el movimiento de la memoria, mientras que la generación de estilo difusión puede desviar una mayor parte del trabajo hacia el cómputo paralelo de la GPU.

Eso es más importante en las máquinas locales. A veces, un servicio en la nube puede ocultar su ineficiencia al agrupar a muchos usuarios. Un desarrollador en una estación de trabajo no puede. Si un modelo emite texto un token a la vez, la persona que está al teclado siente esa cadena de dependencia. La generación al estilo difusión intenta que la espera sea menos serializada.

¿Qué cambia cuando la generación de texto se vuelve paralela?

La decodificación autorregresiva es como una máquina de escribir con un predictor de siguiente clave muy inteligente. El token 120 no puede aparecer hasta que exista el token 119. Eso hace que la transmisión sea natural y las herramientas maduren, pero también crea un largo camino en serie hacia la respuesta.

La generación de texto de difusión se comporta más como un borrador. El modelo comienza con un bloque de texto ruidoso o enmascarado y luego mejora muchas posiciones en ese bloque a la vez. En los materiales públicos de DiffusionGemma, el modelo puede eliminar hasta 256 tokens por paso. Lo importante no es el número en sí mismo. Es el hecho de que el modelo puede razonar sobre múltiples posiciones en el mismo bloque mientras refina el resultado.

sirena gráfico TD A[Mensaje de usuario] --> B{Método de generación} B --> C[decodificación autorregresiva] B --> D[Generación de texto estilo difusión] C --> C1[Predecir el siguiente token] C1 --> C2[Agregar token] C2 --> C3[Repetir secuencialmente] C3 --> C4[Respuesta transmitida] D --> D1[Inicializar bloque de texto] D1 --> D2[Eliminar ruido de muchas posiciones en paralelo] D2 --> D3[Refinar todo el bloque] D3 --> D4[Devolución del bloque completado o parcialmente refinado]

Esto no hace que la computación desaparezca. Cambia la estructura de dependencia. Los modelos autorregresivos analizan la respuesta en orden. Los modelos de estilo difusión pueden dar un paso más pesado en un bloque más ancho. Con el hardware adecuado, eso puede hacer que la generación local se sienta menos como esperar a que se escriba una oración y más como ver cómo un borrador toma forma.

## Modelos de lenguaje autorregresivos versus de difusiónDimensiónDecodificación autorregresivaGeneración de texto estilo difusión
Patrón generacionalDe izquierda a derecha, una ficha a la vezRefinamiento en muchas posiciones simbólicas en un bloque
Forma de latenciaDependencia serial larga a través de la respuestaMás trabajo paralelo dentro de cada paso de refinamiento
Comportamiento de transmisiónTransmisión de tokens naturalesMás salida orientada a bloques
Presión de hardwareA menudo sensible al ancho de banda de la memoria para un usuario localMás orientado a la computación al eliminar ruido de bloques en paralelo
Buen ajusteChat maduro, resultados generales de alta calidad, pilas de servicio familiaresExperimentos locales, edición en línea, relleno, tareas de texto no lineales
VigilanciasLa GPU local puede quedar infrautilizada durante la decodificación de un solo usuarioCalidad experimental y nuevas rutas de ejecución

Es por eso que DiffusionGemma debe tratarse como una prueba de arquitectura, no como un reemplazo directo de los modelos Gemma estándar. Google afirma que los modelos Gemma 4 estándar siguen siendo la recomendación cuando la prioridad es la máxima calidad. DiffusionGemma es para investigadores y desarrolladores que prueban patrones de interacción local más rápidos.

Esa distinción importa. Es interesante un nuevo enfoque de decodificación. No es motivo para reconstruir todos los asistentes, aplicaciones de recuperación o herramientas de codificación la próxima semana.

Por qué es importante la latencia local de un solo usuario

La inferencia local tiene una forma diferente a la inferencia de nubes. Un servidor puede recibir suficientes solicitudes para mantener ocupados los aceleradores mediante el procesamiento por lotes. Una computadora portátil, una GPU de escritorio o una pequeña caja de laboratorio generalmente atienden a una persona a la vez.

Eso hace visible la decodificación secuencial. El chat puede tolerar esto porque los usuarios están acostumbrados a transmitir texto. Otros flujos de trabajo son menos indulgentes. La edición en línea, la reparación de código, las herramientas de escritura locales y los ciclos cortos de automatización repetidos exponen la latencia de manera diferente. Si cada paso espera en una cadena de tokens, el producto comienza a sentirse pegajoso.

NVIDIA presenta DiffusionGemma como una mejor opción para esta configuración local de usuario único porque la eliminación de ruido en bloque puede poner en funcionamiento más matemáticas de GPU paralelas. Google señala usos locales sensibles a la velocidad, como edición en línea, iteración rápida y estructuras de texto no lineales. Esos ejemplos son lo suficientemente concretos como para probarlos. Una herramienta de escritura que reescribe un párrafo, un asistente de código que completa el cuerpo de una función faltante o una aplicación de recuperación local que redacta una respuesta breve revelarán si el refinamiento de bloques ayuda.

Mi opinión: el caso de uso más prometedor no es el chat ordinario. El chat ya tiene un buen truco de enmascaramiento llamado streaming. DiffusionGemma se vuelve más interesante cuando la interfaz quiere un bloque terminado, un bloque reparado o un bloque reescrito.

Dónde encaja DiffusionGemma junto a los modelos Gemma estándar

DiffusionGemma está al lado de los modelos Gemma estándar, no por encima de ellos. Los materiales públicos lo describen como construido sobre la familia Gemma 4 y conectado a la investigación Gemini Diffusion, con un cabezal de difusión dirigido a la velocidad de generación. La tarjeta modelo es importante porque ofrece a los desarrolladores un artefacto real para inspeccionar, ejecutar y comparar, no sólo un anuncio.

Una división práctica se ve así:RequisitoMejor primera opciónPor qué
Mejor calidad de salida generalGema estándarGoogle posiciona el estándar Gemma 4 como el estándar de mayor calidad
Transmisión de tokens familiaresGema estándarEl producto puede mostrar el progreso token por token
Edición de bloques localesPrueba de difusión GemmaLa arquitectura puede refinar muchas posiciones juntas
Relleno de códigoPrueba DiffusionGemma con controles estrictosEl contexto futuro puede ayudar, pero es necesario medir la exactitud
JSON estricto o llamadas a herramientasLínea de base ambos modelosUna respuesta más rápida no es útil si aumenta la tasa de reparación
Investigación experimentalDifusiónGemmaLa cuestión es estudiar un patrón generacional diferente

La página Hugging Face enumera el soporte a través de Transformers, y el material para desarrolladores circundante apunta a rutas de aplicaciones locales, incluidas las herramientas vLLM y NVIDIA. Eso les da a los desarrolladores suficiente para realizar una prueba controlada. No elimina la necesidad de establecer líneas de base.

Un plan de prueba para desarrolladores que comienza en el lugar correcto

No empiece con una pregunta vaga como: "¿Está bien?". Eso suele producir un debate confuso sobre las vibraciones. Comience con la forma de latencia y luego decida si la calidad es aceptable.

Área de pruebaQué ejecutarQué grabarPor qué es importante
Primera salida utilizableMensaje breve, respuesta media, ejecuciones repetidasTiempo hasta que aparece un bloque o respuesta coherenteLa producción de difusión puede no parecer una transmisión de tokens
Latencia de extremo a extremoMismas indicaciones en DiffusionGemma y Gemma estándarTiempo de reloj de pared desde el envío hasta la respuesta utilizableMuestra si el refinamiento de bloques ayuda a la tarea real
Suelo de calidadResúmenes, ediciones, comentarios de código, preguntas factualesCalificación humana más notas de fracasoLa velocidad sólo importa por encima del umbral de la tarea
Ajuste de recursos localesTiempo de ejecución previsto y cuantificaciónVRAM, memoria, calor, estabilidadUn modelo que apenas se ajusta no se sentirá rápido
Edición y rellenoReescritura de párrafos, código faltante, reparación estructuradaCorrección y edición de localidadEstas son fortalezas plausibles para el contexto del bloque
Recuperación de fallosMensajes ambiguos, mensajes largos, formatos restringidosSaltos de formato, reintentos, restricciones ignoradasLos modelos experimentales necesitan un mapa de fallos

Un primer conjunto de referencia útil debe incluir una breve respuesta de chat, una reescritura de 500 palabras, un relleno de código, una respuesta en formato JSON y una respuesta basada en la recuperación. Esa combinación es suficiente para captar las compensaciones obvias sin pretender ser una evaluación de laboratorio completa.

El objetivo no es coronar a un ganador. El objetivo es encontrar qué forma de interacción se beneficia de la decodificación por difusión.

Una matriz de ajuste de latencia local

Utilice DiffusionGemma cuando la experiencia del usuario esté limitada por el retraso de generación local y la tarea pueda tolerar un comportamiento experimental. No lo utilices porque la versión es nueva.

Carga de trabajoDifusiónGemma fitRazón
Ediciones de escritura en líneaAltoEl modelo puede refinar el texto alrededor de la edición, no solo los tokens anteriores
Relleno de códigoMedio a altoEl contexto futuro puede importar, pero las pruebas deben ser estrictas
Generación de respuestas fácticas largasMedioLa velocidad puede ayudar, pero la disciplina en el origen aún decide la utilidad
Transmisión de chatbot token por tokenMedio a bajoLos usuarios pueden preferir el progreso continuo a la finalización de bloques
JSON estricto o llamadas a herramientasPruebe con cuidadoLa confiabilidad del formato importa más que la velocidad bruta
Prosa final de máxima calidadUtilice Gemma estándar primeroGoogle mantiene el estándar Gemma 4 como recomendación de calidadUna regla de decisión compacta:

json { "test_diffusiongemma_when": [ "la carga de trabajo se ejecuta localmente para un usuario", "La latencia generacional es el cuello de botella visible", "la tarea se beneficia de la edición de bloques o la generación no lineal", "Las compensaciones por la calidad son aceptables después de la medición" ], "prefer_standard_gemma_when": [ "se requiere la máxima calidad de salida", "La transmisión es fundamental para la interfaz", "la ruta de ejecución debe estar madura", "La confiabilidad del formato casi no tiene tolerancia para los reintentos" ] }

Qué probar en aplicaciones reales

DiffusionGemma no cambia la recuperación ni la búsqueda por sí misma. Cambia cómo se podría sentir la etapa de generación cuando un desarrollador crea herramientas locales de recuperación, resumen, edición o asistencia de código.

Utilice una aplicación de recuperación local. El tiempo total de respuesta puede incluir la recuperación de documentos, la reclasificación, el armado rápido y la generación de respuestas. DiffusionGemma sólo afecta a la última parte. Si la recuperación es lenta, un generador más rápido no rescatará la experiencia completa. Si domina la generación, vale la pena probar el refinamiento de bloques.

Para las herramientas de desarrollo, las comprobaciones más relevantes son el comportamiento de vLLM en longitudes de mensajes objetivo, la configuración de Hugging Face Transformers para experimentos, ejecuciones cuantificadas en la clase de GPU deseada, edición en línea donde la salida llega como un bloque refinado y bucles locales repetidos donde pequeños retrasos se acumulan en muchos pasos.

Para las aplicaciones de estilo de respuesta, se siguen aplicando los mismos estándares: base de datos de fuentes, URL canónicas, verificaciones de hechos y citas claras. Una generación local más rápida no hace que los reclamos débiles sean más seguros.

Advertencias que vale la pena tomar en serio

DifusiónGemma es experimental. Esa palabra debería funcionar realmente en la evaluación. Las afirmaciones públicas de velocidad dependen del hardware, la configuración, el tiempo de ejecución y la forma de la tarea. Results may look different on consumer GPUs, under quantization, or in workloads that demand exact formatting.

No asuma que un rendimiento de token más rápido significa un mejor producto. No asuma que la salida en bloque siempre es preferible a la transmisión por secuencias. No asuma que un modelo de lenguaje de difusión coincidirá con los mejores resultados estándar de Gemma. Los pesos abiertos tampoco facilitan la inferencia local de forma predeterminada. El tiempo de ejecución todavía tiene que adaptarse a la máquina y al flujo de trabajo.

La trampa común de la evaluación comparativa son los tokens por segundo. Para la generación de texto de difusión, la latencia de finalización de tareas con una calidad aceptable es la mejor métrica. Si el modelo es más rápido pero necesita dos reintentos, el usuario no obtuvo una experiencia más rápida.

Plan de medición para una prueba local seria

Una evaluación limpia necesita cinco números y una decisión de criterio.

MediciónQué responde
Latencia de extremo a extremo¿Cuánto tiempo pasa desde el envío rápido hasta la respuesta utilizable?
Aceptación de calidad¿El resultado coincide con la barra de tareas?
Tasa de reintentos¿Con qué frecuencia el resultado necesita regeneración o reparación?
Ajuste de recursos¿El modelo se ejecuta dentro de los límites locales de VRAM, memoria, calor y estabilidad?
UX fit¿La finalización de bloques se siente mejor que la transmisión por secuencias para este flujo de trabajo?

Para aplicaciones de recuperación o asistidas por búsqueda, agregue fidelidad de citas y sensibilidad al contexto. La respuesta debe reflejar las fuentes recuperadas y preservar detalles importantes del documento. La velocidad no compensa un modelo que deja caer la evidencia.

Ese encuadre convierte a DiffusionGemma de un titular a una decisión de ingeniería. El modelo es útil sólo si mejora el ciclo que alguien realmente ejecuta.

Errores comunes al probar DiffusionGemmaEl primer error es probar sólo las indicaciones del chat. El chat resulta familiar, pero puede ocultar el valor de la generación a nivel de bloque. Agregue tareas de edición, relleno y reescritura estructurada.

El segundo error es tomar prestadas métricas de la nube para una máquina local. Una configuración local de un solo usuario tiene diferentes supuestos de procesamiento por lotes. Mida el dispositivo objetivo.

El tercer error es ignorar la forma de la salida. Si la interfaz espera una transmisión de tokens en vivo, un modelo de refinamiento de bloques puede requerir cambios en el producto.

El cuarto error es tratar la disponibilidad de Apache 2.0 como preparación. Los pesos abiertos ayudan a los desarrolladores a inspeccionar y adaptar un modelo, pero el tiempo de ejecución aún debe comportarse según la carga de trabajo prevista.

El quinto error es saltarse las líneas de base estándar de Gemma. DiffusionGemma solo significa algo cuando se compara con un modelo autorregresivo fuerte con las mismas indicaciones, hardware y criterios de aceptación.

Conclusión

DiffusionGemma hace que una pregunta práctica sea comprobable: ¿qué pasa si la generación de texto local no tiene que parecerse a una escritura token por token?

La decodificación autorregresiva sigue siendo la predeterminada por buenas razones. Es maduro, de alta calidad y ampliamente respaldado. La generación de texto de estilo difusión es diferente. Trata el texto más como un bloque para refinar que como una oración para escribir. Eso puede hacer que la inferencia local de un solo usuario parezca más rápida cuando la carga de trabajo coincide con la arquitectura.

La respuesta correcta es una prueba enfocada, no exageraciones. Ejecute DiffusionGemma junto a los modelos Gemma estándar. Mida la latencia, la calidad, los reintentos, la adecuación de los recursos y la UX. Úselo donde el refinamiento paralelo a nivel de bloque mejore la interacción. Evítelo cuando la transmisión, la calidad máxima o el comportamiento de producción maduro sean más importantes.

Ese es el verdadero cambio: no sólo un nuevo modelo, sino un nuevo modelo de latencia para la IA local.

Puntos clave

  • 1DiffusionGemma cambia la discusión sobre latencia local al probar el refinamiento del texto a nivel de bloque en lugar de una generación estricta token por token.
  • 2La decodificación autorregresiva sigue siendo la opción predeterminada, especialmente cuando la transmisión y la calidad máxima de salida son importantes.
  • 3Google describe a DiffusionGemma como experimental y recomienda los modelos Gemma 4 estándar cuando la prioridad es obtener la máxima calidad de producción.
  • 4Los materiales de NVIDIA explican por qué la eliminación de ruido de estilo difusión puede utilizar mejor el cálculo de GPU paralelo en cargas de trabajo locales de un solo usuario.
  • 5Los desarrolladores deben evaluar DiffusionGemma frente a los modelos Gemma estándar con las mismas indicaciones, hardware, tiempo de ejecución y criterios de aceptación.
  • 6Las mejores primeras pruebas son la edición local, el relleno, la reescritura estructurada y los bucles cortos repetidos donde la finalización del bloque puede importar más que la transmisión de tokens en vivo.

Conclusión

DiffusionGemma se entiende mejor como una prueba de arquitectura de inferencia local, no como un reemplazo universal de los modelos autorregresivos de Gemma. Su valor práctico depende de si el refinamiento paralelo a nivel de bloque mejora la latencia de la tarea de un extremo a otro con una calidad aceptable en la máquina de destino. Los desarrolladores deben compararlo con los modelos estándar de Gemma, medir los reintentos y el ajuste de los recursos, y usarlo solo cuando la experiencia del usuario se beneficie de los bloques completados o reparados en lugar de la transmisión continua de tokens.

Preguntas frecuentes

¿Qué es la generación de textos de difusión local?

La generación de texto de difusión local es un enfoque de generación de texto que se ejecuta en hardware local y refina bloques de texto en paralelo en lugar de producir un token a la vez.

¿Es DiffusionGemma más rápido que los modelos autorregresivos?

Google y NVIDIA informan ventajas de velocidad en configuraciones específicas de GPU, pero los desarrolladores deberían medir la latencia de un extremo a otro en su propio hardware y cargas de trabajo.

¿Cuándo debo probar DiffusionGemma?

Pruébelo cuando la latencia local, la edición en línea, el relleno de código, la iteración rápida o la generación a nivel de bloque sean más importantes que el comportamiento de transmisión maduro.

¿Cuándo debo evitar DiffusionGemma?

Evítelo cuando el requisito principal sea la máxima calidad de salida, una estricta confiabilidad del formato, un comportamiento de producción maduro o la transmisión token por token.

¿DiffusionGemma reemplaza los modelos Gemma estándar?

No. DiffusionGemma se trata mejor como una ruta de arquitectura experimental, mientras que los modelos estándar de Gemma siguen siendo valores predeterminados más sólidos para resultados generales de alta calidad.

Fuentes

Compartir este artículo

Hamza Diaz

Escrito por

Hamza Diaz

Hamza Diaz es el fundador de Optijara, donde crea agentes de IA prácticos, sistemas de automatización y flujos de trabajo de Copilot para empresas de servicios. Escribe sobre operaciones de IA, estrategia de agentes e implementación real para equipos que quieren sistemas útiles en lugar de promesas vacías.