✨︎ Resumen (TL;DR):
- Google DeepMind presentó DiffusionGemma, un modelo experimental de código abierto que procesa bloques de texto simultáneamente en lugar de palabra por palabra.
- El sistema procesa hasta 256 tokens en paralelo, ofreciendo velocidades de inferencia hasta cuatro veces más rápidas en tarjetas de video compatibles.
- Desarrollado junto con Nvidia, el modelo de 26 mil millones de parámetros puede ejecutarse de forma local en computadoras equipadas con tarjetas gráficas de consumo de gama alta.
DiffusionGemma es un modelo de lenguaje experimental de código abierto que genera bloques completos de texto simultáneamente para acelerar el procesamiento de la inteligencia artificial. Google DeepMind diseñó esta tecnología para superar el esquema de generación secuencial tradicional, eliminando los cuellos de botella de la memoria del hardware en tareas críticas.
El nuevo desarrollo utiliza una arquitectura Mixture of Experts (MoE) de 26 mil millones de parámetros, aunque solo activa 3.8 mil millones de parámetros durante la ejecución. Gracias a técnicas de cuantización, el modelo puede ajustarse sin problemas en la memoria de 18 GB de VRAM de tarjetas de video destinadas al mercado de consumo.
La colaboración directa con Nvidia optimizó el rendimiento del sistema en hardware doméstico y empresarial. DiffusionGemma registra una velocidad superior a los 1,000 tokens por segundo en un acelerador Nvidia H100 y supera los 700 tokens por segundo en una tarjeta Nvidia GeForce RTX 5090, lo que representa un aumento de hasta cuatro veces frente a modelos equivalentes tradicionales.
“Google trabajó de la mano con Nvidia para optimizar DiffusionGemma en toda su línea de hardware, desde las GPU de consumo GeForce RTX 4090 y 5090 hasta los sistemas empresariales Hopper y Blackwell”, señala la documentación técnica del proyecto. El soporte nativo para el formato de punto flotante de cuatro bits NVFP4 acelera los cálculos con una precisión que la compañía califica de casi idéntica a la original.

Un enfoque experimental para tareas de alta velocidad
A diferencia de los sistemas tradicionales, DiffusionGemma emplea un decodificador de difusión que redacta 256 tokens en paralelo en cada ciclo de cálculo. Este método traslada la carga de trabajo desde el ancho de banda de la memoria hacia la capacidad pura del procesador gráfico.
Los pesos del modelo están disponibles bajo la licencia de código abierto Apache 2.0 en Hugging Face, y los programadores pueden interactuar con la herramienta mediante Nvidia NIM, vLLM, MLX y la biblioteca Transformers.
Características principales de DiffusionGemma: * Generación paralela de 256 tokens por cada ciclo del procesador. * Optimización nativa para el formato NVFP4 que incrementa el rendimiento físico del hardware. * Compatibilidad para despliegues locales mediante DGX Spark y DGX Station.
Google aclaró que DiffusionGemma todavía tiene una calidad de redacción inferior a la de su familia Gemma 4. El objetivo actual es brindar a los investigadores herramientas ágiles para experimentar en edición de texto en tiempo real, autocompletado de código de programación y generación de estructuras de texto no lineales.
