Google lanza traducción de voz en tiempo real en 70 idiomas

Google lanza Gemini 3.5 Live Translate para traducir más de 70 idiomas en tiempo real en celulares y Meet.

Por Humberto Toledo el 10 junio, 2026 a las 21:48 PDT

Resume con:

✨︎ Resumen (TL;DR):

Google presentó Gemini 3.5 Live Translate, un modelo que traduce conversaciones de voz de forma continua y casi instantánea.

La tecnología llega a la aplicación de Google Translate en iOS y Android, además de integrarse en las videollamadas de Google Meet.

La compañía también liberó DiffusionGemma, un modelo abierto experimental de generación de texto que es hasta cuatro veces más veloz.

Google lanzó Gemini 3.5 Live Translate, un modelo de audio con inteligencia artificial capaz de traducir conversaciones en tiempo real en más de 70 idiomas. Esta tecnología procesa la voz de manera continua y se integra directamente en celulares y plataformas de trabajo para facilitar la comunicación inmediata.

Gemini 3.5 Live Translate es un modelo de audio basado en inteligencia artificial que traduce voz hablada en tiempo real de manera continua. A diferencia de los sistemas tradicionales que esperan a que el usuario termine de hablar para traducir, este desarrollo procesa el audio de forma constante, manteniéndose apenas unos segundos detrás del hablante y conservando su entonación, ritmo y tono.

La herramienta ya comenzó su despliegue a nivel global en la aplicación de Google Translate para Android y iOS. También está disponible en fase de pruebas para desarrolladores mediante la API de Gemini Live y Google AI Studio.

Te podría interesar:
Reino Unido frena a Google: medios podrán salir de su IA

Fotos de stock gratuitas de 72 f, android, androide — Foto: Sanket Mishra / Pexels

Traducción invisible en Google Meet y celulares

La integración en Google Meet, que iniciará este mes para clientes comerciales de Google Workspace en fase privada, amplía la traducción de llamadas de cinco idiomas soportados previamente a más de 70 opciones. Esto permite habilitar más de 2,000 combinaciones lingüísticas dentro de una misma sesión.

Para los usuarios de Android, se añadió un nuevo “modo de escucha” que permite recibir la traducción directamente en el auricular del celular. Esto elimina la necesidad de usar audífonos, ya que basta con sostener el teléfono junto a la oreja como si fuera una llamada normal. Todo el audio generado por este sistema contará con la marca de agua SynthID para asegurar la identificación de contenido artificial.

DiffusionGemma: Texto a velocidad récord

Por otra parte, Google DeepMind presentó DiffusionGemma, un modelo experimental abierto con 26,000 millones de parámetros que optimiza la generación de texto a través de técnicas de difusión.

DiffusionGemma es un modelo abierto experimental de Google DeepMind que genera texto aplicando técnicas de difusión sobre la arquitectura Gemma 4. En lugar de predecir una palabra a la vez, este sistema comienza desde el ruido y refina bloques enteros de hasta 256 tokens en paralelo.

Al activarse solo 3,800 millones de parámetros durante su ejecución, el modelo alcanza velocidades de procesamiento de más de 1,000 tokens por segundo en una tarjeta gráfica Nvidia H100, y cerca de 700 tokens por segundo en una tarjeta comercial GeForce RTX 5090. Los archivos de este modelo se liberaron en la plataforma Hugging Face bajo la licencia Apache 2.0.

El director ejecutivo de Google, Sundar Pichai, describió a esta tecnología en sus redes sociales como “un caballo de carreras que logra una inferencia hasta cuatro veces más rápida” al aplicar la investigación de difusión de texto dentro de la familia Gemma 4.

La empresa aclaró que DiffusionGemma todavía es un proyecto experimental y su calidad final se ubica por debajo de la versión estándar de Gemma 4 en las pruebas de rendimiento. Por ello, se recomienda principalmente para tareas locales donde la velocidad sea prioritaria, como la edición de texto en tiempo real, procesos de iteración rápida o bucles de agentes de software.

Fuentes: 1, 2, 3, 4, 5