Google lanza Gemini 3.1 Flash TTS: su IA de voz más avanzada

Google lanza Gemini 3.1 Flash TTS, modelo de texto a voz con más de 200 etiquetas de control y soporte para 70 idiomas.

Por Humberto Toledo el 15 de abril del 2026 a las 6:13 pm PDT

Resume con:

✨︎ Resumen (TL;DR):

Google liberó Gemini 3.1 Flash TTS, modelo de texto a voz disponible en su API, Vertex AI y Google Vids.

Incluye más de 200 etiquetas para controlar emociones y supera a ElevenLabs v3 con un puntaje Elo de 1,211.

Integra diálogos multihablante nativos y aplica marcas de agua SynthID para rastrear el contenido generado.

Gemini 3.1 Flash TTS es un modelo de texto a voz que Google lanzó este miércoles para ofrecer un nivel de control inédito en la generación de audio. Actualmente se encuentra en fase de vista previa a través de la API de Gemini, Google AI Studio, Vertex AI y Google Vids para los usuarios de Workspace.

Google catalogó la herramienta como su modelo más expresivo y controlable hasta la fecha. Para lograr este nivel de detalle, la empresa integró más de 200 etiquetas de audio que los desarrolladores incrustan directamente en el texto para dirigir el estilo vocal, el ritmo y el acento.

Estas etiquetas permiten activar emociones precisas como la “determinación” y la “curiosidad”, o modificar la entrega incluyendo “susurros” y “risas”. Google describe esta capacidad como un enfoque “de autor” para la generación sonora.

Te podría interesar:
OpenAI lanza GPT-5.4-Cyber para expertos en ciberseguridad

Dominio multilenguaje y rendimiento frente a la competencia

El sistema opera con más de 70 idiomas, incluyendo alemán, hindi y japonés, utilizando 30 voces predeterminadas como punto de partida. Además, procesa diálogos entre múltiples locutores de forma nativa.

Esta característica mantiene el flujo natural de una conversación sin necesidad de hacer llamadas a la API por separado para cada voz. Es una solución orientada a creadores de podcasts, guiones dramáticos y asistentes virtuales.

De acuerdo con Artificial Analysis, el modelo alcanzó un puntaje Elo de 1,211. Gracias a este rendimiento, Gemini 3.1 Flash TTS ocupó la segunda posición global en el Speech Arena Leaderboard, superando al modelo Eleven v3 de ElevenLabs.

Seguridad SynthID y límites técnicos

Para combatir la desinformación, Google aplica su tecnología SynthID a todo el material generado. Esta marca de agua identifica el contenido de inteligencia artificial sin degradar la calidad sonora original.

Los desarrolladores ya pueden implementar el modelo bajo el identificador gemini-3.1-flash-tts-preview. La herramienta funciona con los siguientes límites:

Capacidad máxima de 8,192 tokens de entrada.
Capacidad máxima de 16,384 tokens de salida.

Este despliegue complementa el lanzamiento previo de Gemini 3.1 Flash Live, presentado el 25 de marzo como la solución principal de Google para interacciones de voz en tiempo real.

Fuentes: 1, 2, 3