Stable Audio 3: El nuevo modelo de Stability AI genera canciones de hasta seis minutos en segundos

Stability AI lanzó Stable Audio 3, su nuevo modelo que crea música instrumental de hasta 6 minutos en segundos.

Por Humberto Toledo el 20 de mayo del 2026 a las 12:23 pm PDT

Resume con:

✨︎ Resumen (TL;DR):

Stability AI lanzó Stable Audio 3, una familia de modelos capaces de generar música instrumental de hasta 6 minutos con 20 segundos.

El modelo grande puede procesar pistas completas en solo 1.8 segundos utilizando una tarjeta gráfica H200 GPU.

Tres de las variantes se distribuyen con pesos abiertos (open weights) y datos con licencia para funcionar de forma local en computadoras comerciales.

Stability AI lanzó Stable Audio 3, una nueva familia de modelos de difusión latente que genera pistas instrumentales de nivel profesional y efectos de sonido con una duración máxima de 6 minutos y 20 segundos. Esta actualización duplica el límite de su predecesor y permite a los creadores de contenido producir piezas completas en segundos de manera local.

El lanzamiento incluye cuatro variantes adaptadas a distintas necesidades y capacidades de hardware. El modelo grande cuenta con 2,700 millones de parámetros y procesa pistas completas de más de seis minutos en apenas 1.8 segundos gracias al uso de unidades de procesamiento gráfico H200 de Nvidia.

Por otro lado, la compañía liberó los pesos abiertos de tres de sus modelos: dos versiones pequeñas de 459 millones de parámetros (una para música y otra para efectos de sonido) y una versión mediana de 1,400 millones de parámetros. Estas variantes funcionan de manera local en equipos comerciales como la MacBook Pro M4 de Apple.

Fotos de stock gratuitas de #interior, acción, afición — Foto: Pavel Danilyuk / Pexels

Edición flexible y optimización técnica de audio

Stable Audio 3 es una familia de modelos de generación de audio que genera música instrumental y efectos de sonido mediante un autoencoder semántico-acústico capaz de comprimir audio en una relación de 4,096x. Este sistema reduce el tamaño del archivo sin perder la fidelidad del sonido ni la estructura semántica original en el espacio latente.

A diferencia de las versiones previas que obligaban a renderizar piezas completas, este modelo introduce varias funciones avanzadas para los productores musicales:

Generación de longitud variable: Permite especificar la duración exacta del fragmento requerido sin rellenar el archivo con audio innecesario.
Inpainting: Facilita la edición quirúrgica y la modificación de secciones específicas dentro de un archivo de audio existente.
Continuidad de grabación: Permite subir pistas existentes y expandir la composición de manera fluida.

La arquitectura del modelo utiliza un entrenamiento en tres etapas: preentrenamiento de coincidencia de flujo (flow matching), calentamiento por destilación y un postentrenamiento adversarial mediante el método de contraste relativista de la empresa. Con este proceso, el sistema reduce el número de pasos de inferencia necesarios para obtener un archivo de alta fidelidad.

La competencia en la generación musical

El mercado de la música generada con inteligencia artificial vive una competencia intensa. Plataformas de generación vocal como Suno, valuada en 2,450 millones de dólares, y Udio, que resolvió disputas de derechos con Universal Music Group, dominan la creación de canciones con voz.

Con este movimiento, Stability AI posiciona a su nueva herramienta como la opción ideal para creadores de bandas sonoras y efectos de sonido. El acceso a pesos abiertos y el uso exclusivo de datos de entrenamiento con licencias claras ofrece a los desarrolladores una alternativa segura contra reclamos de derechos de autor.

Fuentes: 1, 2, 3, 4