el modelo de IA que crea canciones de 6 minutos

ndh
By ndh
4 Min Read

Stability AI tiene un historial de publicar modelos de código abierto que acaban en manos de miles de desarrolladores y creadores. Ahora, la compañía detrás de Stable Diffusion apunta al audio con una IA capaz de generar melodías completas. Según la empresa, Stable Audio 3.0 puede producir canciones de más de seis minutos con estructura musical coherente.

De acuerdo con una publicación en su web, Stable Audio 3.0 es una familia de modelos entrenada con datos totalmente licenciados. La novedad con respecto a su predecesor es que la duración máxima supera el doble de lo que se podía lograr con Stable Audio 2.0 en 2024. Las nuevas versiones mantienen la coherencia melódica y la estructura a lo largo de toda la composición, incluidas las piezas largas.

Stable Audio 3.0 se divide en cuatro modelos, cada uno pensado para un escenario distinto. El más pequeño, Small SFX, está optimizado para efectos de sonido y puede correr directamente en un móvil o un portátil convencional. Le sigue Small, también de 459 millones de parámetros, orientado a composición musical completa igualmente en dispositivo.

El modelo Medium sube a 1.400 millones de parámetros y ya ofrece pistas de hasta seis minutos y veinte segundos. El grande, Large, con 2.700 millones de parámetros, es el más avanzado de la familia y está pensado para plataformas que necesiten generación a alto volumen con baja latencia.

Tres de los cuatro modelos, Small SFX, Small y Medium, se publican con pesos abiertos, lo que significa que cualquiera puede descargarlos, modificarlos y usarlos. La licencia comunitaria de Stability AI permite distribuir y comercializar lo que generes con ellos. Las organizaciones que facturen más de un millón de dólares anuales necesitan una licencia empresarial para uso comercial.

Qué puedes hacer con Stable Audio 3.0

Stable Audio 3.0 incluye un autocodificador semántico-acústico que permite generar audio de longitud variable con precisión de segundos. Los usuarios ya no tienen que ajustarse a duraciones fijas, sino que ahora pueden pedir exactamente lo que necesitan.

Foto: BandLab (Unsplash)

Otro aspecto notable de esta versión es el soporte para LoRA, una técnica que permite personalizar el modelo con tu propia biblioteca de sonidos o un estilo musical concreto. Si estás interesado en adaptar los resultados a tu estilo, Stability AI ha publicado la documentación para entrenamiento LoRA junto con los pesos de Small y Medium.

También hay opciones de inpainting de audio, una técnica en donde la IA restaura o rellena segmentos de audio faltantes. Los usuarios pueden modificar un segmento concreto de una pista, retocar una parte sin rehacer todo o extender una composición más allá de su punto final original.

Mientras que Small SFX, Small y Medium son gratuitos y se pueden descargar de Hugging Face, el modelo Large solo está disponible vía API y servicios de autoalojamiento de pago. Si quieres probarlo sin infraestructura propia, tendrás que esperar a que aparezca en alguna plataforma asociada.

Stability AI también anunció que trabaja en una suite de productos para músicos profesionales, aunque sin dar detalles todavía. La compañía ya tiene acuerdos con Warner Music Group y Universal Music Group, y señala que todos los modelos de esta familia se han entrenado con datos licenciados, algo que les evitará demandas legales como las que han tenido que sortear por culpa de Stable Diffusion.

DERECHOS DE AUTOR
Esta información pertenece a su autor original y fue recopilada del sitio https://hipertextual.com/inteligencia-artificial/stable-audio-3-0-modelo-ia-canciones/

TAGGED:
Share This Article