OpenAI prepara una IA que compone música desde texto y audio

OpenAI desarrolla una herramienta para generar música desde texto o audio.
Colabora con estudiantes de la Juilliard School para anotar partituras y crear datos de entrenamiento.
Los usos irían de acompañamientos instrumentales a música para vídeos y publicidad.
Competirá con Suno y Udio en un contexto de dudas legales y posibles modelos de reparto.

OpenAI avanza en una herramienta que permitirá componer música a partir de indicaciones en texto y de muestras de audio, según coinciden varias publicaciones especializadas. La idea es que cualquier usuario pueda pedir una melodía, un estilo determinado o un acompañamiento concreto y obtener un resultado listo para usar.

Fuentes citadas por The Information y otros medios señalan que el sistema podría añadir música a vídeos existentes o crear pistas instrumentales para voces ya grabadas, como una línea de guitarra, bajos o bases rítmicas. No hay calendario de lanzamiento ni está decidido si llegará como producto independiente o integrado en servicios como ChatGPT o la app de vídeo Sora.

Qué sabemos del proyecto

La herramienta en desarrollo aceptaría prompts de texto y entradas de audio para generar desde fragmentos hasta piezas completas con arreglo a instrucciones. En escenarios prácticos, se plantea como un asistente que facilita acompañamientos, arreglos y ambientaciones musicales sin necesidad de estudios avanzados.

Contenido exclusivo - Clic Aquí Como Afinar Una Guitarra Eléctrica

De acuerdo con las informaciones disponibles, OpenAI explora varios modos de uso: creación desde cero, apoyo a pistas vocales y banda sonora para vídeo. Este enfoque ampliaría el alcance a creadores audiovisuales, podcasters y marcas que buscan música a medida con rapidez.

Posibles usos e integración

Entre las aplicaciones contempladas, las fuentes mencionan la generación de acompañamientos puntuales (por ejemplo, guitarras) y la composición de música para clips. En el terreno comercial, se barajan campañas publicitarias con sonido personalizado y flujos de trabajo conectados a herramientas creativas ya existentes.

Otra posibilidad es la integración con plataformas de OpenAI: una conexión con ChatGPT simplificaría la interacción por lenguaje natural, mientras que un enlace con Sora facilitaría el montaje de música adaptada a escenas de vídeo generadas por IA. No obstante, por ahora es una hipótesis sin confirmación oficial.

Colaboración con Juilliard y datos de entrenamiento

Uno de los aspectos más llamativos es la colaboración con estudiantes de la Juilliard School, quienes estarían anotando partituras para proporcionar datos de alta calidad. Esta anotación incluye estructura, armonía y matices expresivos, con la intención de enseñar al modelo tanto la forma como la intención musical.

Contenido exclusivo - Clic Aquí VirtualBox vs VMware vs Hyper-V: cuál elegir según tu caso

Trabajar con partituras anotadas puede aportar una base más estructurada que el simple uso de pistas de audio, ayudando a que el sistema aprenda progresiones, dinámicas y orquestación. Además, este enfoque apunta a reducir riesgos legales en la obtención de datos y a mejorar la consistencia de las composiciones generadas.

Competidores y marco legal

Suno AI

El movimiento situaría a OpenAI en competencia directa con startups como Suno y Udio, además de otros actores con modelos generativos musicales (por ejemplo, esfuerzos de Google o ElevenLabs). El sector, entretanto, está bajo escrutinio por demandas recientes que cuestionan el uso de material protegido para entrenar modelos.

En este contexto, han trascendido mensajes del máximo responsable de OpenAI sobre la conveniencia de que los titulares de derechos participen en los ingresos. Falta por ver cómo se materializaría un mecanismo de compensación, un asunto clave para la industria musical europea y global.

Antecedentes y retos técnicos

OpenAI ya probó la generación musical en 2020 con Jukebox, un experimento que no cristalizó en producto comercial. En años recientes, la empresa se ha centrado en modelos de audio para texto a voz y voz a texto, y ahora recupera la música con una ambición mayor.

Contenido exclusivo - Clic Aquí Los nuevos widgets de Gemini con Material You llegan a Android

Los desafíos técnicos pasan por mantener una coherencia a gran escala en las composiciones, la calidad de los datos y el coste computacional. También será determinante la transparencia respecto al entrenamiento y los controles humanos en la fase creativa para lograr piezas útiles y aceptadas por músicos y productores.

Si el proyecto prospera, puede facilitar a creadores europeos y españoles el acceso a bandas sonoras y arreglos bajo demanda a menor coste, aunque persistirán debates sobre propiedad intelectual, licencias y trazabilidad. La respuesta de la industria dependerá de acuerdos claros y de la calidad real de las demos cuando se publiquen.