Estéticas Latentes

Experimentos en arte sonoro y modelos generativos profundos

UNTREF

Composiciones

Modelos generativos profundos

Los modelos de espacio latente basados en aprendizaje profundo con redes neuronales ofrecen un campo fértil para la realización de obras de arte sonoro en sus múltiples modalidades. Las características propias de la práctica del arte sonoro actual, su naturaleza híbrida y transdisciplinaria, que incluye cruces entre arte contemporáneo, ciencia y tecnología, hace particularmente interesante la incorporación de estas técnicas en la producción de obra.

Dado un conjunto de datos como textos, imágenes o audios, estos modelos generativos buscan aproximar su distribución de probabilidad mediante una representación comprimida denominada espacio latente. Esto permite, una vez aprendido el modelo, generar nuevos datos sintéticos que, en principio, conservan la "estructura" de los datos originales.

Un modelo que ha sido explorado para la generación de audio es el autoencoder, el cual consiste de dos partes: un codificador, encargado de transformar los datos de entrada en vectores de baja dimensionalidad, y un decodificador que a partir de estos vectores recupera los datos originales. Con esta arquitectura, el modelo se ve forzado a capturar la información más relevante en los vectores de baja dimensionalidad que constituyen el espacio latente. Los autoencoders variacionales (VAE) poseen una estructura similar, salvo que el espacio latente representa los parámetros de una distribución de probabilidad y las entradas al decodificador son muestreadas de la distribución resultante.

Las redes generativas adversarias (GAN) consisten de dos redes neuronales artificiales: un discriminador y un generador. A partir de un código, el cual consiste de un vector habitualmente aleatorio, el generador crea datos. Simultáneamente, el discriminador recibe datos creados por el generador y datos reales, siendo su objetivo predecir si los datos son reales. De esta forma, el generador deberá crear datos cada vez más realistas para engañar al discriminador. La generación de audio típicamente se realiza de manera exploratoria, variando el código de entrada al generador. Modelos actuales combinan el uso de autoencoders variacionales con redes adversarias.

Otros modelos generativos profundos son los autoregresivos, como Wavenet y SampleRNN, los cuales permiten generar audio de a una muestra por vez utilizando la información de las muestras generadas anteriormente. La naturaleza serial de estos modelos hace que el proceso de generación sea lento y dificultoso para síntesis de audio interactiva y en tiempo real. Los modelos mencionados anteriormente suelen utilizar redes neuronales constituidas principalmente por capas convolucionales. Sin embargo, para modelar datos secuenciales como audio, resulta interesante explorar el uso de capas recurrentes, como LSTMs y GRUs, o utilizar Transformers, los cuales han sido aplicados en la síntesis de texto y música.

Micropolifonía variacional n.° 1 para instrumentos de viento y voces (fragmento). Versión extendida: youtu.be/VY6YyLHecNs
 
Micropolifonía variacional n.° 1 para instrumentos de viento y voces (fragmento). Versión extendida: youtu.be/VY6YyLHecNs

Micropolifonías variacionales

Las micropolifonías son un tipo de textura sonora desarrollada por György Ligeti, que involucra el uso de sonidos disonantes sostenidos que lentamente van cambiando con el tiempo: "La compleja polifonía de las voces individuales está enmarcada en un flujo armónico-musical, en el que las armonías no cambian súbitamente, sino que se van convirtiendo en otras; una combinación interválica discernible gradualmente haciéndose borrosa, y de esta nubosidad es posible sentir que una nueva combinación interválica está tomando forma".

Las micropolifonías variacionales son composiciones generadas a partir de la superposición de interpolaciones sucesivas en el espacio latente de autoencoders variacionales, entrenados con audios de cuatro segundos tomados del conjunto de datos NSynth. Los sonidos sintetizados corresponden a puntos del espacio latente "entre" los audios originales utilizados para entrenar la red neuronal.

Diatónica - Micropolifonía variacional n.° 3 para coro de voces mixtas (fragmento). Versión extendida: youtu.be/uvzY3B5D2sc

Derivas variacionales

Paisajes sonoros creados a partir de recorridos sin un objetivo específico, a través de espacios latentes que representan corpus sonoros de naturaleza diversa. Los puntos del espacio latente corresponden a sonidos granulares, fragmentos de audio sintetizados por la red neuronal en forma de espectrogramas de magnitud, luego concatenados y reconstruidos con pghipy.

Deriva variacional n.° 1 (fragmento)

 

Deriva variacional n.° 2 (fragmento)

Experimentación sonora con DDSP

Recientemente, se han utilizado autoencoders para configurar automáticamente unidades de procesamiento de señales clásicas diferenciables DDSP (Differentiable Digital Signal Processing), como osciladores y filtros.

La librería DDSP permite crear composiciones sonoras sin necesidad de que la red aprenda a generar audio desde cero, además de conferirle intepretabilidad al modelo de síntesis.

Librería DDSP

Experimentación sonora con DDSP