Tisser la matière de la mémoire : Pilotage de modèles audio latents par l'apprentissage automatique interactif - Gabriel Vigliensoni

Article

Published on 2 mars 2024 by vigliensoni

Forum Workshops IRCAM Forum Workshops 2024

Présenté par: Gabriel Vigliensoni
Biographie

"Weaving memory matter" est une démonstration et une performance où je montrerai la dirigeabilité et le contrôle des modèles de synthèse audio neuronale par le biais de l'apprentissage automatique interactif. Le contrôle en temps réel des systèmes de synthèse audio neuronale est important car il permet aux interprètes d'introduire la cohérence temporelle à long terme qui fait souvent défaut dans ces systèmes.

Les progrès récents dans le domaine de la synthèse audio neuronale, tels que l'architecture RAVE (Caillon et Esling 2021), ont permis d'améliorer la génération de signaux audio en temps réel. RAVE s'attaque aux problèmes des systèmes précédents, notamment la grande complexité de calcul, la mauvaise qualité du signal et le manque de cohérence temporelle lors de la modélisation de signaux audio polyphoniques complexes. Il remédie également au manque de moyens d'interaction. Ces progrès ont facilité l'utilisation de ces modèles en temps réel. Toutefois, compte tenu de la grande dimensionnalité potentielle de l'intégration apprise et de l'absence d'étiquettes pour les axes de l'espace latent, il est crucial de trouver une meilleure méthode pour l'interaction et la performance en temps réel.

Dans cette démonstration, je présenterai une méthode utile pour diriger des modèles audio neuronaux à l'aide de l'apprentissage automatique interactif. Cette approche permet à l'interprète de mettre en correspondance l'espace de performance humaine bien connu et de faible dimension avec l'espace latent de haute dimension d'un modèle audio génératif. Cette correspondance est apprise grâce à un ensemble d'entraînement contenant des emplacements appariés des deux espaces.

Au cours de la démonstration, mon processus comprendra : (i) l'exploration de l'espace latent d'un modèle RAVE pré-entraîné pour identifier les points de potentiel créatif ; (ii) la sélection de points sources dans l'espace de performance qui correspondent à des points cibles dans l'espace latent ; (iii) la répétition de ces étapes en fonction des qualités sonores découvertes ; et (iv) l'utilisation d'un algorithme de régression pour apprendre une correspondance entre les points dans les deux espaces. Ce processus peut être répété si nécessaire pour ajuster la cartographie.

Dans la performance de démonstration "Weaving Memory Matter", mon objectif est de démontrer comment nous pouvons récupérer le contrôle artistique sur les systèmes génératifs d'IA en entraînant des modèles personnalisés sur des données conservées et en dirigeant le processus génératif. La performance utilise un modèle RAVE entraîné sur une partie des archives sonores du Museo de la Memoria y los Derechos Humanos de Santiago du Chili. Les technologies utilisées sont RAVE, nn~, Facemesh, FluCoMa et Max.

Retour à l'événement