Fictions-Science : Alan Turing Projection d'un film encore en cours de création
Jeudi 9 juin
20h30
Centre Pompidou, Petite salle
Axel Roebel et Frederik Bous de l’équipe Analyse-Synthèse nous livrent quelques informations sur la transformation de la voix dans le cadre de l'évènement Fictions-Science : Alan Turing qui se tiendra au Centre Pompidou le 9 juin 2022
La trajectoire du mathématicien Alan Turing sera mise en avant avec différents rendez-vous artistiques et scientifiques.
La projection du conte vidéographique de Judith Deschamps fait partie des rencontres de l’événement. Encore en cours de création, le film se construit autour de la recréation du chant de Farinelli, que l'artiste plasticienne mène au sein de sa résidence en recherche artistique avec les chercheurs de l’Ircam Axel Roebel et Frederik Bous de l’équipe Analyse-Synthèse.
Plus précisément, il s'agit de recréer au moyen de réseaux de neurones profonds le chant Quell'usignolo che innamorato que Farinelli chantait toutes les nuits au roi d'Espagne pour soigner sa mélancolie. Afin de recréer une voix de castrat vraisemblable il a fallu « augmenter » la voix d'une chanteuse alto en l’« hybridant » grâce à un système de codage. Les technologies utilisées dans le cadre de ce projet ont été développées dans le projet ARS. Cette résidence est la première utilisation artistique des méthodes développées. Elle a permis d'améliorer et d'affiner les objectifs du développement logiciel.
« Le principe de base, c’est d'apprendre à un système constitué de plusieurs réseaux de neurones profonds à reconstituer le timbre de chanteur·se·s aux tessitures variées à partir d’un signal donné et d'une hauteur cible. Cela permet dans un second temps de transposer les passages du chant que la voix de l'alto ne peut naturellement atteindre.», dit Axel Roebel.
Une approche très similaire a été utilisée pour la « création » de la voix de Dalida dans le film « Hotel du Temps » de Thierry Ardisson, un projet effectué en collaboration avec IrcamAmplify. Pour les deux applications un des réseaux est le même. C'est le vocodeur, il sert à convertir un spectrogramme Mel dans une voix correspondante. L'autre réseau transforme le spectrogramme Mel afin de l'adapter aux indications données par l'utilisateur. Il diffère en fonction de la tâche. Pour le projet de Judith Deschamps, il s'agit de modifier la hauteur en gardant l'identité de la chanteuse alto qui sert de base au chant de Farinelli. À l'inverse pour le projet de Dalida, c'est l'identité qui est changée en gardant la hauteur. La méthode utilisée est donc modulaire et permet des adaptations pour des applications diverses et variées.
Les réseaux de type vocodeur sont maintenant très largement utilisés pour faire de la synthèse de parole à partir de texte. Cependant, la question de la transformation avec les réseaux profonds est encore peu étudiée. Elle est l'une des activités de recherche actuelle et principale dans l'équipe Analyse et Synthèse des sons.
Le vocodeur neuronale couplé avec le reseau de transformation de la hauteur est développé dans le cadre du projet ANR ARS (https://ars.ircam.fr). Le reseaux pour la transformation de l'identité a été dévelopé dans le cadre du projet ANR theVoice (https://www.ircam.fr/projects/pages/thevoice/) avec un fort soutient de IrcamAmplify.
Axel Roebel et Frederick Bous de l’équipe Analyse-Synthèse nous livrent quelques informations sur la transformation de la voix dans la création de Fictions-Science : Alan Turing - projection du conte vidéographie.
Démo sur l'utilisation des spectrogrammes Mel pour la transformation des voix:
Pour aller plus loin dans le travail de recherche autour de la voix :
A Bottleneck Auto-Encoder for F0 Transformations on Speech and Singing Voice.
Analysis and transformations of intensity in singing voice.
Neural Vocoding for Singing and Speaking Voices with the Multi-band Excited WaveNet.