Suivre la voix au théâtre

Cette article relate le premier succès du VoiceFollower au théâtre. Utilisé dans le contexte du laboratoire de recherche et d’expérimentation autour du son pour le théâtre "in-vivo", le VoiceFollower a permis à la jeune compagnie du vieilleur d'effectuer une régie automatique dans la pièce "Nous les Vagues". Après une présentation d'in-vivo, cet article relate comment "Nous les Vagues" à utiliser le VoiceFollower.

Contexte In-vivo : laboratoire de recherche et d’expérimentation autour du son pour le théâtre

"In vivo" est un laboratoire de recherche et d'expérimentation autour du son pour le théâtre. Cette première édition repose sur un partenariat entre l'IRCAM et la Comédie de Reims, sous la direction de Ludovic Lagarde. Cinq metteurs en scène, Emilie Rousset, Matthieu Roy, Cyril Teste, Guillaume Vincent et Ludovic Lagarde, accompagnés de leurs équipes composées de comédiens et de créateurs sonores, élaborent des projets innovants, avec l'aide de trois réalisateurs en informatique musicale de l'IRCAM, Greg Beller, Thomas Goepfer et Olivier Pasquet. Les thèmes d'exploration sont en lien étroit avec la recherche scientifique et des problématiques inédites du théâtre concernant la voix, la musique, la diffusion et le son en général. Les créations des cinq équipes ont été présentées les 27, 28 et 29 Juin 2012 au théâtre des Bouffes du Nord et au CENTQUATRE, à Paris.

 "Nous les Vagues":

« Nous avons pris possession, nous avons fait effraction, irruption comme c’était prévu, vague déferlante comme c’était prévu, au cœur des choses et des espaces de décision.» 

"Nous les Vagues" est une pièce de théâtre d'une durée de 20 min, écrite par Mariette Navarro, paru aux éditions Quartett en mai 2011, adapté et mise en scène par Matthieu Roy, jouée par Philippe Canales et Johanna Silberstein, avec Baptiste Poulain à la régie sonore et Grégory Beller à la réalisation informatique musicale. La particularité de ce texte porté ici par deux voix repose sur ce "Nous" qui représente tour à tour un groupe de personne, une foule ou encore une seule et même personne. L'adaptation est divisée en trois parties et chacune de ces parties correspond à des mises en espaces sonores différentes.

La première partie

La première partie correspond à la constitution d'un groupe: Salle au noir, les deux comédiens sont derrière le rideau et leurs voix sont transformées grâce à supervp en de multiples personnalités et spatialisées dans la salle grâce au Spat. A chaque phrase des comédiens correspond une identité différente placée ou se déplaçant différemment des autres. Toutes ces changements ont été écrits en studio dans une partition bien réglée. Du point de vue de la régie, cette partie, d'une durée de 6 min, recense 136 changements qui doivent être synchrones à la parole - un véritable cauchemar pour un régisseur. De plus, à mesure que le processus s'accélère pour passer de la phrase au mot, une accumulation de voix apparait dans la salle grâce à l'ajout d'un foule préparée en studio avec CataRT. Si bien qu'à la fin de cette partie, le public et le régisseur en salle ne peuvent plus distinguer les voix transformées des comédiens en temps réel de leur voix transformées en temps différé. C'est pour ces raisons que le Suivi de Voix (VoiceFollower) s'est imposée comme unique solution viable pour permettre la régie de cette partie.

La seconde partie

Dans la seconde partie, rideau levé, les deux comédiens représentent des leaders politiques et parlent à la foule constituée, omniprésente et survoltée. Une interaction représentable métaphoriquement par le mouvement des vagues, se produit alors entre cette foule et ces leaders. Lorsque ces derniers parlent, la foule se tait alors qu'elle devient assourdissante lorsque les leaders se taisent. Cette interaction a été réalisée par un device Max4Live qui agit comme un compresseur side-chain sur la foule générée par CataRT, selon le niveau sonore des voix des comédiens.

La troisième partie

La troisième partie se déroule dans un espace intimiste en fond de scène. La foule a disparu et on assiste à la préparation d'un attentat par un terroriste représenté par un couple fusionnel. Les deux comédiens disent le même texte en même temps, et la fusion est opérée grâce à SuperVP cross-synthesis en temps réel. Le public perçoit alors une voix hybride homme-femme étrange et immatérielle, le renvoyant à l'anonymat du terrorisme.

 Suivi de voix:

Dans ce contexte, le VoiceFollower a donc permis la régie automatique de plus de cent événements pendant une durée de plus de 5min et avec une précision de l'ordre du phonème. Ce premier succès est très encourageant pour une technique jeune mais déjà très prometteuse. Voici son principe: Le suivi de parole consiste à comparer en permanence et de manière instantanée un flux de parole « live » (performance) à un flux de parole préenregistré (référence). Plus largement, le suivi de parole hérite du suivi continu de données temporelles et permet donc de suivre tout type de geste vocal, doté ou nom de message sémantique. Il permet donc de suivre non seulement la parole, mais aussi le chant ainsi que tout son émis par l’appareil phonatoire. En pratique, une séquence vocale est enregistrée (une seule fois suffit). Des événements de toute nature (sonore, vidéo, régie plateau ou autre) sont séquencés sur cet enregistrement, appelé la référence, via n’importe quel environnement logiciel (séquenceur audio, vidéo... etc…). Puis, cette référence et ses événements sont stockés conjointement dans l’outil VoiceFollower. En situation de performance, le flux de parole est suivi, c’est à dire que la référence est perpétuellement synchronisée au « live ». Métaphoriquement, la performance devient la tête de lecture de la séquence organisée préalablement. Ainsi, les différents événements prévus, composés,  apparaissent et accompagnent la performance en temps réel.