RAVE Model Challenge

Article

Published on 6 nov. 2024 by beller

DESCRIPTION:

RAVE (autoEncodeur variationnel audio en temps réel) est un algorithme conçu pour la synthèse de formes d'onde audio de haute qualité en temps réel à l'aide de réseaux neuronaux. Il exploite une architecture d'auto-encodeur variationnel (VAE), qui compresse les données audio en une représentation latente compacte, permettant une reconstruction efficace des signaux audio.

Les principales fonctionnalités de RAVE incluent :

Génération audio rapide et de haute qualité : il excelle dans la production d'un son précis en temps réel, ce qui le rend idéal pour les applications interactives (20x en temps réel à une fréquence d'échantillonnage de 48 kHz sur un processeur standard)
Utilisation en temps réel : Intégré à des outils comme Max et Pure Data (Pd), RAVE peut être utilisé avec le décodeur nn~ pour la génération et la transformation du son en temps réel. Un Plugin VST le rend facile à utiliser dans n’importe quelle DAW.
Applications : les utilisations courantes incluent la synthèse audio, la transformation du timbre et le transfert de style.

En bref, RAVE est un outil puissant de génération audio en temps réel, offrant à la fois vitesse et qualité.

En seulement quelques mois, RAVE a popularisé la création de modèles à partir d'enregistrements audio, grâce notamment à la publication d’une série de tutoriels et du code source ouvert. Une communauté bouillonnante des utilisateurs s'est emparée de l’algorithme, et de nombreux modèles ont émergé. Même si ces modèles peuvent être assez coûteux à produire (une vingtaine d’heures GPU), très peu ont été publiés jusqu’à présent, souvent en raison de problèmes de droits d’auteur. Ce défi concerne des modèles entraînés sur des enregistrements personnels dont les auteurs possèdent tous les droits.

L'objectif de ce challenge est d'accompagner les auteurs des meilleurs modèles et de constituer collectivement un répertoire de modèles RAVE, permettant à chacun de bénéficier de la richesse et de la variété des approches dans le domaine du transfert de timbre/musique.

Le défi est organisé par la plateforme DAFNE+, qui promeut le partage de contenus par l’utilisation des NFTs.

Un vote du public attribue trois prix aux participants.

PRIX:

La remise des prix aura lieu lors des ateliers du Forum Ircam 2025, entre le 26 et le 28 mars 2025 à l'IRCAM, Paris.

1ère récompense : 2000€ plus un an d'adhésion Premium au Forum Ircam
2ème récompense : 1000€ plus un an d'adhésion Premium au Forum Ircam
3ème récompense : 500€ plus un an d'adhésion Premium au Forum Ircam

Si plusieurs candidatures ont le même nombre de votes gagnants, les montants de leur prix et des prix suivants seront partagés entre eux. Par exemple :

si deux candidats ont le plus grand score ex-aequo et un troisième le score suivant, les deux premiers se partageront (2000+1000)/2 = 1500€ et le troisième aura le 3ème prix donc 500€
si un candidat a le plus grand nombre de votes (1er prix de 2000€) et 3 candidats se partagent le second score de votes, leur prix à chacun sera (1000+500)/3 = 500€

DATES IMPORTANTES :

Publication de l'appel en novembre 2024 sur forum.ircam.fr et sur dafneplus.eu
Plateforme DAFNE+ de l’appel, ouverte du 1er décembre 2025 (midi CET) au 31 janvier 2025 (midi CET) 10 Février 2025 (midi CET) - Extension de la date limite
Vote du public du 11 février 2025 (midi CET) au 28 février 2025 (midi CET).
Remise des prix en mars 2025 lors des ateliers du Forum Ircam 2025.

SOUMISSION:

Pour participer, les participants doivent uploader leur candidature via le gestionnaire de contenu de la plateforme DAFNE+, avec le contenu suivant dans un seul fichier zip, avec le type "AI model" :

Le modèle au format .ts. Mode « forward » uniquement.
- Description du modèle : une description du modèle en termes de
- Types de sons utilisés (description, instruments, genre, playlist...)
- Durée totale du corpus audio utilisé pour l'entraînement.
- Intention artistique : avez vous une intention artistique spéciale avec ce modèle?
- Une image illustrative présentant le modèle.
Des informations complémentaires optionnelles.
Exemples de sorties du modèle: un ensemble de fichiers audio de sortie montrant l'effet du modèle :
- 5 générations libres de 15sec, en mode “MSprior” ou “decoder”
- 5 transformations en mode “forward” de 5 sons imposés, téléchargeables via les liens suivants :
  - chantant twinkle twinkle, Mr. moon.wav par bectec -- https://freesound.org/s/665123/ -- Licence : Creative Commons 0
  - 106 BPM Drum Loop 1.wav par esares -- https://freesound.org/s/431874/ -- Licence : Creative Commons 0
  - entrelacé 0T_50mm par Setuniman -- https://freesound.org/s/165172/ -- Licence : Attribution NonCommercial 4.0
  - deep house drum beat.wav par djfroyd -- https://freesound.org/s/349708/ -- Licence : Attribution 3.0
  - 15-Second Strum par ViraMiller -- https://freesound.org/s/745885/ -- Licence : Attribution 4.0
Courte biographie (400 mots maximum, en anglais) et photo haute définition de l'auteur.
Copyright de l'entraînement du modèle : une lettre d’intention précisant le respect du droit d’auteur conformément à la licence CC BY-NC (voir ci-dessous) et déclarant les sources tierces si utilisées.

Pour soumettre votre modèle au challenge sur la plateforme DAFNE+, merci de suivre ce tutoriel.

Un template de soumission est disponible dans les contenus associés à la compétition.

Seules les propositions complètes seront prises en considération.

ÉVALUATION

Les trois prix seront décernés par vote des membres inscrits sur la plateforme DAFNE+ (inscription gratuite), récompensant les trois modèles ayant obtenu le plus grand nombre de votes (par ordre décroissant pour les 3 prix). Les modèles seront publiés sur la plateforme DAFNE+ avec le tag « RAVE Model Challenge ». A partir du 1er février 2025, les membres pourront télécharger les modèles pour les évaluer, ainsi qu'écouter les fichiers audio pour voter pour leur modèle préféré. Le lien vers la plateforme de vote sera fourni le 1er février 2025 et le vote se clôturera le 28 février (midi CET).

CONDITIONS DE LICENCE DES MODÈLES SOUMIS

Les modèles RAVE soumis au concours seront publiés en accès libre (sans frais bitcoin) sur la plateforme DAFNE+ sous licence Creative Commons V4 avec option BY-NC.