Evaluation perceptive de technologie de transformation du chant

roebel · October 1, 2021, 1:38pm

Bonjour,

Nous travaillons actuellement sur des méthodes de représentation et transformation de la voix avec des réseaux profonds qui - si la qualité sera suffisamment bien - sera être intégré dans ISiS dans un horizon de 1 - 2 ans. Nous sommes actuellement en train de collecter des évaluations, notamment par des gens avec des bonnes oreilles, pour voir entre autre comment la méthode se compare aux méthodes présentent dans ISiS.

Nous vous serions très reconnaissante si vous pourriez faire un ou plusieurs des testes suivantes.
Les résultats vont être utilisé pour alimenter une publication qui doit être soumis mercredi le 6. octobre.
Si vous auriez envie de nous aider ce serait mieux avant. Ici la liste des testes disponibles

1 Synthèse de la Parole a partir du spectrogramme Mel

http://recherche.ircam.fr/anasyn/roebel/test_NeuralVocoder/index.php?name=Speech

Vous devez écouter des enregistrements de voix parler de qq secondes et qq re-synthèses de ces enregistrements et par la suite évaluer à sur une échelle de 0 à 100 la similarité entre originale et la re-synthèse.

Durée ~ 4-5min
Vous pouvez répéter le test, les exemples sont tiré aléatoirement d’un réservoir

2 Synthèse du chant a partir du spectrogramme Mel

http://recherche.ircam.fr/anasyn/roebel/test_NeuralVocoder/index.php?name=Singing

Même programme que sous 1) mais avec la voix chanté.

Durée ~ 6-7min
Vous pouvez répéter le test, les exemples sont tiré aléatoirement d’un réservoir

3) Transposition du chant par modification du spectrogramme Mel

http://recherche.ircam.fr/anasyn/bous/pitch_transformations/singing/

Ici vous devez écouter des enregistrements de chant modifié (transposition) et par la suite évaluer
la qualité du son. Donc la question a quelle point vous pourriez imaginé que le son écouté soit une enregistrement d’une voix réelle

Durée ~ 10min
Vous pouvez répéter le test, les exemples sont tiré aléatoirement d’un réservoir

Merci

nadirb · October 3, 2021, 9:45am

Bonjour Axel,

Oui volontiers ! Est-ce que ça ira pour demain soir ?

N.

roebel · October 3, 2021, 2:07pm

Bonjour Nardirb

Merci pour ta volonté. JE pense on pourra integrer les resultats s’ils arrive mardi matin au plus tard.

Cordialement
Axel

beller · October 5, 2021, 1:34pm

Bon, j’essaye tout de même, cela me fera entendre vos progrès !
Merci de partager ces tests ici…

roebel · October 17, 2021, 6:07pm

Merci Greg, j’ai gardé la porte ouvert jusqu’ au dernier moment.

Les résultats du teste du Vocodeur Neuronal ont été assez satisfaisant. Si ca vous intéresse nous avons pré-publié l’article sur arXiv. Une démo avec les différents exemples qui étaient dans le test est maintenant disponible ici Multi-Band Excited WaveNet Demo.

Pour le teste concernant la transposition les résultat ne sont pas encore aussi bien. Les sons organisé par transposition effectué sont disponible ici An auto-encoder for neural pitch transformations.

Même si dans notre teste la technique étudié a été évalué mieux que la technique utilisé dans ISiS il me semble que pour une intégration dans ISiS ça doit encore être amélioré.

Merci pur votre aide en tous cas.