Microsoft a présenté un outil de synthèse vocale qui n’a besoin que d’un tout petit échantillon sonore pour se faire passer pour vous. Son nom : VALL-E. Le principe tient en une phrase un peu vertigineuse : donnez-lui trois secondes d’enregistrement d’une voix, et il sait ensuite générer n’importe quelle phrase comme si la personne l’avait prononcée elle-même. Pas seulement les mots, mais aussi le timbre, les intonations, et même l’état émotionnel de celui qui parle.
Pour arriver à ce résultat, les chercheurs ne se sont pas contentés d’imiter mécaniquement un son. VALL-E repose sur ce que Microsoft appelle un modèle de langage de codec neuronal. Concrètement, l’IA prend l’échantillon de voix, le découpe en petites unités numériques grâce à un système baptisé Encodec, puis s’appuie sur l’apprentissage automatique pour reconstruire une parole qui colle au plus près de la voix d’origine. Là où la plupart des outils de synthèse vocale repartaient d’une voix de synthèse neutre, celui-ci cherche à reproduire une signature vocale précise.
Ce niveau de réalisme a un prix : celui de l’entraînement. Microsoft a nourri son modèle avec environ 60 000 heures de discours en anglais, lus par un grand nombre de locuteurs différents. C’est cette montagne de données qui lui permet de combler les blancs et de deviner à quoi devrait ressembler la voix sur des mots qu’elle n’a jamais prononcés dans l’échantillon de départ. Le résultat n’est pas parfait partout, mais il est suffisamment convaincant pour brouiller les repères.
Les usages imaginables sont nombreux et plutôt séduisants sur le papier. On pense au doublage, à la lecture automatique de textes avec une vraie voix humaine, à l’édition de paroles déjà enregistrées, ou encore à des assistants vocaux personnalisés. Couplé à un modèle générateur de texte comme GPT-3, VALL-E pourrait produire des contenus audio entiers à partir d’un simple texte, sans passer par un studio ni par un comédien.
Pour capturer votre vraie voix avec un rendu pro :
Microphone USB RODE Podcaster → voir sur Amazon
Lien affilié Amazon. En tant que Partenaire Amazon, je réalise un bénéfice sur les achats remplissant les conditions requises.
Sauf que la même technologie ouvre grand la porte aux usages malhonnêtes. Reproduire une voix à partir de trois secondes, c’est aussi offrir un outil idéal à ceux qui veulent monter des arnaques téléphoniques, fabriquer de faux messages vocaux ou alimenter des campagnes de désinformation. On parle déjà beaucoup des deepfakes vidéo, mais l’équivalent audio est tout aussi inquiétant, et souvent plus difficile à repérer pour une oreille non avertie.
Microsoft en est conscient et n’a d’ailleurs pas mis VALL-E entre toutes les mains. L’outil est resté au stade de la recherche, sans diffusion publique, justement parce que les questions de consentement et de détection des voix synthétiques ne sont pas réglées. Comment prouver qu’un message vocal est authentique ? Comment empêcher qu’on imite une personne sans son accord ? Ces interrogations restent ouvertes.
VALL-E illustre bien le grand écart de l’époque : une prouesse technique impressionnante d’un côté, et de l’autre, un risque concret pour la confiance qu’on accorde encore à une simple voix au bout du fil.
Crédit photo : DR
