L’IA formée sur YouTube et les podcasts parle de manière naturelle
Selon l’évaluation d’une intelligence artificielle (IA) entraînée à partir de paroles extraites de YouTube et de podcasts, le fait de générer des paroles avec des rythmes et des pauses différents les rend plus proches de l’humain.
Une IA génère des paroles avec des rythmes
La plupart des systèmes de synthèse vocale à base d’intelligence artificielle sont entraînés sur des ensembles de données de paroles jouées, ce qui peut donner un son guindé et unidimensionnel. Un discours plus naturel donne souvent un large éventail de rythmes et de modèles pour véhiculer des significations et des émotions différentes.
Alexander Rudnicky, de l’université Carnegie Mellon de Pittsburgh (Pennsylvanie), et ses collègues ont utilisé près de 900 heures de conversation provenant de YouTube et de podcasts pour former une IA à la synthèse vocale.
« Cela permet de synthétiser la parole d’une manière qui reflète mieux la façon dont les humains parlent », explique M. Rudnicky. L’utilisateur choisit la voix que l’IA utilisera en lui fournissant un échantillon de la parole d’une personne à imiter, comme l’enregistrement ci-dessous.
Exemple de voix:
Le modèle découpe les nouvelles données vocales en morceaux distincts, puis utilise un réseau neuronal pour produire de nouvelles vocalisations en prédisant quel morceau de parole – ou silence – est le plus susceptible de venir ensuite dans une séquence. Cette méthode est similaire à celle utilisée par les générateurs de texte comme ChatGPT.
Cela permet au modèle de prendre en compte les messages écrits qui lui sont donnés, tels que « yeah so ah all of a i conferences are open to anyone who is able of ah you know make you know paying for the trip and the ticket », et de générer un discours en utilisant les modèles caractéristiques de la voix choisie, comme dans l’exemple ci-dessous.
Discours généré par l’IA :
Des personnes recrutées sur la plateforme de crowdsourcing Amazon Mechanical Turk ont jugé le naturel du discours artificiel sur une échelle de cinq points, allant de 1 (mauvais) à 5 (excellent), lui attribuant une note moyenne de 3,89. C’est mieux que d’autres voix créées par l’IA, la plus proche ayant obtenu 3,84. La voix humaine réelle a reçu une note de 4,01.
En produisant la vocalisation petit à petit, ce modèle est plus rapide que d’autres modèles qui génèrent des séquences entières en une seule fois, ce qui pourrait le rendre plus adapté à des applications telles que les chatbots audio ou les services de diffusion en continu.
Bien que ce modèle puisse produire une parole assez naturelle, il ne s’agit encore que d’une preuve de concept, précise M. Rudnicky, et il pourrait être grandement amélioré en l’entraînant sur un plus grand nombre d’heures de données.
Ce n’est pas totalement humain
« Il est clair qu’ils ne sont pas encore parvenus à un son totalement humain, mais ils vont tout à fait dans la bonne direction », déclare David Beavan, de l’Institut Alan Turing de Londres.
Selon David Beavan, la capacité à reproduire les schémas de la parole humaine et la manière dont ils changent en fonction des circonstances pourrait être utile. Certaines situations exigent certaines façons de parler, par exemple lorsque vous venez de vous réveiller le matin et que vous apprécieriez probablement une voix d’IA plus sensible, ou lorsqu’il s’agit d’une situation d’urgence et que vous souhaiteriez une voix qui transmette un sentiment d’urgence, ajoute-t-il.
Cette recherche a été publiée dans arXiv
Source : New Scientist
Crédit photo : Shutterstock