Une IA de conversion du texte peut créer des sons et de la musique
Un modèle d’intelligence artificielle développé par Meta, propriétaire de Facebook, peut générer des sons à partir d’une invite textuelle. AudioGen, une IA mise au point par Meta et l’Université hébraïque de Jérusalem, transforme des invites textuelles telles que « siffler avec le vent qui souffle » en un fichier audio qui ressemble au scénario décrit.
Une IA développé par Méta appelée AudioGen
AudioGen utilise un modèle d’IA linguistique pour l’aider à comprendre la chaîne de texte qui lui est donnée, puis isole les parties pertinentes de ce texte. Ces parties sont ensuite utilisées par l’IA pour générer des bruits – appris à partir de 10 ensembles de données de sons courants, totalisant environ 4000 heures de données d’entraînement.
À partir d’un petit extrait de musique, ce modèle peut également générer un morceau de musique plus long. « Il peut générer une grande variété de sons : des sons ambiants, des événements sonores et leurs compositions », explique Felix Kreuk de Meta AI.
Ce modèle linguistique élimine les mots superflus, tels que les prépositions, afin d’identifier les éléments d’une scène susceptibles de générer un son. Par exemple, « un chien qui aboie dans un parc » devient « chien, aboyer, parc ». Un modèle séparé génère ensuite le son en utilisant ces éléments-clés.
Une qualité globale des sons de 70 %
La qualité du son créé, et la précision avec laquelle il capture l’invite textuelle, ont été mesurées par des personnes employées par la plateforme Mechanical Turk d’Amazon. La qualité globale des sons générés par AudioGen a été évaluée à environ 70 %, contre 65 % pour un projet concurrent, Diffsound.
« Je pense que cela fonctionne très bien », déclare Mark Plumbley, de l’université du Surrey (Royaume-Uni), qui voit des utilisations potentielles dans les jeux vidéo. De même, M. Plumbley entrevoit un avenir dans lequel les partitions de télévision et de cinéma seront créées à l’aide de modèles génératifs.
Pour l’instant, AudioGen ne peut pas faire la différence entre « un chien aboie puis un enfant rit » et « un enfant rit puis un chien aboie », ce qui signifie qu’il ne peut pas séquencer les sons dans le temps. « Nous travaillons à la mise en œuvre de meilleures techniques d’augmentation des données pour surmonter ces obstacles », explique M. Kreuk.
D’autres problèmes peuvent se poser avec des modèles de ce type. M. Plumbley se demande qui détiendrait les droits sur le son généré, ce qui serait important si les sons produits étaient utilisés à des fins commerciales.
Cela n’est pas encore parfait
Le degré de réalisme des sons est également sujet à débat. « Nous voyons de plus en plus d’applications de la transformation de séquence à séquence – comme le texte à l’image, le texte à la vidéo et maintenant le texte à l’audio – et elles partagent toutes le même manque de base physique », explique Roger Moore de l’université de Sheffield, au Royaume-Uni. Cela signifie que le résultat de ces modèles peut être onirique, plutôt que d’être fortement lié à la réalité.
Tant que cela ne changera pas et que les modèles génératifs ne seront pas capables de représenter avec précision ce qui se passe dans la réalité, les médias qu’ils produisent seront toujours dépourvus d’utilité, affirme Roger Moore. « Ce que nous voyons maintenant, ce sont les premiers pas dans cette direction en utilisant des ensembles de données massives, mais nous avons encore beaucoup de chemin à parcourir », ajoute-t-il.
Cette recherche a été publiée dans arXiv.
Source : New Scientist
Crédit photo : Shutterstock