Une IA synchronise en temps réel une traduction
Une intelligence artificielle peut ajuster les séquences vidéo en temps réel pour que les gens aient l’air de se synchroniser avec n’importe quel son. Prajwal Renukanand, de l’Institut international de technologie de l’information en Inde, et ses collègues ont développé un algorithme qui peut rapidement modifier une séquence vidéo d’une personne qui parle ou chante.
Une IA ajuste une vidéo en temps réel
Les chercheurs pensent que l’IA pourrait être utilisée pour modifier les vidéos de manière à ce que les séquences semblent correspondre au son de différentes langues, comme dans les films doublés. L’équipe a formé cet algorithme de synchronisation sur de courts clips vidéo, en le chargeant de marquer la forme des lèvres des personnes pendant qu’elles parlent.
Cet algorithme est un réseau antagoniste génératif (GAN) constitué d’une IA concurrentes. Pour une séquence sonore et vidéo donnée d’une personne qui parle, une IA – le générateur – était nécessaire pour ajuster l’image des lèvres de la personne afin qu’elle corresponde aux mots prononcés.
Deux autres IA, les discriminateurs, devaient distinguer si la séquence était vraie ou fausse. L’un des discriminateurs devait déterminer si les formes de la bouche étaient réalistes, en pénalisant le générateur en cas de décalage entre le son et les mouvements des lèvres. Le second a effectué un contrôle visuel de la qualité, en notant tout problème ou artefact visuel non naturel autour de la bouche.
Le générateur est devenu plus habile à produire des séquences réalistes sur plusieurs cycles, jusqu’à ce que les discriminateurs ne puissent plus faire la différence entre le vrai et le faux. « Pour synchroniser une vidéo d’une minute, il fallait environ deux minutes », explique Renukanand. La plupart du temps nécessaire à l’algorithme pour détecter le visage d’une personne dans la vidéo, tandis que la synchronisation se fait en temps réel.
Comme cet algorithme a été formé sur des visages humains, il est actuellement plus précis sur les séquences vidéo de personnes que sur les personnages générés par ordinateur, explique M. Renukanand. Il fonctionne également mieux si le son fourni est la voix d’une personne réelle, plutôt qu’un discours généré par ordinateur.
Pour synchroniser les personnages CGI
Les chercheurs espèrent utiliser cet algorithme pour réaliser des contenus vidéo doublés dans différentes langues, et aussi à l’avenir pour augmenter la facilité de synchronisation des personnages CGI avec la voix des acteurs.
Cette recherche a été pré-publiée dans arXiv.
Source : New Scientist
Crédit photo : Pixabay