Technologie Média

Récupérer les «dimensions perdues» des images et vidéos

Technologie 16 octobre 2019

récupérer-les-dimensions-perdues-des-videos-ou-images
Des chercheurs du MIT ont mis au point un modèle qui récupère les données perdues à partir d’images et de vidéos qui ont été « réduites » en dimensions inférieures.

Recréer les dimensions perdues

Ce modèle pourrait être utilisé pour recréer des vidéos à partir d’images floues par le mouvement ou de nouveaux types de caméras qui capturaient les mouvements d’une personne dans les coins, mais seulement sous forme de lignes unidimensionnelles vagues.
Bien que d’autres essais soient nécessaires, les chercheurs pensent que cette approche pourrait un jour être utilisée pour convertir des images médicales d’un scanne 2D en images 3D plus informatifs – ce qui pourrait profiter à l’imagerie médicale dans les pays les plus pauvres.
« Dans tous ces cas, les données visuelles ont une dimension – dans le temps ou dans l’espace – qui est complètement perdue », explique Guha Balakrishnan, postdoctorant au Laboratoire d’informatique et d’intelligence artificielle (CSAIL) et premier auteur d’un article décrivant ce modèle, qui sera présenté la semaine prochaine au congrès international sur la vision par ordinateur. « Si nous retrouvons cette dimension perdue, ce modèle peut avoir beaucoup d’applications importantes. »
Les données visuelles capturées réduisent souvent les données de multiples dimensions du temps et de l’espace en une ou deux dimensions, appelées « projections ». Les rayons X, par exemple, réduisent les données tridimensionnelles des structures anatomiques en une image plane. Ou, considérez une exposition longue d’étoiles se déplaçant dans le ciel : les étoiles, dont la position change avec le temps, apparaissent sous forme de stries floues dans la photo.

Un réseau neuronal pour « apprendre » des motifs 

De même, les « caméras de coin« , récemment inventées au MIT, détectent les personnes qui se déplacent dans les coins. Cela pourrait être utile, par exemple, pour les pompiers qui trouvent des gens dans des immeubles en feu. Mais ces caméras ne sont pas vraiment conviviales. Actuellement, elles ne produisent que des projections qui ressemblent à des lignes floues et sinueuses, correspondant à la trajectoire et à la vitesse d’une personne.
Les chercheurs ont inventé un modèle de « déprojection visuelle » qui utilise un réseau neuronal pour « apprendre » des motifs qui associent des projections de faible dimension à leurs images et vidéos originales de haute dimension. Compte tenu des nouvelles projections, ce modèle utilise ce qu’il a appris pour recréer toutes les données originales d’une projection.
Dans le cadre d’expériences, ce modèle a synthétisé des images vidéo précises qui montrent des personnes qui marchent, en extrayant de l’information de lignes unidimensionnelles semblables à celles produites par les caméras de coin.

Des indices en pixels

Cette recherche a commencé comme un « problème d’inversion » pour recréer le mouvement qui provoque le flou de mouvement dans la photographie à exposition longue. Dans les pixels d’une projection, il existe des indices sur la source à haute dimension.
Les appareils photo numériques, par exemple, qui capturent des prises de vue à exposition longue, regroupent les photons sur une certaine période de temps pour chaque pixel. En capturant le mouvement d’un objet au fil du temps, l’appareil prendra la valeur moyenne des pixels capturant le mouvement. Ensuite, il applique ces valeurs moyennes aux hauteurs et largeurs correspondantes d’une image fixe, ce qui crée les traînées floues caractéristiques de la trajectoire de l’objet. En calculant quelques variations dans l’intensité des pixels, ce mouvement peut théoriquement être recréé.
Comme les chercheurs l’ont compris, ce problème se pose dans de nombreux domaines : les rayons X, par exemple, capturent la hauteur, la largeur et la profondeur des structures anatomiques, mais ils utilisent une technique similaire de calcul de la moyenne des pixels pour réduire la profondeur dans une image 2D. Les caméras d’angle – inventées en 2017 par Freeman capturent des signaux lumineux réfléchis autour d’une scène cachée qui transportent des informations bidimensionnelles sur la distance d’une personne aux murs et aux objets. La technique de calcul de la moyenne des pixels réduit ensuite ces données en une vidéo unidimensionnelle.
Les chercheurs ont construit un modèle général, basé sur un réseau neuronal convolutifs (CNN) – un modèle d’apprentissage machine qui est devenu un moteur pour les tâches de traitement d’images – qui capture des indices sur toutes les dimensions perdues en pixels moyens.

Synthétiser les signaux

Les chercheurs ont nourri le CNN de milliers de paires de projections et de leurs sources à haute dimension, appelées « signaux ». Le CNN apprend les modèles de pixels dans les projections qui correspondent à ceux des signaux. L’alimentation du CNN est un cadre appelé  » auto-codeur variationnel « , qui évalue dans quelle mesure les sorties du CNN correspondent à ses entrées selon une certaine probabilité statistique.
À partir de là, le modèle apprend un « espace » de tous les signaux possibles qui auraient pu produire une projection donnée. Cela crée, par essence, un type de plan pour passer d’une projection à tous les signaux d’appariement possibles.
Lorsque des projections inédites lui sont montrées, ce modèle note les motifs des pixels et suit les plans de tous les signaux possibles qui auraient pu produire cette projection. Ensuite, il synthétise de nouvelles images qui combinent toutes les données de la projection et toutes les données du signal. Cela recrée le signal de haute dimension.
Dans le cadre d’une expérience, les chercheurs ont recueilli un ensemble de données de 35 vidéos montrant 30 personnes marchant dans une zone donnée. Ils ont regroupé toutes les images en projections qu’ils ont utilisées pour former et tester leur modèle.
À partir d’un ensemble de six projections, ce modèle a recréé avec précision 24 images de la démarche de la personne, jusqu’à la position de ses jambes et la taille alors qu’elle marchait vers ou loin de la caméra. Ce modèle semble apprendre, par exemple, que les pixels qui deviennent plus foncés et plus larges avec le temps correspondent à une personne qui se rapproche de la caméra.

Ce modèle pourrait récupérer les dimensions perdues des radiographies

« C’est presque comme par magie que nous sommes en mesure de retrouver ces détails », dit Balakrishnan. Les chercheurs n’ont pas testé leur modèle sur des images médicales. Mais ils collaborent maintenant avec leurs collègues de l’Université Cornell pour récupérer des informations anatomiques 3D à partir d’images médicales 2D, comme les radiographies, ce qui pourrait permettre une imagerie médicale plus détaillée dans les pays les plus pauvres.
Les médecins préfèrent surtout les scanneurs 3D, comme ceux qui sont capturés par la tomodensitométrie, parce qu’ils contiennent beaucoup plus d’informations médicales. Mais les tomodensitogrammes sont généralement difficiles et coûteux à obtenir. « Si nous pouvions convertir les rayons X en tomodensitogrammes, cela changerait la donne », dit Balakrishnan. « Vous pourriez prendre une radio et la faire passer à travers notre algorithme et voir toutes les informations perdues. »
Cette recherche a été prépubliée dans arXiv.
Source : MIT
Crédit photo : Pixabay