Technologie Média

Une IA imite la façon dont les humains identifient les objets

Ordinateur 18 décembre 2018

IA-vision-par-ordinateur
Les ingénieurs de l’UCLA et de l’Université de Stanford ont fait la démonstration d’un système informatique capable de découvrir et d’identifier les objets réels qu’il “voit” en se basant sur la même méthode d’apprentissage visuel que les humains utilisent.

L’IA reproduit la façon dont l’humain voit son environnement

Ce système est une avancée dans un type de technologie appelée “vision par ordinateur”, qui permet aux ordinateurs de lire et d’identifier des images. Il pourrait s’agir d’une étape importante vers des systèmes généraux d’intelligence artificielle — des ordinateurs qui apprendraient par eux-mêmes, seraient intuitifs, prendraient des décisions basées sur le raisonnement et interagiraient avec les humains d’une manière beaucoup plus humaine.
Bien que les systèmes de vision par ordinateur actuels de l’IA soient de plus en plus puissants et efficaces, ils sont axés sur des tâches précises, ce qui signifie que leur capacité d’identifier ce qu’ils voient est limitée par le nombre de fois où ils ont été formés et programmés par les humains.
Même les meilleurs systèmes de vision par ordinateur d’aujourd’hui ne peuvent pas créer une image complète d’un objet après avoir vu seulement certaines parties de celui-ci et les systèmes peuvent être trompés en regardant l’objet dans un environnement inconnu. Les ingénieurs visent à fabriquer des systèmes informatiques ayant ces capacités — tout comme les humains peuvent comprendre qu’ils regardent un chien, même si l’animal se cache derrière une chaise et que seules ses pattes et sa queue sont visibles.
Les humains, bien sûr, peuvent aussi facilement déduire où la tête du chien et le reste de son corps se trouvent, mais cette capacité échappe encore à la plupart des systèmes contrôlés par une intelligence artificielle.

L’approche est composée de trois grandes étapes

Les systèmes actuels de vision par ordinateur ne sont pas conçus pour apprendre par eux-mêmes. Ils doivent être formés généralement par l’examen de milliers d’images dans lesquelles les objets qu’ils essaient d’identifier sont étiquetés pour eux. Les ordinateurs, bien sûr, ne peuvent pas non plus expliquer leur raison d’être pour déterminer ce que l’objet d’une photo représente: les systèmes basés sur l’IA ne construisent pas une image interne ou un modèle de bon sens des objets appris comme le font les humains.
la nouvelle méthode de ces ingénieurs, décrite dans les actes de la National Academy of Sciences, permet de contourner ces lacunes.
L’approche est composée de trois grandes étapes. Tout d’abord, le système divise une image en petits morceaux, que les chercheurs appellent “viewlets ». »Deuxièmement, l’ordinateur apprend comment ces petits morceaux s’assemblent pour former l’objet en question. Enfin, il examine quels autres objets se trouvent dans les environs et si l’information sur ces objets est pertinente pour décrire et identifier l’objet principal.

reconnaissance-de-parties-image Le système de «vision par ordinateur» développé par l’UCLA peut identifier des objets sur la base d’aperçus partiels, comme en utilisant les extraits d’une photo d’une moto.

Internet aide ce système de vision par ordinateur

Pour aider ce nouveau système à mieux “apprendre”, comme les humains, les ingénieurs ont décidé de le plonger dans une réplique internet de l’environnement où les humains vivent.
« Heureusement, internet fournit deux choses qui aident ce système de vision par ordinateur inspiré par le cerveau à apprendre de la même manière que les humains”, a déclaré Vwani Roychowdhury, professeur d’ingénierie électrique et informatique à l’UCLA et chercheur principal de l’étude. “On a une mine d’images et de vidéos qui illustrent les mêmes types d’objets. La seconde est que ces objets sont présentés de plusieurs points de vue et qu’ils sont placés dans différents types d’environnements.”
Pour élaborer le cadre d’apprentissage, les chercheurs ont puisé dans la psychologie cognitive et les neurosciences.
Dès le début, nous apprenons ce qu’est quelque chose parce que nous voyons de nombreux exemples, dans de nombreux contextes », a déclaré Roychowdhury. «Cet apprentissage contextuel est une caractéristique-clé de notre cerveau et nous aide à construire des modèles robustes d’objets qui font partie d’une vision du monde intégrée où tout est connecté de manière fonctionnelle.»
Les chercheurs ont testé leur système avec environ 9 000 images, chacune montrant des personnes et d’autres objets. La plate-forme a pu construire un modèle détaillé du corps humain sans aide extérieure ni étiquetage des images.

Ce système fonctionnait mieux ou aussi  bien que les systèmes traditionnels

Les ingénieurs ont effectué des tests similaires en utilisant des images de motos, de voitures et d’avions. Dans tous les cas, leur système fonctionnait mieux ou du moins aussi bien que les systèmes de vision par ordinateur traditionnels, qui ont été mis au point après de nombreuses années de formation.
L’auteur principal de cette étude est Thomas Kailath, professeur émérite d’ingénierie électrique à Stanford, qui a été conseiller-doctorant de Roychowdhury dans les années 1980. Parmi les autres auteurs il y a Lichao Chen (actuellement ingénieur de recherche chez Google) et Sudhir Singh (qui a fondé une entreprise qui fabrique des compagnons d’enseignement robotique pour enfants).
Singh, Roychowdhury et Kailath ont déjà travaillé ensemble pour développer l’un des premiers moteurs de recherche visuels automatisés pour la mode, le StileEye désormais fermé, qui a donné lieu à certaines des idées de base de cette nouvelle recherche.
Source : UCLA
Crédit photo sur Unsplash : Daniil Kuželev