Un chien robot apprend à marcher sur un terrain difficile en 20 minutes
Un chien robot peut apprendre à marcher sur des terrains inconnus et difficiles à maîtriser, tels que l’herbe, les écorces et les sentiers de randonnée, en 20 minutes seulement, grâce à un algorithme d’apprentissage automatique.
Il utilise un algorithme d’apprentissage automatique
Sergey Levine, de l’université de Californie à Berkeley, et ses collègues ont démontré qu’un robot utilisant un type d’apprentissage automatique appelé apprentissage par renforcement profond, peut trouver comment marcher en 20 minutes environ dans plusieurs environnements différents, tels qu’une pelouse, une couche d’écorce, un matelas en mousse à mémoire de forme et un sentier de randonnée.
Ce robot utilise un algorithme appelé Q-learning, qui ne nécessite pas de modèle fonctionnel du terrain cible. Ces algorithmes d’apprentissage automatique sont généralement utilisés dans les simulations. « Nous n’avons pas besoin de comprendre comment la physique d’un environnement fonctionne réellement, il suffit de placer ce robot dans un environnement et de l’allumer », explique Levine.
Au lieu que d’utiliser un modèle fonctionnel, ce robot reçoit une certaine récompense pour chaque action qu’il effectue, en fonction de son degré de réussite par rapport à des objectifs prédéfinis. Il répète ce processus en permanence en comparant ses succès précédents jusqu’à ce qu’il apprenne à marcher.
Affiner le système de récompense du modèle
« Dans un certain sens, c’est très similaire à la façon dont les gens apprennent », explique Ilya Kostrikov, membre de l’équipe, également à l’université de Californie à Berkeley. Bien que ce robot puisse apprendre à marcher sur chaque nouvelle surface qu’il rencontre, M. Levine indique que l’équipe devra affiner le système de récompense du modèle, pour que ce robot puisse acquérir d’autres compétences.
Selon Chris Watkins, de l’université Royal Holloway de Londres, il est difficile de faire fonctionner l’apprentissage par renforcement profond dans le monde réel, en raison de la quantité de variables et de données différentes qui doivent interagir en même temps.
Il peut apprendre avec très peu d’expérience
« Je pense que c’est très impressionnant », déclare Watkins. « Je suis honnêtement un peu surpris que l’on puisse utiliser quelque chose d’aussi simple que le Q-learning pour apprendre des compétences, comme marcher sur différentes surfaces avec si peu d’expérience et si rapidement en temps réel. »
Cette recherche a été publiée dans arXiv.
Source : New Scientist
Crédit photo : Capture d’écran (vidéo)