Intelligence artificielle

Microsoft Research utilise l'apprentissage par transfert pour entraîner des drones autonomes dans le monde réel

Microsoft Research utilise l'apprentissage par transfert pour entraîner des drones autonomes dans le monde réel


La nouvelle recherche utilise des politiques apprises dans des simulations dans des environnements de drones réels.

Source: https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

Les boucles Perception-Action sont au cœur de la plupart de nos activités de la vie quotidienne. Inconsciemment, notre cerveau utilise des entrées sensorielles pour déclencher des actions motrices spécifiques en temps réel et cela devient une activité continue qui dans toutes sortes d'activités, du sport à la télévision. Dans le contexte de l'intelligence artificielle (IA), les boucles perception-action sont la pierre angulaire des systèmes autonomes tels que les véhicules autonomes. Alors que des disciplines telles que l'apprentissage par imitation ou l'apprentissage par renforcement ont certainement progressé dans ce domaine, la génération actuelle de systèmes autonomes est encore loin de la compétence humaine pour prendre ces décisions directement à partir de données visuelles. Récemment, des chercheurs en IA de Microsoft ont publié un article proposant une méthode d'apprentissage par transfert pour apprendre des politiques de perception-action dans un environnement simulé et appliquer les connaissances pour piloter un drone autonome.

Le défi d'apprendre quelles actions entreprendre en fonction de l'apport sensoriel n'est pas tant lié à la théorie qu'aux implémentations pratiques. Ces dernières années, des méthodes telles que l'apprentissage par renforcement et l'apprentissage par imitation se sont révélées extrêmement prometteuses dans ce domaine, mais elles restent limitées par le besoin de grandes quantités de données du monde réel étiquetées et difficiles à collecter. Les données simulées, en revanche, sont faciles à générer, mais ne rendent généralement pas les comportements sûrs dans divers scénarios réels. Être capable d'apprendre des politiques dans des environnements simulés et d'extrapoler les connaissances aux environnements du monde réel reste l'un des principaux défis des systèmes autonomes. Pour faire avancer la recherche dans ce domaine, la communauté de l'IA a créé de nombreuses références pour les systèmes autonomes du monde réel. L'un des plus difficiles est connu comme la course de drones à la première personne.

Du point de vue de l'apprentissage en profondeur, l'un des plus grands défis de la tâche de navigation est la nature hautement dimensionnelle et la variabilité drastique des données d'image d'entrée. La réussite de la tâche nécessite une représentation invariante à l'apparence visuelle et robuste aux différences entre simulation et réalité. De ce point de vue, les agents autonomes qui peuvent opérer dans des environnements tels que les courses FPV doivent être formés aux données simulées qui apprennent les politiques qui peuvent être utilisées dans des environnements du monde réel.

Une grande partie de la recherche pour résoudre des défis tels que les courses FPV s'est concentrée sur l'augmentation d'un drone avec toutes sortes de capteurs qui peuvent aider à modéliser l'environnement environnant. Au lieu de cela, l'équipe Microsoft Research visait à créer un tissu informatique, inspiré de la fonction d'un cerveau humain, pour cartographier directement les informations visuelles afin de corriger les actions de contrôle. Pour le prouver, Microsoft Research a utilisé un quadrotor très basique avec une caméra frontale. Tout le traitement se fait entièrement à bord avec un ordinateur Nvidia TX2, avec 6 cœurs de processeur et un GPU intégré. Une caméra de suivi Intel T265 standard fournit l'odométrie et le traitement d'image utilise le cadre Tensorflow. Le capteur d'image est une caméra USB avec 830 FOV horizontal, et nous réduisons les images originales à la dimension 128 x 72.

Source: https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/
Source: https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

Pour combler l'écart entre la simulation et la réalité, Microsoft Research s'est appuyé sur l'apprentissage intermodal qui utilise à la fois des données simulées étiquetées et non étiquetées ainsi que des ensembles de données du monde réel. L'idée est de se former aux données simulées de haute dimension et d'apprendre une représentation de politique de basse dimension qui peut être utilisée efficacement dans des scénarios du monde réel. Pour ce faire, Microsoft Research a mis à profit le

Cadre d'encodage variationnel modal (CM-VAE) qui utilise une paire codeur-décodeur pour chaque modalité de données, tout en restreignant toutes les entrées et sorties vers et depuis un seul espace latent. Cette méthode permet d'incorporer des modalités de données étiquetées et non étiquetées dans le processus d'apprentissage de la variable latente.

L'application de cette technique aux environnements FPV nécessite différentes modalités de données. La première modalité de données a considéré l'entrée brute du capteur sans étiquette (images FPV), tandis que la seconde a caractérisé l'état des informations directement pertinentes pour la tâche à accomplir. Dans le cas des courses de drones, la deuxième modalité correspond à la pose relative de la porte suivante définie dans le cadre de coordonnées du drone. Chaque modalité de données est traitée par une paire codeur-décodeur utilisant le cadre CM-VAE qui permet l'apprentissage de politiques de faible dimension.

L'architecture de l'agent de course FPV autonome est composée de deux étapes principales. La première étape se concentre sur l'apprentissage d'une représentation d'état latent tandis que les objectifs de la deuxième étape sont d'apprendre une politique de contrôle opérant sur cette représentation latente. Le premier composant ou architecture de système de commande reçoit des images de caméra monoculaire en entrée et code la pose relative de la prochaine porte visible ainsi que des caractéristiques d'arrière-plan dans une représentation latente de faible dimension. Cette représentation latente est ensuite introduite dans un réseau de contrôle, qui émet une commande de vitesse, qui est ensuite traduite en commandes d'actionneur par le contrôleur de vol de l'UAV.

Source: https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

La réduction de la dimensionnalité est un élément important de l'approche de Microsoft Research. Dans les courses FPV, la technique de réduction efficace de la dimensionnalité doit être fluide, continue et cohérente et être robuste aux différences d'informations visuelles entre les images simulées et réelles. Pour ce faire, l'architecture intègre une méthode CM-VAE dans laquelle chaque échantillon de données est codé dans un seul espace latent qui peut être décodé en images, ou transformé en une autre modalité de données telle que les poses de portes par rapport à l'UAV.

Source: https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

L'architecture obtenue permet de réduire les représentations dimensionnelles élevées basées sur 27 468 variables aux 10 variables les plus essentielles. Bien qu'elles n'utilisent que 10 variables pour coder les images, les images décodées ont fourni une description détaillée de ce que le drone peut voir à l'avance, y compris toutes les tailles et emplacements possibles des portes, et différentes informations de fond.

Source: https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

Microsoft Research a testé le drone autonome dans toutes sortes d'environnements de course FPV, y compris certains avec des conditions visuellement difficiles extrêmes: a) à l'intérieur, avec un sol bleu contenant des bandes rouges avec le même ton rouge que les portes, et Fig.8 bc) pendant les conditions difficiles neige. La vidéo suivante montre comment le drone autonome a réussi à relever tous les défis en utilisant des représentations d'images de dimension inférieure.

Même si le travail de Microsoft Research était spécialisé dans les scénarios de course FPV, les principes peuvent être appliqués à de nombreux autres scénarios perception-action. Ce type de technique peut aider à accélérer le développement d'agents autonomes qui peuvent être formés dans des environnements simulés. Pour encourager la recherche, Microsoft open source le code des agents FPV dans GitHub.

Afficher plus

SupportIvy

SupportIvy.com : Un lieu pour partager le savoir et mieux comprendre le monde. Meilleure plate-forme de support gratuit pour vous, Documentation &Tutoriels par les experts.

Articles similaires

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bouton retour en haut de la page
Fermer