Intelligence artificielle

Mes 10 meilleurs articles Deep RL de 2019

Mes 10 meilleurs articles Deep RL de 2019


Tendances clés et faits saillants d'une année fascinante

2019 - Quelle année pour la recherche Deep Reinforcement Learning (DRL) - mais aussi ma première année en tant que doctorant dans le domaine. Comme chaque novice au doctorat, j'ai passé beaucoup de temps à lire des articles, à mettre en œuvre des idées mignonnes et à ressentir les grandes questions. Dans cet article de blog, je veux partager certains de mes points forts de la littérature 2019.

Afin de donner à ce poste un peu plus de structure, j'ai décidé de regrouper les articles en 5 catégories principales et j'ai sélectionné un gagnant ainsi qu'un finaliste. Sans plus tarder, voici mon top 10 des papiers DRL de 2019.

Avertissement: Je n'ai pas lu tous les articles DRL de 2019 (ce qui serait tout un défi). Au lieu de cela, j'ai essayé de distiller certains récits clés ainsi que des histoires qui m'excitent. C'est donc mon top 10 personnel - faites-moi savoir si j'ai raté votre journal préféré! 🤖🌏🧠

La plupart des réalisations révolutionnaires d'avant 2019 de Deep RL (par exemple, ATARI DQN, AlphaGo / Zero) ont été réalisées dans des domaines avec des espaces d'action limités, des espaces d'état entièrement observables ainsi que des échelles de temps d'attribution de crédit modérées. L'observabilité partielle, de longues échelles de temps ainsi que de vastes espaces d'action sont restés illusoires. 2019, en revanche, a prouvé que nous sommes loin d'avoir atteint les limites de la combinaison de l'approximation des fonctions avec l'optimisation des cibles basée sur les récompenses. Des défis tels que Quake III / «Capture the Flag», StarCraft II, Dota 2 ainsi que la manipulation robotique à la main ne mettent en évidence qu'un sous-ensemble de nouveaux domaines passionnants que le DRL moderne est capable de relever. J'ai essayé de choisir les gagnants pour la première catégorie en fonction des contributions scientifiques et pas seulement de la mise à l'échelle massive d'algorithmes déjà existants. Tout le monde - avec suffisamment de puissance de calcul - peut faire du PPO avec des tailles de lots folles.

🏆- AlphaStar de DeepMind (Vinyals et al, 2019)

«Et la première place dans la catégorie« Projets DRL à grande échelle »revient à…» (insérer une ouverture maladroite d’une enveloppe avec un microphone dans une main) + 🥁: projet AlphaStar de DeepMind dirigé par Oriol Vinyals. En lisant le document Nature, je me suis rendu compte que le projet est très basé sur la configuration FTW utilisée pour lutter contre Quake III: distribué acteur-apprenant IMPALA avec un puissant a priori qui induit une exploration structurée.

Alors que FTW utilise un a priori basé sur une hiérarchie temporelle de deux LSTM, AlphaStar utilise des démonstrations humaines. le démonstrations d'experts sont utilisés pour pré-former la politique de l'agent via la minimisation supervisée d'un objectif KL et fournissent une régularisation efficace pour s'assurer que le comportement d'exploration de l'agent n'est pas noyé par la malédiction de dimensionnalité de StarCraft. Mais ce n'est certainement pas tout. Les contributions scientifiques comprennent une version unique de auto-jeu fictif priorisé (alias La Ligue), une décomposition autorégressive de la politique avec des réseaux de pointeurs, mise à jour de la politique (UPGO - une évolution de la correction d'échantillonnage d'importance hors politique V-trace pour les espaces d'action structurés) ainsi que connexions dispersées (une forme spéciale d'intégration qui maintient la cohérence spatiale des entités dans la couche de carte). Personnellement, j'ai vraiment apprécié à quel point DeepMind et surtout Oriol Vinyals se soucient de la communauté StarCraft. Souvent, la science-fiction biaise notre perception en pensant que le ML est une course aux armements. Mais il est créé par l'homme et conçu pour améliorer notre qualité de vie.

2️⃣ - OpenAI’s Solving ’du Rubik’s Cube (OpenAI, 2019)

Il est bien connu que le Deep Learning est équipé pour résoudre des tâches qui nécessitent l'extraction et la manipulation de fonctionnalités de haut niveau. Par contre, la dextérité de bas niveau, une capacité qui nous est si naturelle, représente un défi majeur pour les systèmes actuels. C'est du moins ce que nous pensions. Ma contribution préférée aux efforts de dextérité d’OpenAI est Randomisation automatique de domaine (ADR): Un défi clé pour la formation des agents Deep RL sur les tâches robotiques est de transférer ce qui a été appris en simulation au robot physique. Les simulateurs ne capturent qu'un ensemble limité de mécanismes dans le monde réel et la simulation précise du frottement demande du temps de calcul. Temps qui est coûteux et pourrait autrement être utilisé pour générer plus de transitions (mais bruyantes) dans l'environnement. La randomisation de domaine a été proposée pour obtenir une politique robuste. Au lieu de former l'agent sur un environnement unique avec un seul ensemble d'hyperparamètres générant l'environnement, l'agent est formé sur une pléthore de configurations différentes. ADR vise à concevoir un programme d'études des complexités de l'environnement pour maximiser les progrès d'apprentissage. Par automatiquement en augmentant / diminuant la gamme de configurations d'environnement possibles en fonction des progrès d'apprentissage de l'agent, ADR fournit un programme pseudo-naturel pour l'agent. Étonnamment, cela (avec une politique basée sur PPO-LSTM-GAE) induit une forme de méta-apprentissage qui semble ne pas avoir atteint ses pleines capacités (au moment de la publication). Twitter a beaucoup parlé du mot «résoudre». L’algorithme n’a pas «complètement» appris de bout en bout quelle est la bonne séquence de mouvements pour résoudre un cube et ensuite faire la manipulation habile requise. Mais honnêtement, qu'est-ce qui est plus impressionnant: la manipulation manuelle avec une rareté de récompense folle ou l'apprentissage d'une séquence assez courte de transformations symboliques? Woj Zaremba a mentionné lors de l'atelier «Apprendre les compétences transférables» à NeurIPS 2019 qu'il leur avait fallu un jour pour «résoudre le cube» avec DRL et qu'il était possible de faire l'intégralité de la charade de bout en bout. C'est impressionnant.

Bien que les deux projets précédents soient des vitrines passionnantes du potentiel de DRL, ils sont ridiculement inefficaces en termes d'échantillons. Je ne veux pas connaître la facture d'électricité, OpenAI et DeepMind doivent payer. C'est une bonne chose qu'il y ait des gens qui travaillent à augmenter l'efficacité de l'échantillon (mais pas nécessairement le calcul) en hallucinant dans un espace latent. Traditionnellement, Le modèle RL a du mal à apprendre la dynamique des espaces d'états de grande dimension. Habituellement, une grande partie de la capacité du modèle devait être «gaspillée» sur des parties non pertinentes de l'espace d'état (par exemple les pixels les plus externes d'une trame ATARI), ce qui était rarement pertinent pour le succès. Plus récemment, il y a plusieurs propositions pour faire de la planification / imagination dans un espace abstrait (c.-à-d. Résumé MDP). Et ce sont mes deux approches préférées:

🏆- MuZero (Schrittwieser et al., 2019)

MuZero fournit la prochaine itération en supprimant les contraintes du projet AlphaGo / AlphaZero. Plus précisément, il surmonte l'approbation de la dynamique de transition. Ainsi, la boîte à outils d'approximation de la fonction générale MCTS + est ouverte à des paramètres de problème plus généraux tels que des problèmes basés sur la vision (tels que ATARI).

Le problème est réduit à une régression qui prédit des récompenses, des valeurs et des politiques et l'apprentissage d'une fonction de représentation h qui associe une observation à un espace abstrait, une fonction dynamique g ainsi qu'un indicateur de politique et de valeur F. La planification peut ensuite être effectuée en déroulant le modèle de dynamique déterministe dans l'espace latent compte tenu de l'observation intégrée. Comme auparavant, l'action suivante est sélectionnée en fonction du déploiement et de l'échantillonnage des SCTM proportionnellement au nombre de visites. L'architecture entière est formée de bout en bout à l'aide de BPTT et surpasse AlphaGo ainsi que les lignes de base ATARI dans le régime à faible échantillon. Fait intéressant, être capable de modéliser les récompenses, les valeurs et les politiques semble être tout ce qui est nécessaire pour planifier efficacement. Les auteurs déclarent que la planification dans l'espace latent ouvre également l'application des SCTM dans des environnements avec des transitions stochastiques - assez excitant si vous me le demandez.

2️⃣ - Dreamer (alias PlaNet 2.0; Hafner et al., 2019)

Dreamer, d'autre part, fournit une extension de principe aux espaces d'action continue qui est capable d'apprivoiser des tâches à long horizon basées sur des entrées visuelles de grande dimension. Le problème d'apprentissage de la représentation est décomposé en apprentissage itératif d'un modèle de représentation, de transition et de récompense. Le processus d'optimisation global est entrelacé par la formation d'une politique basée sur l'acteur-critique en utilisant des trajectoires imaginées. Le rêveur apprend en propageant des gradients «analytiques» des valeurs d'état apprises à travers les trajectoires imaginées d'un modèle mondial. Plus spécifiquement, les gradients stochastiques des retours à plusieurs étapes sont propagés efficacement par le biais de prédictions de réseau de neurones en utilisant l'astuce de re-paramétrisation. L'approche est évaluée dans DeepMind Control Suite et est capable de contrôler le comportement sur la base d'une entrée visuelle 64 x 64 x 3 dimensions. Enfin, les auteurs comparent également différentes méthodes d'apprentissage de la représentation (prédiction de récompense, reconstruction de pixels et reconstruction d'estimation / observation contrastive) et montrent que la reconstruction de pixels surpasse généralement l'estimation constrastive.

L'agence va au-delà du paradigme simpliste du contrôle central. Notre vie quotidienne est remplie de situations qui nécessitent de l'anticipation et de la théorie de l'esprit. Nous supposons constamment la réaction des autres personnes et réajustons nos croyances en fonction des preuves récentes. L'optimisation indépendante naïve via la descente de gradient est susceptible de rester coincée dans les optima locaux. Cela devient déjà apparent dans une société simpliste de formation à deux agents GAN. L'apprentissage conjoint induit une forme de non-stationnarité dans l'environnement qui est le principal défi du Multi-Agent RL (MARL). Les deux articles MARL sélectionnés mettent en évidence deux points centraux: passer du paradigme classique de la formation centralisée + du contrôle décentralisé à la formation de récompenses sociales et à l'utilisation à grande échelle et aux résultats inattendus du jeu personnel:

🏆 - L'influence sociale comme motivation intrinsèque (Jaques et al., 2019)

Bien que les approches traditionnelles de la motivation intrinsèque aient souvent été ponctuelles et définies manuellement, cet article introduit une notion causale de l'autonomisation sociale via des pseudo-récompenses résultant d'un comportement influent. L'idée clé est de récompenser les actions qui conduisent à un changement relativement plus élevé du comportement des autres agents.

Le concept d’influence est ainsi fondé sur une évaluation contrefactuelle: comment l’action d’un autre agent changerait-elle si j’avais agi différemment dans cette situation. La divergence KL entre les politiques conditionnelles marginales et celles des autres agents peut alors être considérée comme une mesure de l'influence sociale. Les auteurs testent la formulation de motivation intrinsèque proposée dans un ensemble de dilemmes sociaux séquentiels et fournissent des preuves d'une meilleure coordination émergente. De plus, en permettant une communication à valeur vectorielle, l'influence sociale façonnant la récompense se traduit par des protocoles de communication informatifs et clairsemés. Enfin, ils se débarrassent de l'accès centralisé aux politiques des autres agents en faisant en sorte que les agents apprennent à prédire le comportement des autres, une version logicielle de Theory of Mind.

2️⃣ - Autocurricula & Emergent Tool-Use (OpenAI, 2019)

À strictement parler, ce travail d'OpenAI ne peut pas être considéré comme un document MARL pur. Au lieu d'apprendre un ensemble de contrôleurs décentralisés, il y a un contrôleur central basé sur A3C-PPO-LSTM-GAE. Néanmoins, la formation est effectuée en utilisant le jeu automatique multi-agents et la récompense la plus simpliste que l'on puisse imaginer: la survie dans un jeu multi-agents de cache-cache. Les auteurs montrent comment une telle structure de récompense simpliste associée à l'auto-jeu peut conduire à une acquisition de compétences auto-supervisée plus efficace que la motivation intrinsèque. Selon les auteurs:

«Lorsqu'une nouvelle stratégie ou mutation réussie émerge, elle modifie la répartition implicite des tâches que les agents voisins doivent résoudre et crée une nouvelle pression d'adaptation.»

Cette émergence d'un autocurriculum et d'un plateus distinct de stratégies dominantes a finalement conduit à des solutions inattendues (comme le surf sur des objets). Les agents subissent 6 phases distinctes de stratégies dominantes où les déplacements sont basés sur l'interaction avec les outils de l'environnement. Les cacheurs apprennent une division du travail - grâce à des récompenses en équipe. Enfin, quelques observations intéressantes concernant la mise en œuvre à grande échelle:

  1. Les grandes tailles de lots sont très importantes lors de la formation d'un contrôleur centralisé en MARL. Ils ne stabilisent pas seulement l'apprentissage de manière significative, mais permettent également des taux d'apprentissage et des époques plus importants.
  2. Le fait de conditionner le critique sur les observations d'état de tous les agents permet d'obtenir des signaux de retour plus robustes pour les acteurs. C'était une observation déjà faite dans le document MA-DDPG de Lowe et al. (2017).

La dynamique d'apprentissage dans Deep RL reste loin d'être comprise. Contrairement à l'apprentissage supervisé où les données de formation sont quelque peu données et traitées comme étant des IID (indépendantes et distribuées de manière identique), RL exige qu'un agent génère ses propres données de formation. Cela peut entraîner des instabilités importantes (par exemple, la triade mortelle), quelque chose que toute personne qui a joué avec les DQN aura vécu. Il y a encore eu des percées théoriques majeures autour de nouvelles découvertes (comme Neural Tangent Kernels). Les deux gagnants de la catégorie dynamique mettent en évidence les caractéristiques essentielles du méta-apprentissage basé sur la mémoire (plus général que le RL) ainsi que le RL sur la politique:

🏆 - Dynamique du méta-apprenant sans échelonnement (Rabinowitz, 2019)

Récemment, plusieurs progrès ont été réalisés dans la compréhension de la dynamique d'apprentissage de l'apprentissage profond et de la descente de gradient stochastique. Il s'agit notamment des résultats sur la découverte échelonnée des tâches (par exemple, Saxe et al., 2013; Rahaman et al., 2018). Comprendre la dynamique du méta-apprentissage (par exemple, Wang et al., 2016) et la relation entre l'apprentissage en boucle externe et interne, en revanche, reste illusoire. Ce document tente de répondre à cette question.

L'auteur établit empiriquement que la boucle interne du méta-apprentissage subit des dynamiques très différentes. Au lieu de découvrir séquentiellement les structures de tâches, le méta-apprenant apprend simultanément sur l'ensemble de la tâche. Cela rappelle l'inférence optimale de Bayes et fournit des preuves d'un lien entre le méta-apprentissage et les Bayes empiriques. La boucle d'apprentissage externe correspond ainsi à l'apprentissage d'un a priori optimal pour une adaptation rapide au cours de la boucle interne. Ces résultats sont importants chaque fois que le comportement d'apprentissage réel d'un système est important (par exemple, l'apprentissage du curriculum, l'exploration sûre ainsi que les applications humaines dans la boucle). Enfin, cela pourrait nous aider à concevoir des signaux d'apprentissage qui permettent une adaptation rapide.

2️⃣ - Interférence des rayons (Schaul et al., 2019)

L'interférence des rayons est un phénomène observé dans le RL profond (multi-objectif) lors de l'apprentissage de la dynamique à travers une séquence de plateaux. Ces transitions d'étape de la courbe d'apprentissage sont associées à une découverte échelonnée (et à un désapprentissage!) Des compétences et le chemin est provoqué par un couplage de l'apprentissage et de la génération de données résultant des déploiements sur la politique, d'où une interférence. Cela contraint l'agent à apprendre une chose à la fois, alors qu'un apprentissage parallèle de contextes individuels serait bénéfique. Les auteurs tirent une relation analytique avec les systèmes dynamiques et montrent un lien avec les transitions du point de selle. La validation empirique est effectuée sur des bandits contextuels. J'aimerais savoir à quel point le problème d'interférence est grave dans les tâches classiques de contrôle continu sur la politique. De plus, je suis personnellement particulièrement enthousiasmé par la façon dont cela pourrait être lié aux méthodes évolutives telles que la formation basée sur la population (PBT). Les auteurs affirment que PBT peut protéger contre un tel effet préjudiciable sur la politique. Au lieu de former un seul agent, PBT forme une population avec différents hyperparamètres en parallèle. Ainsi, un ensemble peut générer une diversité d'expériences qui peuvent surmonter les plateaux à travers la diversité des membres de la population.

Une approche pour obtenir des agents efficaces et à adaptation rapide, sont des prieurs informés. Au lieu d'apprendre sur la base d'une base de connaissances non informative, l'agent peut s'appuyer sur des connaissances préalablement distillées sous la forme d'une distribution préalable. Mais comment peut-on les obtenir? Les deux articles suivants proposent deux façons distinctes: l'apprentissage simultané d'une politique par défaut indépendante de l'objectif et l'apprentissage d'un espace d'intégration dense capable de représenter un large éventail de comportements d'experts.

🏆 - Asymétrie de l'information dans la LR régularisée KL (Galashov et al., 2019)

Les auteurs proposent une approche pour tirer parti de la structure répétée des problèmes d'apprentissage. Plus spécifiquement, l'apprentissage d'une politique par défaut est imposé en restreignant les informations d'état reçues par la politique par défaut (par exemple, extero vs proprioceptive). L'objectif de récompense attendue régularisé par KL peut alors être réécrit de telle sorte que la divergence soit calculée entre la politique de l'agent et une politique par défaut qui reçoit des entrées partielles. L'optimisation est ensuite réalisée en alternant entre les mises à jour en descente de gradient de la politique de l'agent (objectif KL standard - régularisation) et la politique par défaut (apprentissage supervisé compte tenu des trajectoires de la politique de l'agent - distillation).

Dans plusieurs expériences, il est démontré que cela peut conduire à un comportement réutilisable dans des environnements de récompense clairsemés. Habituellement, le grand espace d'action de DeepMindLab est réduit par un avant humain (ou biais). Les auteurs montrent que cela peut être contourné en apprenant une politique par défaut qui contraint les espaces d'action et réduit ainsi la complexité du problème d'exploration. Il peut être démontré qu'il existe diverses connexions aux idées de goulot d'étranglement de l'information ainsi que l'apprentissage d'un modèle génératif à l'aide d'algorithmes EM variationnels.

2️⃣ - NPMP: Neural Probabilistic Motor Primitives (Merel et al., 2019)

L'apprentissage en quelques instants a été considéré comme le nœud de l'intelligence. Cela nécessite de vastes quantités de généralisation et nous, les humains, le faisons tout le temps. Un mécanisme qui pourrait permettre une telle flexibilité est la réutilisation modulaire des sous-programmes. Dans la littérature sur la commande de moteur, il a donc été avancé un ensemble de primitives / défauts moteur qui peuvent être efficacement recomposés et remodelés. Dans le dernier article du post d'aujourd'hui, Merel et al. (2019) ont placé cette intuition dans le domaine des modèles probabilistes profonds. Les auteurs introduisent un architecture d'autoencodeur avec goulot d'étranglement variationnel latent pour distiller un large ensemble de politiques expertes dans un espace d'intégration latent. Surtout, les politiques expertes ne sont pas des agents RL pré-formés arbitraires, mais des extraits de 2 secondes de données de capture de mouvement. Leur ambition principale est d'extraire des représentations capables non seulement de coder des dimensions clés du comportement mais aussi de les rappeler facilement lors de l'exécution. Le modèle se résume à un modèle autorégressif à variable latente de séquences d'actions conditionnelles à l'état. Compte tenu de l'historique actuel et d'un petit extrait prospectif, le modèle doit prédire l'action qui permet une telle transition (aka un modèle inverse). L'action peut ainsi être considérée comme un goulot d'étranglement entre une trajectoire future et un état latent passé. Compte tenu de l’incorporation d’une «primitive motrice» si puissante, il faut encore obtenir la politique des étudiants compte tenu des déploiements d’experts. Merel et al. (2019) s'opposent à une perspective de clonage comportemental, car il s'avère souvent que l'échantillon est inefficace ou non robuste. Au lieu de cela, ils conceptualisent les experts comme des contrôleurs de rétroaction non linéaires autour d'un seul trajectoire nominale. Ils enregistrent ensuite le jacobien à chaque paire d'action-état et optimisent un objectif de pertubation qui ressemble à une forme d'autoencodeur de débruitage. Leurs expériences montrent que cela est capable de distiller 2707 experts et d'effectuer un transfert efficace en une seule fois, ce qui se traduit par des comportements fluides.

Dans l'ensemble, 2019 a mis en évidence l'immense potentiel de Deep RL dans des dimensions jusque-là inimaginables. Les projets à grande échelle mis en évidence restent loin d'être efficaces. Mais ces problèmes sont traités par la recherche actuelle de biais inductifs efficaces, de priorités et d'approches basées sur des modèles.

Je suis ravi de ce qu'il y a à venir en 2020 et je pense que c'est un moment formidable pour être sur le terrain. Il y a des problèmes majeurs, mais l'impact que l'on peut avoir est proportionnellement grand. Il n'y a pas de meilleur moment pour vivre que le présent.

Afficher plus

SupportIvy

SupportIvy.com : Un lieu pour partager le savoir et mieux comprendre le monde. Meilleure plate-forme de support gratuit pour vous, Documentation &Tutoriels par les experts.

Articles similaires

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bouton retour en haut de la page
Fermer