Intelligence artificielle

Dois-je rester ou dois-je partir

Dois-je rester ou dois-je partir


Dois-je rester ou dois-je partir maintenant?
Si j'y vais il y aura des ennuis
Et si je reste ce sera double
Alors tu dois me le faire savoir
Dois-je rester ou dois-je partir? - Le choc

Un dilemme est une lutte qui se produit dans l'esprit. Il s'agit de devoir faire un choix entre deux ou plusieurs alternatives, dans lesquelles les résultats sont également favorables ou indésirables. Faire le bon choix peut entraîner des résultats positifs et faire le mauvais choix vous coûtera.

Dans l'apprentissage par renforcement, l'agent d'apprentissage automatique est également confronté à un dilemme, choisissant entre l'exploration et l'exploitation. Au cours du processus de formation, les agents doivent:

  • choisissez quelque chose de familier pour maximiser les chances d'être récompensé
  • choisir quelque chose de nouveau qui peut (ou non) conduire à de meilleures décisions à l'avenir

Trouver le l'équilibre entre l'exploration (d'un territoire inexploré) et l'exploitation (des connaissances actuelles) est essentiel à la formation d'un agent d'apprentissage de renforcement réussi. L'inconnu doit être découvert pour étendre les connaissances existantes. Le connu doit être exploité pour générer des récompenses.

Cela signifie que parfois vous devez délibérément décider de ne pas choisir l'action qui, selon vous, sera la plus gratifiante pour obtenir de nouvelles informations. Même si cela signifie parfois avoir fini par prendre de mauvaises décisions dans le processus de exploration. Mais en même temps, vous voulez maximiser votre récompense, en exploitant ce que vous savez a fonctionné le mieux.

Alors, comment trouver un équilibre entre l'exploration suffisante des inconnues et l'exploitation de l'action optimale?

  • exploration initiale suffisante pour identifier les meilleures options
  • exploiter l'option optimale pour maximiser la récompense totale
  • continuer à mettre de côté une faible probabilité d'expérimenter des options sous-optimales et inexplorées, au cas où elles offriraient de meilleurs rendements à l'avenir
  • si ces options d'expérience s'avèrent bien, l'algorithme doit se mettre à jour et commencer à sélectionner cette option
Parfois, l'exploration peut nous coûter cher. [Reddit]

Dans l'apprentissage par renforcement, nous pouvons décider combien de temps un agent passera du temps à explorer. Cela se fait en ajustant le paramètre epsilon-greedy, qui varie de 0 à 1.

Si nous définissons 0,1 epsilon-greedy, l'algorithme explorera 10% du temps et exploitera les meilleures options 90% du temps. Dans la plupart des cas, la valeur du paramètre epsilon-greedy est généralement définie entre 5 et 10%.

Évaluez différents epsilon gourmands avec un agent tic-tac-toe

J'ai créé un jeu de tic-tac-toe où les agents peuvent apprendre le jeu en jouant les uns contre les autres. Tout d'abord, permettez-moi de vous présenter nos agents, ils sont l'agent X et l'agent O. L'agent X passe toujours en premier, ce qui signifie que l'agent X a l'avantage.

Vous pouvez jouer contre mon agent Tic Tac Toe

Expérience n ° 1. Pour déterminer la valeur epsilon-greedy la plus appropriée pour chaque agent pour ce jeu, je vais tester différentes valeurs epsilon-greedy. Je vais initialiser l'agent X pour explorer 1% (eps 0,01) du temps, les deux agents joueront l'un contre l'autre pendant 10 000 matchs et j'enregistrerai le nombre de fois où l'agent X gagne. Ensuite, je passerai à l'exploration et répéterai le test jusqu'à ce que l'agent X explore 100% du temps (eps 1.0).

Les résultats de l'agent X (exploration de 1% à 100%). vs Agent O (eps 0,05). La ligne bleue représente le nombre de jeux que l'agent X gagne sur différents taux d'exploration.

Nombre de parties (sur 10 000) gagnées par l'agent X sur différentes valeurs epsilon-greedy

Cela montre que plus le taux d'exploration est élevé, plus le taux de gain de l'agent X baisse. Il a culminé avec 9268 matchs gagnés lorsque l'agent X explore 5% du temps. L'agent O commence également à gagner plus de parties alors que l'agent X explore plus de 50% du temps.

Un taux d'exploration de 5% est optimal pour gagner la plupart des jeux

Nombre de parties gagnées par l'agent O sur différentes valeurs epsilon-greedy

Eh bien, l'agent O n'a aucune chance de gagner avec n'importe quel taux d'exploration; il a perdu la plupart des jeux avant de pouvoir apprendre le jeu.

Expérience n ° 3. Modifions epsilon gourmand de l'agent X à 100%, cela signifie que l'agent X jouera des actions aléatoires tout le temps. La ligne bleue représente le nombre de jeux que l'agent O gagne contre un agent aléatoire X.

Nombre de parties gagnées par l'agent O sur différentes valeurs epsilon-greedy, où l'agent X joue au hasard

L'agent O commence à perdre plus après un taux d'exploration de 30%.

Explorez la démo en ligne et défiez notre agent de renforcement dans un jeu de tic-tac-toe. Vous pouvez régler les paramètres pour former différents agents.

Découvrez comment l'agent tic-tac-toe apprend:

Si vous aimez la démo en ligne, vous aimerez peut-être aussi:

Afficher plus

SupportIvy

SupportIvy.com : Un lieu pour partager le savoir et mieux comprendre le monde. Meilleure plate-forme de support gratuit pour vous, Documentation &Tutoriels par les experts.

Articles similaires

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bouton retour en haut de la page
Fermer