Le contrôle prédictif du modèle est-il donc attrayant pour le RL basé sur un modèle?
Une vue colorée de la façon dont le contrôle prédictif du modèle complète une image d’apprentissage de renforcement basée sur un modèle
Quel est le problème du contrôle dans l’apprentissage par renforcement basé sur un modèle?
Nous n’essayons pas d’apprendre une astuce qui nous indique l’action immédiate à entreprendre, dans l’apprentissage par renforcement basé sur un modèle. Nous n’avons aucune correspondance d’un état à une action agréable. Souvent, nous reportons cela et trouvons un moyen de sélectionner les actions optimales plus tard.
Comment nous décidons plus tard des actions à entreprendre et en fonction de notre ambition, c’est ce qui rend la planification et le contrôle attrayants. C’est pourquoi le modèle de contrôle prédictif (MPC) est si utile. Voyons comment ça se passe.
Objectif RL
L’objectif d’apprentissage par renforcement (RL) ressemble à ceci: un agent dans un état sₜ sélectionne une action aₜ, reçoit une récompense rₜ, et transitions vers l’état suivant sₜ₊₁. Assez simple. Cela se produit à chaque pas de temps – d’où la t – sous une dynamique inconnue, ce qui signifie que l’agent n’est pas au courant de tous les facteurs qui influencent vers quel état il passe. Le but simple de l’apprentissage par renforcement est alors de prendre des mesures qui maximisent la somme des récompenses futures.
Avec RL basé sur un modèle, nous essayons d’apprendre la dynamique de transition. Nous verrons ce que cela signifie dans une seconde.
Mais d’abord, mettons en place un petit terrain de comparaison dans RL sans modèle
Dans RL sans modèle, nous n’essayons pas d’apprendre la dynamique de transition. Au lieu de cela, nous apprenons une fonction complexe Π (à, st), appelé politique, qui donne l’action optimale à chaque pas de temps.
À partir de l’image ci-dessus, un réseau de neurones avec les paramètres θ représente notre politique. On lui donne un état s, et il génère une action une.
Le réseau mappe un état à l’action. L’agent exécute cette action dans le monde et, le monde sort un prochain état s ’à partir d’une distribution conditionnée par l’état actuel s et l’action entreprise a. Cette distribution conditionnelle est ce qu’on appelle la transition ou la dynamique du système p (s ’| s, a). Il représente des facteurs environnementaux qui influencent l’état de transition de l’agent.
Dans l’apprentissage par renforcement basé sur un modèle, cependant, nous apprenons la dynamique de transition p (sₜ₊₁| sₜ, uneₜ), puis découvrez comment sélectionner des actions. Une fonction fθ paramétré par θ représente ces dynamiques. (* Cela peut être un réseau neuronal profond avec des poids θ). Nous apprenons donc la fonction fθ (sₜ, uneₜ), qui prendra un état sₜ et action uneₜ et prédire le prochain état au moment t + Δt.
La fonction génère ce que j’appellerai un état de Cendrillon. Remarquez le changement dans la façon dont nous représentons l’heure de cet état. La neige t + Δt au lieu de t + 1. Est-ce nécessaire?
(* Dans RL, nous appelons un réseau neuronal en tant que fonction, au lieu d’un modèle, pour éviter toute ambiguïté. La fonction dynamique, dans ce cas, est un réseau neuronal profond.)
La fonction dynamique
Serait-ce une mauvaise idée de laisser notre fonction prendre l’état actuel sₜ et action uneₜ et prédire le prochain état sₜ + ₁? Pas vraiment. Les états de Cendrillon sont juste plus mignons. D’accord, voici la mise en garde – imaginez les États sₜ et sₜ₊₁ être trompeusement semblables. Cela signifie que les mesures que nous prenons au sₜ a peu d’effet sur ce que la sortie sₜ+₁ est. C’est une mauvaise nouvelle pour notre fonction de dynamique, car elle trouvera difficile de déduire la dynamique du système sous-jacent de la différence entre les deux états. Ceci est plus prononcé lorsque le décalage horaire Δt entre les états est petite.
Pour résoudre ce problème, voici ce que fait notre fonction dynamique:
ŝₜ₊₁ = sₜ + fθ (sₜ , uneₜ)
Il estime le changement qui doit se produire à l’état actuel sₜ.
ŝt₊1 est notre état de Cendrillon, l’état suivant attendu, maintenant exprimé comme une somme de l’état actuel et de cette variation estimée. Houle, hein?
Ainsi en prédisant le changement d’état sₜ sur la durée du pas de temps Δt, nous rendons la pilule plus facile à avaler.