Table des matières
Comment commencer à apprendre l’apprentissage par renforcement (RL)
je dirais que je suis compétent en apprentissage robotique (robotique + apprentissage par renforcement). J’ai eu le privilège d’être poussé à cela dans mon doctorat, mais vous aussi. Les thèmes sont reproductibles et efficaces.
Apprendre en faisant
Nous apprenons de nouvelles compétences en informatique pour faire des choses. Prendre des idées pour coder est là où la valeur est faite (sauf pour quelques professeurs théoriques). L’essentiel de ce post est que vous devez trouver votre espace problème.
Il y a une longue liste de ressources pour en savoir plus sur la théorie du RL à la fin de cela, mais avec l’étendue des méthodes d’IA – vous devez choisir où. Cela se résume à une superposition de trois motifs:
- Problèmes sur lesquels vous aimez travailler.
- Des problèmes qui ont un impact mondial.
- Des problèmes qui vous procureront un emploi et une stabilité.
Décidez d’un espace à problèmes pour RL où vous aimez ce que vous faites, cela fera quelque chose pour aider le monde, et j’espère que d’autres personnes vont comprendre et vous donner un plus grande plate-forme pour faire le changement.
Qu’est-ce que j’ai construit? Je travaille avec des robots. Je veux que les robots effectuent de nombreuses tâches simples, partout. Ils peuvent déplacer nos meubles, conduire nos voitures, livrer nos cartons, etc.. Tout cela devrait s’inscrire dans un décennie. Dans une décennie, cela ressemble à l’apprentissage de contrôleurs de locomotion de bas niveau. Le référentiel de base pour apprentissage de la dynamique et du contrôle des robots est trouvé ici. (La plupart des recherches sont encore privées avant publication.)
Construisez les fondamentaux et la profondeur avec l’écriture ou la réflexion
J’ai écrit environ 20 articles sur Medium, et c’est un complément incroyable à tout programme d’éducation. Il est temps de réfléchir à ce que vous avez construit et comment il s’intègre dans une image plus grande. C’est le moment de vous assurer que les autres peuvent comprendre vos résultats. Une faiblesse commune des meilleurs étudiants diplômés que je rencontre – une incapacité à décomposer clairement leurs idées. En tant qu’étudiant diplômé senior, je me concentre sur la pérennité de mon travail et sa réutilisation après la fin de mon diplôme.
Les articles de recherche, les articles de blog, etc. sont tous des formes d’écriture qui agissent comme recréations permanentes de votre esprit et de vous-même. Il y a peu de choses qui permettent aux individus de continuer à être utiles et à interagir avec après leur carrière, mais l’écriture de haute qualité peut être l’outil le plus accessible dont nous disposons pour l’instant.
Messages que j’ai écrits sur RL à ce jour. C’est un sujet merveilleux et il y a toujours plus à explorer.
-
3 compétences à maîtriser avant RL.
- Qu’est-ce qu’un processus de décision Markov de toute façon?
- L’algèbre linéaire cachée de l’apprentissage par renforcement.
- Fondamentaux méthodes itératives d’apprentissage par renforcement.
- Convergence des algorithmes d’apprentissage par renforcement
Apprenez PyTorch
PyTorch est en train de devenir dominant dans le domaine de la recherche sur l’apprentissage automatique, et parce que l’apprentissage par renforcement est jeune, c’est principalement de la recherche. Vous pouvez trouver les statistiques ici. PyTorch est très fluide et pythonique, alors ne vous inquiétez pas de vous enliser trop dans son apprentissage, cela peut arriver en cours de route.