Intelligence artificielle

IA pour le contrôle des processus industriels

IA pour le contrôle des processus industriels


Réglage d'un four à processus avec apprentissage par renforcement

Déterminer les paramètres de contrôle optimaux pour un processus industriel peut être difficile. Par exemple, les contrôles peuvent interagir, où le réglage d'un paramètre nécessite le réajustement des autres paramètres. De plus, la relation entre un contrôle et son effet peut être très complexe. De telles complications peuvent être difficiles pour optimiser un processus. Cet article explore une solution d'apprentissage par renforcement pour le contrôle d'un four à convoyeur industriel.

introduction

Un exemple de ce type d’équipement est un four de refusion utilisé pour souder des composants électroniques à une carte de circuit imprimé (figures 1 et 2). Le four a une courroie mobile qui transporte le produit à travers plusieurs zones de chauffage. Ce processus chauffe le produit selon un profil température-temps précis requis pour garantir des connexions de soudure fiables.

Figure 2. Four sortant du produit

Le four de refusion décrit dans cet article comporte huit zones de chauffage, chacune avec une commande permettant de régler la température du chauffage de la zone. Les capteurs enregistrent la température du produit à environ 300 points tout au long de son parcours dans le four. La température à chaque point est déterminée par la chaleur transférée au produit par les appareils de chauffage.

Solution d'apprentissage de renforcement

Un opérateur suit généralement les étapes suivantes pour connaître les paramètres du chauffage:

  • passer un passage du produit dans le four
  • observer le profil température-temps à partir des lectures du capteur
  • ajuster les paramètres de chauffage pour (espérons) améliorer le profil
  • attendez que le four se stabilise aux nouveaux réglages
  • Répétez cette procédure jusqu'à ce que le profil indiqué par le capteur se rapproche du profil souhaité.

Le système d'apprentissage par renforcement remplace les étapes de l'opérateur par un processus en deux étapes. Lors de la première étape, un agent intelligent apprend la dynamique du four et crée une politique de mise à jour des paramètres de chauffage dans diverses conditions.

Dans la deuxième étape, l'agent suit la stratégie apprise pour rechercher les paramètres de chauffage optimaux. Ces paramètres produiront la correspondance la plus proche entre le profil de produit actuel et le profil de température-temps souhaité. La figure 3 montre l'agent qui suit la stratégie pour rechercher les paramètres optimaux. La trace rouge correspond au profil température-temps souhaité et la trace bleue correspond au profil réel, car l'agent détecte les paramètres de chauffage optimaux.

Figure 3. rouge: profil souhaité - bleu: profil actuel

L'agent

Comme il faut beaucoup de temps pour passer dans le four (> 300 secondes) et pour le stabiliser (plusieurs minutes), un simulateur de four est utilisé pour accélérer considérablement le processus. Le simulateur émule l'action de chauffage du four sur le produit.

À chaque étape de la première étape, l’agent d’apprentissage par renforcement transmet au simulateur les réglages des huit éléments chauffants. Après la simulation, le simulateur renvoie les relevés de température du produit (environ 300 relevés à une seconde d'intervalle).

L'agent utilise une sélection de lectures pour déterminer l'état du système. Il calcule également une récompense pour l'exécution en cours en comparant la différence entre les lectures renvoyées et le profil température-temps souhaité. Si la différence pour le cycle actuel est inférieure à celle du cycle précédent, la récompense est positive. sinon, c'est négatif. La récompense est utilisée pour mettre à jour la politique.

Figure 4. Système d'apprentissage par renforcement

Après avoir répété ce processus des milliers de fois, l'agent aura appris une politique détaillée de mise à jour des paramètres de chauffage dans diverses conditions de four. Au cours de la deuxième étape, l'agent applique la stratégie définie pour rechercher les paramètres de chauffage optimaux permettant d'obtenir la correspondance la plus proche entre le profil de produit réel et le profil de température-temps souhaité.

Une plongée plus profonde

Le système d'apprentissage par renforcement utilisé dans le projet utilise un modèle Double Deep-Q¹ qui incorpore deux réseaux de neurones et une répétition d'expérience². Après la première étape, l’un des réseaux de neurones contient la stratégie apprise utilisée par l’agent au cours de la deuxième étape. Pour plus de détails, veuillez consulter les articles référencés à la fin de cet article.

Show More

SupportIvy

SupportIvy.com : Un lieu pour partager le savoir et mieux comprendre le monde. Meilleure plate-forme de support gratuit pour vous, Documentation &Tutoriels par les experts.

Related Articles

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Close
Close