Table des matières
Sur l’apprentissage et la représentation des données apprises par les réseaux de capsules
Réseaux de neurones convolutifs ont connu un grand succès et sont également très populaires dans le domaine de la vision par ordinateur. Cependant, il ne convient pas à toutes les tâches, et certains des défauts de l’architecture l’empêchent de bien exécuter certaines tâches.
Réseaux de neurones convolutifs extraire des entités dans des images et apprendre à reconnaître des objets grâce à l’apprentissage des fonctionnalités. La couche inférieure du réseau apprend les caractéristiques générales, telles que les contours. À mesure que le nombre de couches s’approfondit, les entités extraites deviennent plus complexes, les entités de bas niveau sont pondérées et additionnées, puis les entités de haut niveau sont obtenues grâce à une fonction d’activation non linéaire.
Réseau de neurones convolutifs ne sont pas en mesure d’identifier la position d’un objet par rapport à un autre, ils ne peuvent identifier que si l’objet existe dans une certaine région ou non. Il en résulte des difficultés à identifier correctement les objets qui ont des sous-objets qui ont des relations de position les uns par rapport aux autres. Il n’y a pas de différence entre les images gauche et droite, car elles contiennent la même composition. , mais l’emplacement est différent.
Pour un objet photographié sous différents angles, CNN pensera qu’il s’agit d’un objet différent, car il ne peut pas apprendre la relation interne de l’espace 3D.
Afin de conserver les principales fonctionnalités tout en réduisant les paramètres et la quantité de calcul, les opérations de mutualisation sont quasiment utilisées dans CNN. Bien que l’opération de mise en commun soit très réussie, elle a abandonné dans une certaine mesure beaucoup d’informations valables.
Geoffrey Hinton: » L’opération de mise en commun utilisée dans les réseaux de neurones convolutifs est une grosse erreur et le fait qu’elle fonctionne si bien est une catastrophe. «
Afin de classer et d’identifier correctement les objets, il est important de maintenir une relation de pose hiérarchique entre les parties d’objet.
Hinton a proposé d’utiliser un processus appelé Routage par réseaux de capsules basés sur un accord. Cela signifie que les caractéristiques de niveau inférieur (mains, yeux, bouche, etc.) ne seront transférées qu’au niveau supérieur qui lui correspond. Si les caractéristiques sous-jacentes contiennent des caractéristiques similaires aux yeux ou à la bouche, elles seront transférées au niveau supérieur du visage, si les caractéristiques sous-jacentes contiennent des caractéristiques telles que les doigts, les paumes, etc., elles seront transférées au niveau supérieur de la main.
Dans cet article, nous présenterons le concept de base du réseau de capsules. Le réseau de capsules est encore au stade de la recherche et du développement, et il n’est pas suffisamment fiable, et il n’y a pas encore de tâche très mature. Cependant, ce concept est raisonnable et davantage de progrès seront réalisés dans ce domaine pour normaliser le réseau de capsules afin de mieux achever la tâche.
En 1943, le psychologue McCulloch et le mathématicien Pitts se sont référés à la structure des neurones biologiques et ont publié le modèle abstrait des neurones qui inclut les fonctions d’entrée, de sortie et de calcul. L’entrée peut être comparée à la dendrite du neurone, et la sortie peut être comparée à l’axone du neurone, et le calcul peut être comparé au noyau.
La figure suivante est un modèle de neurone typique:
La connexion est la chose la plus importante dans les neurones. Chaque connexion a un poids. Un algorithme d’apprentissage du réseau neuronal consiste à ajuster la valeur du poids au mieux, afin que l’effet de prédiction de l’ensemble du réseau soit le meilleur.
La représentation formule est la suivante:
Où,Xi sont des scalaires et peuvent être considérés comme la valeur d’une certaine caractéristique.
Cependant, dans les problèmes pratiques, les valeurs des entités ne sont pas nécessairement toutes des scalaires et peuvent également être des vecteurs.Hinton [1] étendu la valeur de la fonction à plusieurs dimensions, ce qui a conduit au concept de Capsule.
Contrairement aux neurones traditionnels, l’entrée U et sortie V de la capsule sont à la fois un vecteur, la sortie d’une capsule n’est pas un scalaire mais un vecteur appelé vecteur d’activation. Dans le réseau de capsules de bas niveau, une capsule produit un vecteur de paramètres, qui possède des informations locales efficaces, et peut être utilisé pour prédire un réseau de capsules plus profond.
Le vecteur d’entrée u de la capsule supérieure provient de la capsule inférieure. La matrice de poids W multiplié par ces vecteurs code la relation importante entre les entités de bas niveau et les entités de haut niveau, y compris la relation spatiale.
Pour tous les vecteurs capsule sortis par la couche capsule précédente, il est converti en un vecteur capsule de niveau supérieur par la matrice de conversion W, et enfin agrégé en un vecteur capsule par l’algorithme de routage dynamique.
L’idée de l’algorithme de routage dynamique est que la capsule de bas niveau envoie sa sortie à la capsule de haut niveau qui l’a acceptée. Cet accord apparaît comme un produit scalaire de vecteurs .La figure suivante est le pseudo-code du processus de routage dynamique, où le nombre d’itérations r est un hyperparamètre, et l’article de Hinton propose de le mettre à 3.
Où, l est le nombre de couches inférieures, u est l’ensemble des vecteurs capsule produits par la couche inférieure, et r est le nombre d’itérations.
Lors de l’initialisation, tous cij sont égaux, ce qui indique que la probabilité que la capsule inférieure soit acceptée par la capsule de haut niveau est égale. Avec l’itération, cette distribution uniforme sera modifiée. Nous avons examiné chaque capsule de haut niveau j, puis vérifié chaque entrée et mis à jour le poids correspondant bij selon la formule.
Le résultat final est généré par la fonction d’activation de squash définie comme suit,
Cette fonction comprime la longueur du vecteur entre 0 et 1, et garantit que la direction reste inchangée, la longueur de la sortie ici peut être comprise comme la probabilité de la caractéristique.
Après avoir compris la structure du Unité de capsule, nous examinons le modèle de réseau de référence donné dans l’article [1]. Le réseau de référence réalise la reconnaissance d’image de l’ensemble de données d’écriture manuscrite MNIST comme illustré ci-dessous.
La première couche du réseau est toujours une couche de convolution utilisée pour obtenir les caractéristiques locales de l’image et sert d’entrée au Couche casquettes.
le Cartes de la première couche entre alors dans une couche convolutionnelle modifiée appelée PrimaryCaps et 32 différentes capsules sont obtenues dans cette couche.
PrimaryCaps utilise un noyau de convolution 9x9x256 avec une taille de pas de 2 et sans remplissage, ce qui réduit la dimension spatiale de 20×20 à 6×6 . Il génère un vecteur à 8 dimensions au lieu d’un scalaire et produit 32 capsules de forme 6x6x8.
le Capsules entre ensuite dans le Couche DigiCaps, qui passe par une matrice de transformation Wij avec une forme de 16×8 qui convertissent des capsules à 8 dimensions en capsules à 16 dimensions, chaque capsule correspondant à une catégorie numérique j .
La sortie finale vj de catégorie j est:
Chaque vecteur vj sert de capsule de catégorie j. La probabilité qu’une image soit classée comme j peut être obtenu en calculant la norme de vj .
le Réseaux de capsules utilise une perte de marge distincte pour chaque catégorie k.
Où Lk représente la perte de catégorie k, Tc est une fonction d’indicateur égale à 1 si et seulement il y a un objet appartenant à la catégorie c sur la photo, m += 0,9, m-= 0,1 sont les bornes supérieure et inférieure pour réduire la perte lorsque certaines catégories n’apparaissent pas et pour empêcher le module de vecteur d’activation de toutes les capsules numériques d’être compressé au début de l’apprentissage.
Le texte d’origine utilise une structure de reconstruction d’image supplémentaire pour entraîner le modèle. La structure de reconstruction utilise la sortie de DigitCaps pour reconstruire l’image d’origine, le réseau utilise simplement trois couches entièrement connectées pour obtenir sa structure, comme illustré dans la figure suivante:
Dans le processus de reconstruction, une perte de réduction est ajoutée, qui est la somme de la différence carrée de 784 pixels dans l’image d’origine et des 784 pixels actuels.
Conclusion
Cet article utilise un court espace pour présenter le concept de base du réseau de capsules. Unité de capsule dans le Réseau de capsules nous donne un nouveau choix lors de la construction d’un réseau neuronal profond, le Réseau de capsules ce n’est que le commencement. Avec de plus en plus de gens prêtant attention à ce réseau.
Une note en anglais clair
Saviez-vous que nous avons quatre publications et une chaîne YouTube? Vous pouvez trouver tout cela sur notre page d’accueil à – montrez un peu d’amour en suivant nos publications et !
Références
- ,,: Routage dynamique entre capsules.
- : Comprendre les réseaux de capsules de Hinton
- :
- F. Rosenblatt: Le Perceptron Un modèle probabiliste pour le stockage et l’organisation de l’information dans le cerveau (1958)