Intelligence artificielle

Réseaux de neurones profonds mais légers pour la détection d'objets en temps réel

Réseaux de neurones profonds mais légers pour la détection d'objets en temps réel


Un résumé papier

Un résumé de l'article
PVANET: Réseaux de neurones profonds mais légers pour la détection d'objets en temps réel
par Xinyu Zhou, Cong Yao, He Wen, Yuzhi Wang, Shuchang Zhou, Weiran He et Jiajun Liang
Lien vers l'article:
https://arxiv.org/pdf/1608.08021.pdf

Vue d'ensemble

Ce document présente notre architecture réseau d’extraction d’entités légères pour la détection d’objets, nommée PVANET, qui permet d’obtenir des performances de détection d’objets en temps réel sans perte de précision.

  1. Coût de calcul: 7.9GMAC pour l'extraction de caractéristiques avec une entrée 1065x640
  2. Performance d'exécution: 750ms / image (1.3FPS) sur Intel i7 et 42ms / image (21.7FPS) sur le GPU NVIDIA Titan X
  3. Précision: 83,8% PAP sur VOC-2007; 82,5% PAP sur VOC-2012

Le principe de conception clé est «moins de canaux avec plus de couches».

De plus, le réseau adopte d'autres blocs de construction:

  1. L'unité linéaire rectifiée concaténée (C.ReLU) est appliquée au stade précoce de nos CNN afin de réduire de moitié le nombre de calculs sans perdre en précision.
  2. La création est appliquée au reste de notre sous-réseau de génération d'entités
  3. Adopté l’idée d’une représentation multi-échelles combinant plusieurs sorties intermédiaires afin que plusieurs niveaux de détails et de non-linéarités puissent être considérés simultanément.

Les méthodes

Fig 2. Architecture du modèle

Unité linéaire rectifiée concaténée

Fig 3. Unité linéaire rectifiée concaténée (C.ReLU)

C.ReLU est motivé par le constat qu’à l’étape précoce, les nœuds de sortie ont tendance à être appariés, de sorte que l’activation d’un nœud est opposée à celle d’un autre. C.ReLU réduit de moitié le nombre de canaux de sortie et le double en concaténant simplement les mêmes sorties avec la négation, ce qui accélère deux fois plus tôt le stade initial.

Début

Fig4. Le module de création

La création peut être l’un des éléments les plus rentables pour capturer de gros objets et pour capturer de petits objets. Ils remplacent la convolution 5x5 dans un bloc Inception commun par 2 3 3x3.

HyperNet

La représentation multi-échelles et sa combinaison se sont révélées efficaces dans de nombreuses tâches d'apprentissage en profondeur. La combinaison de détails fins avec des informations hautement abstraites dans la couche d'extraction d'entités aide le réseau de propositions de région et le réseau de classification suivants à détecter des objets de différentes échelles.

Ils combinent les
1) dernière couche
2) Deux couches intermédiaires dont les échelles sont respectivement 2x et 4x de la dernière couche.

Formation approfondie en réseau

Ils ont adopté les structures résiduelles pour une meilleure formation. Ils ajoutent des connexions résiduelles aux couches initiales afin de stabiliser la dernière partie du réseau profond.

Ajoutez des couches de normalisation par lots avant toutes les couches d'activation ReLU.

La politique de taux d'apprentissage qu'ils utilisent est basée sur la détection de plateau, où ils détectent un plateau basé sur la moyenne mobile de la perte, et si elle est inférieure à un certain seuil, ils réduisent le taux d'apprentissage d'un facteur donné.

R-CNN plus rapide avec PVANET

Trois sorties intermédiaires de conv3_4, conv4_4 et conv5_4 sont combinées dans les fonctions de sortie multi-échelles à 512 canaux qui alimentent les modules Faster RCNN.

Résultats

  1. PVANET a été pré-entraîné avec des images d’entraînement ILSVRC2012 pour une classification d’image de 1 000 classes.
  2. Toutes les images ont été redimensionnées à 256x256 et les patchs 192x192 ont été rognés de manière aléatoire et utilisés comme entrée réseau.
  3. Le taux d’apprentissage a été initialement fixé à 0,1, puis diminué d’un facteur 1 / sqrt (10) ~ 0,3165 chaque fois qu’un plateau est détecté.
  4. La pré-formation est terminée si le taux d'apprentissage tombe en dessous de 1e-4 (ce qui nécessite généralement environ 2 millions d'itérations)
  5. Ensuite, PVANET a été formé avec l’ensemble syndical train-train COCO MS-COCO, trainval VOC2007, trainval VOC2012. Un réglage précis avec VOC2007 trainval et VOC2012 trainval était également nécessaire par la suite, car les définitions de classe de MS-COCO et VOC sont légèrement différentes.
  6. Les images d’entraînement ont été redimensionnées de manière aléatoire, de sorte que le bord le plus court d’une image se situe entre 416 et 864.
  7. Pour les évaluations PASCAL VOC, chaque image d'entrée a été redimensionnée de sorte que son bord le plus court soit 640.
  8. Tous les paramètres liés à Faster R-CNN ont été définis comme dans le travail d'origine, à l'exception du nombre de zones de proposition avant suppression non maximale (NMS) (= 12 000) et du seuil NMS (= 0,4).
  9. Toutes les évaluations sont effectuées sur Intel i7 avec un seul cœur et le processeur graphique NVIDIA Titan X.
Fig 5. Performance avec VOC2007
Fig 6. Performance avec VOC2012

PVANET + a obtenu la 2ème place du Challenge PASCAL VOC 2012. Le premier étant le Faster-RCNN + ResNet101, qui est beaucoup plus lourd que PVANET.

Show More

SupportIvy

SupportIvy.com : Un lieu pour partager le savoir et mieux comprendre le monde. Meilleure plate-forme de support gratuit pour vous, Documentation &Tutoriels par les experts.

Related Articles

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Close
Close