Intelligence artificielle

L'état de la détection d'objets 3D – Lance Martin – Medium

L'état de la détection d'objets 3D - Lance Martin - Medium


Une revue de l'état de l'art basée sur le classement KITTI

Préface

Ceci résume une conférence que j'ai donnée à Ike, où je travaille sur des camions automatisés.

Intro

La détection d'objets 3D est un défi fondamental pour la conduite automatisée. Le benchmark de vision KITTI fournit un ensemble de données normalisé pour la formation et l'évaluation des performances de différents détecteurs d'objets 3D. Ici, j'utilise les données de KITTI pour résumer et mettre en évidence les compromis dans les stratégies de détection 3D. Ces stratégies peuvent généralement être décomposées en celles qui utilisent LIDAR et ceux qui utilisent LIDAR + Image (RVB). J'analyse ces catégories séparément.

LIDAR

La machinerie CNN pour la détection et la classification d'objets 2D est mature. Mais la détection d'objets 3D pour la conduite automatisée pose au moins deux défis uniques:

  • Contrairement aux images RVB, les nuages ​​de points LIDAR sont 3D et non structurés.
  • La détection 3D pour la conduite automatisée doit être rapide (<~ 100ms).

Plusieurs méthodes de détection 3D ont résolu le premier problème en discrétisant le nuage de points LIDAR en une grille de voxels 3D et en appliquant des convolutions 3D. Cependant, la convolution 3D souffre d'un coût de calcul plus élevé et donc d'une latence supérieure à celle de la convolution 2D. Le nuage de points peut également être projeté sur une image 2D dans la vue plongeante en plongée (BEV) ou la vue native du LIDAR (RV). L’avantage est que l’image projetée peut être traitée efficacement avec des convolutions 2D plus rapides, ce qui réduit le temps de latence.

J'ai choisi quelques méthodes du classement KITTI BEV pour mettre en évidence quelques compromis entre RV, BEV, et des méthodes qui fonctionnent sur les fonctionnalités de voxel. Ce graphique montre la latence d'inférence rapportée (ms) par rapport au point d'accès du véhicule:

Latence du détecteur (LIDAR uniquement) par rapport au véhicule AP

Points clés des résultats:

  • BEV la projection préserve la taille de l'objet avec la distance, fournissant un préalable solide pour l'apprentissage. L'axe Z est traité comme un canal de fonction pour les convolutions 2D. Le binning de l'axe Z fabriqué à la main (par exemple, PIXOR) peut être amélioré à l'aide de PointNet pour consolider l'axe Z en fonctionnalités acquises (par exemple, PointPillars). La hauteur du sol peut également être utilisée pour aplatir des points situés sur l’axe Z (par exemple, HDNet), atténuant ainsi l’effet de la variance de translation due à la pente de la route.
  • BEV avec les fonctionnalités apprises (PointNet) pour consolider l'axe Z permettent de réaliser de bonnes performances. SECOND le fait avec une couche de codage de caractéristiques voxel et des convolutions clairsemées avant la projection BEV; Les nouvelles versions de SECOND (v1.5) indiquent un AP plus fort (86,6%) avec une latence similaire (40 ms). PointPillars applique PointNet sur les piliers de l’axe Z avant la projection BEV.
  • RV la projection souffre d'occlusion et de variation de la taille de l'objet par rapport à la distance. RV les performances du détecteur (par exemple, LaserNet) BEV détecteurs sur le jeu de données de train de trames de ~ 7,5 000 KITTI. Mais les performances de LaserNet sur le jeu de données ATG4D de 1,2 M de trame sont à parité avec BEV détecteurs (par exemple, HDNet).
  • RV la projection a une faible latence (par exemple, LaserNet), probablement en raison de la densité RV représentation par rapport au sparser BEV. VoxelNet a été le premier à utiliser les fonctionnalités de voxel, mais souffrait d’un temps de latence élevé en raison de convolutions 3D. Les approches plus récentes (par exemple, SECOND) peuvent utiliser la même couche de codage de caractéristiques voxel, mais évitent la convolution 3D en utilisant des convolutions rares pour réduire le temps de latence.

LIDAR + RVB

La fusion LIDAR + RVB améliore les performances de détection 3D, en particulier pour les objets plus petits (par exemple, les piétons) ou à longue distance (> ~ 50m à 70m) où les données LIDAR sont souvent rares. Quelques approches de fusion sont résumées ci-dessous. Proposition Les méthodes basées génèrent des propositions d’objet en RVB (par exemple, F-Pointnet) ou en BEV (par exemple, MV3D). Fusion dense Les méthodes fusionnent les fonctions LIDAR et RVB directement dans une projection commune et souvent à différents niveaux de résolution.

Approches générales pour la fusion LIDAR + RVB. Les images sont adaptées de MV3D (Chen et. At. 2016), de F-Pointnet (Qi et. Al. 2017), de ContFuse (Liang et. Al. 2018) et de LaserNet (Meyer et. Al. 2018).

Ce graphique montre la latence d'inférence (ms) rapportée par rapport au point d'accès du véhicule:

Détecteur (marque de fusion LIDAR + RVB) latence par rapport au véhicule AP

Points clés des résultats:

  • RV fusion dense a la plus faible latence de toutes les approches, et proposition méthodes basées ont généralement une latence plus élevée que fusion dense . RV fusion dense (par exemple, LaserNet ++) est rapide car les fonctionnalités RVB et LIDAR sont dans la même projection et les coordonnées des pixels sont cohérentes. En revanche, BEV fusion dense doivent concaténer les fonctionnalités RVB dans le RV avec fonctions LIDAR dans BEV. Cela nécessite une cartographie des fonctionnalités RVB dans BEV (par exemple, en utilisant des convolutions continues dans ContFuse), ce qui coûte du temps par rapport à la plus simple RV concaténation des fonctionnalités.
  • Les méthodes de fusion génèrent généralement les gains de performances les plus importants dans les zones où la valeur LIDAR est faible et sur de petits objets. L'amélioration des points d'accès pour la fusion LIDAR + fonctions RVB (LaserNet ++) par rapport à LIDAR (LaserNet) est modeste sur véhicule (+ 1% AP à 0–70 m), mais plus substantielle sur les classes plus petites, en particulier à plus grande distance (+ ~ 9% dans 50–70m). LaserNet ++ affiche de bonnes performances sur ATG4D (par exemple, un meilleur AP que ContFuse pour toutes les classes et plages signalées sur le jeu de données ATG4D), mais ses performances sur KITTI ne sont pas signalées. La combinaison d’une faible latence (38 ms) et d’une bonne performance (sur des jeux de données plus volumineux) rend RV fusion dense un bon choix, en supposant qu'il y ait suffisamment de données pour les former (ATG4D n'est pas accessible au public). Bien entendu, il est également possible que la variation d'échelle dans RV pose un problème si la plage de détection est supérieure au seuil KITTI de 70 m.

Résumé

Il y a des compromis entre BEV et RV projections. BEV préserve l'espace métrique, en maintenant la taille de l'objet cohérente par rapport à la plage. En revanche, RV souffre de variation d'échelle en ce qui concerne la portée et l'occlusion. Par conséquent, BEV détecteurs (par exemple, PointPillars) atteignent des performances supérieures à RV (par exemple, LaserNet) sur de petits jeux de données (par exemple, KITTI à environ 7,5 k images) avec une latence similaire (par exemple, 16 ms pour PointPillars vs 12 ms pour LaserNet). cependant, RV la performance est à parité avec BEV sur des jeux de données plus importants (par exemple, 1,2 M trame ATG4D). Malgré cet inconvénient, fusion de traits denses est plus rapide dans RV que BEV. LaserNet ++ affiche une latence impressionnante (38 ms) et de meilleures performances que fusion dense BEV détecteurs (par exemple, ContFuse à 60 ms). Ces compromis sont résumés dans la figure ci-dessous. Les nouvelles architectures de fusion LIDAR + RVB pourraient trouver des moyens de passer d'une projection à l'autre, en tirant parti des avantages de chacune.

Compromis entre les projections RV et BEV
Show More

SupportIvy

SupportIvy.com : Un lieu pour partager le savoir et mieux comprendre le monde. Meilleure plate-forme de support gratuit pour vous, Documentation &Tutoriels par les experts.

Related Articles

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Close
Close