Visualisez les valeurs manquantes avec Missingno – Soner Yıldırım
Explorez les valeurs manquantes dans votre jeu de données.
Les données sont le nouveau carburant. Cependant, les données brutes sont bon marché. Nous devons bien le traiter pour en tirer le meilleur parti. Les modèles complexes et bien structurés sont aussi bons que les données que nous lui fournissons. Ainsi, les données doivent être nettoyées et traitées en profondeur afin de construire des modèles robustes et précis.
L’un des problèmes que nous sommes susceptibles de rencontrer dans les données brutes est l’absence de valeurs. Prenons un cas où nous avons des fonctionnalités (colonnes dans une trame de données) sur certaines observations (lignes dans une trame de données). Si nous n’avons pas la valeur dans une paire ligne-colonne particulière, alors nous avons une valeur manquante. Nous pouvons n’avoir que quelques valeurs manquantes ou la moitié d’une colonne entière peut être manquante. Dans certains cas, nous pouvons simplement ignorer ou supprimer les lignes ou colonnes avec des valeurs manquantes. De l’autre, il peut y avoir des cas dans lesquels nous ne pouvons pas nous permettre de laisser tomber une seule valeur manquante. Dans tous les cas, le traitement des valeurs manquantes commence par leur exploration dans l’ensemble de données.
Pandas fournit des fonctions pour vérifier le nombre de valeurs manquantes dans l’ensemble de données. Missingno La bibliothèque va plus loin et fournit la distribution des valeurs manquantes dans l’ensemble de données par des visualisations informatives. Utilisation des tracés de manquant, nous pouvons voir où se trouvent les valeurs manquantes dans chaque colonne et s’il existe une corrélation entre les valeurs manquantes de différentes colonnes. Avant de gérer les valeurs manquantes, il est très important de les explorer dans l’ensemble de données. Ainsi, je pense que missingno est un atout très précieux dans les étapes de nettoyage et de prétraitement des données.
Dans cet article, nous explorerons les fonctionnalités de missingno plot en passant par quelques exemples.
Essayons d’abord d’explorer un ensemble de données sur les films sur les plateformes de streaming. L’ensemble de données est disponible ici sur kaggle.
import numpy as np
import pandas as pddf = pd.read_csv("/content/MoviesOnStreamingPlatforms.csv")
print(df.shape)
df.head()