Quand les données rencontrent Burgers – Analyse exploratoire des données
Nous pouvons remarquer qu’il existe neuf catégories uniques d’articles, ce qui implique un total de 260 articles répartis en 9 catégories. Le camembert montre que la catégorie Café et thé domine le menu tandis que la catégorie Salades est la moins importante.
Comparaison des catégories en fonction des nutriments
Essayons d’analyser quelle catégorie contient le plus de protéines, de cholestérol, de graisses, etc. Avant de visualiser les données, il est important de comprendre le concept de pivot_table (). Voyons un exemple.
Au lieu de np.mean()
des valeurs de sodium, nous pouvons également effectuer d’autres fonctions d’agrégation comme np.max()
, np.sum()
etc. Puisque nous comparons les valeurs nutritives par catégorie, il est préférable de prendre la moyenne des valeurs.
Semblable à l’exemple ci-dessus, créons un tableau croisé dynamique pour la catégorie et les protéines et essayons de comprendre la distribution. Laissez-nous tracer un graphique à barres de toutes les valeurs moyennes de protéines wrt. à la catégorie.
Nous pouvons créer des parcelles en utilisant les Pandas intégrés plot()
méthode. Puisque nous allons créer un graphique à barres, nous passons bar comme paramètre à lakind
argument
Nous pouvons remarquer que la catégorie poulet et poisson a la plus grande valeur en protéines. De la même manière, analysons toutes les catégories de distribution des nutriments en termes de catégories.
Comme prévu, nous pouvons remarquer plus de sucre dans les smoothies et plus de vitamine A et de vitamine C dans les salades. Les calories sont plus dans les articles de poulet et de poisson tandis que le fer est plus dans le boeuf et le porc. Il est préférable de prendre son petit-déjeuner à la maison en raison des quantités élevées de cholestérol indiquées par le premier graphique à barres.
Pensez-vous que les graphiques à barres représentent correctement les comparaisons entre les catégories distinctes? Ici, nous avons calculé la moyenne de tous les éléments par catégorie et créé un graphique à barres. Mais nous savons également que les moyens sont très sensibles aux valeurs aberrantes.
Les valeurs aberrantes jouent-elles un rôle dans les graphiques à barres ci-dessus? Pour comprendre la distribution de chaque article, nous pouvons créer Parcelles d’essaim.
Dans les graphiques Swarm, chaque élément de chaque colonne est représenté par un point au lieu de prendre la moyenne de tous les éléments pour cette catégorie particulière, comme le fait un graphique à barres.
Créons un graphique en essaim pour les colonnes Vitamine C et Catégorie et comparons-le avec le graphique en barres.
Nous pouvons créer un tracé Swarm en utilisant le Seaborn swarmplot()
méthode. Les étiquettes de l’axe X sont tournées de 90 degrés à des fins de lisibilité.
sns.set(style="whitegrid", color_codes=True)ax1= sns.swarmplot(x="Category", y="Vitamin C", data=df)
ax1.set_xticklabels(ax1.get_xticklabels(),rotation=90)
Ici, nous pouvons voir que le tracé de l’essaim se compose des valeurs de vitamine C de tous les éléments par rapport au poids. Catégorie. En regardant le graphique en essaim, nous pouvons supposer que la catégorie des boissons ou des collations et des côtés aura la plus grande quantité de vitamine C mais après une observation attentive, nous pouvons remarquer que le nombre d’articles de valeur nulle (encerclé dans le graphique en essaim) ces deux colonnes est bien plus que la colonne Salades qui a toutes les valeurs autour de 20-30. Cela conduit à une moyenne plus élevée de la catégorie Salades par rapport aux deux autres colonnes. De même, nous pouvons créer des graphiques Swarm pour d’autres catégories et les analyser.
Sélire l’intrigue appropriée est une partie cruciale de la génération de connaissances.