Technologie

Seaborn – Amusons-nous au complot

Seaborn - Amusons-nous au complot


Comment l39apprentissage par transfert peut être une bénédiction pour les modèles d39apprentissage en profondeur - Seaborn - Amusons-nous au complot

Introduction à la bibliothèque Seaborn en Python

Si vous avez déjà travaillé avec des tracés tels que des tracés linéaires, à barres et autres en Python, vous devez avoir rencontré la bibliothèque appelée matplotlib. Lorsque j'ai commencé avec les visualisations en Python, j'ai commencé avec elle et j'ai même écrit un article passionnant sur l'utilisation de matplotlib pour rendre les visualisations de données intéressantes, que vous pouvez lire ci-dessous:

Bien que la bibliothèque matplotlib soit assez élaborée, les tracés ne sont pas aussi raffinés et ne constitueraient le premier choix de quiconque en matière de publication. C'est là que Seaborn entre en scène.

Seaborn est une bibliothèque de visualisation de données Python basée sur matplotlib. Il fournit une interface de haut niveau pour dessiner des graphiques statistiques attractifs et informatifs. - né en mer

La bibliothèque est la prochaine étape dans les visualisations. Nous pouvons créer de belles parcelles et même en produire plusieurs avec une seule commande. Commençons et explorons Seaborn. Le référentiel GitHub joint est ci-dessous:

Pour comprendre diverses parcelles, j'ai sélectionné un jeu de données de Kaggle sur les prix du logement en Californie. Donc, ma première étape a été d’importer le pandas bibliothèque qui me permet de lire le fichier CSV puis d’afficher le nombre de lignes, les noms des colonnes et les 5 premières lignes à l’aide de tête (5).

Notre ensemble de données a 20640 lignes et 10 colonnes dont les noms sont décrits dans l'essentiel ci-dessus. Voyons également à quoi ressemblent les 5 premières lignes.

Commençons par importer matplotlib. Notez que j’ai utilisé matplotlib version 3.0.3 et non la version la plus récente, car il existe un bogue qui casse la carte de chaleur et la rend inutile. Ensuite, j'ai importé marin. Enfin, pour vous assurer que les parcelles de Jupyter s'affichent à l'intérieur du cahier, nous utilisons la commande % matplotlib inline.

Commençons par explorer les parcelles!

Nuage de points

Le nuage de points est utile lorsque nous voulons montrer la relation entre deux entités ou une entité et l’étiquette. C'est utile car nous pouvons également décrire la taille de chaque point de données, les colorer différemment et utiliser des marqueurs différents. Voyons ce que la commande de base dans seaborn fait.

Scatter plot in seaborn

Le graphique ci-dessus décrit la relation entre total_rooms et total_bedrooms. Une seule commande a fait tout cela, mais attendez, il y a plus.

En utilisant figsize, j'ai augmenté la taille à 12x8. Ensuite, j'ai mis à jour la commande scatterplot avec la taille de chaque point de données en fonction de median_house_value, couleur en utilisant teinte basé sur océan_proximité et des marqueurs utilisant style basé sur océan_proximité. En outre, une intrigue est incomplète sans un titre et des étiquettes d'axe corrects, je les ai donc ajoutés également.

Mise à jour du diagramme de dispersion utilisant Seaborn

Comme vous pouvez le constater, cette intrigue a l'air tellement meilleure que la précédente et comprend également une belle légende afin que tout le monde puisse la voir et la comprendre - telle qu'elle est censée être.

Compter l'intrigue

Les tracés de comptage comptent automatiquement les points de données en fonction d'une certaine colonne catégorique et présentent les données sous forme de diagramme à barres. Ceci est exceptionnellement utile dans les problèmes de classification où nous voulons voir si les différentes classes ont la même taille. Cependant, comme il ne s’agit pas d’une donnée de classification et qu’il n’ya qu’une colonne catégorique, j’ai décidé de l’utiliser.

Les parcelles à Seaborn nous permettent d’ajouter aussi texte à chaque barre en utilisant annoter. En examinant de plus près l'ensemble de données, nous constatons qu'il manque beaucoup de métadonnées. Par exemple, la colonne océan_proximité a la valeur <1H OCEAN qui n'a pas été décrit nulle part. Il convient de toujours collecter des informations de métadonnées et de travailler avec des ensembles de données contenant les informations appropriées. Comme il ne s’agit que d’un jeu de données de référence pour comprendre les parcelles, ce n’est pas un si gros problème.

Compter parcelle en utilisant Seaborn

Dans le graphique ci-dessus, nous pouvons voir que les données de cette colonne sont très asymétriques. Avoir du texte avec des barres est vraiment utile comme dernier type ÎLE ressemble à une valeur zéro simplement en regardant les parcelles.

Les histogrammes

Les histogrammes sont un moyen efficace de montrer des points de données continus et de voir comment ils sont distribués. Nous avons pu constater que la plupart des valeurs se situent dans la partie inférieure, dans la partie supérieure ou sont également réparties.

le dist graphique en merborn produit à la fois un histogramme et une ligne de densité sur cette graphique en fonction des données. J'ai défini un nombre total de 10 cases de sorte que l'ensemble median_house_value est distribué dans 10 seaux différents.

Histogramme (avec densité) en mer

Comme on peut le constater, la distribution semble tout à fait normale avec une légère pointe du côté supérieur. La ligne bleue dans le graphique ci-dessus définit la distribution de la densité.

Violon Plot

Avant de travailler avec Seaborn, je voyais toujours ces intrigues étranges dans divers articles et je me demandais en quoi elles consistaient. Ensuite, j'ai lu à leur sujet et découvert qu'il s'agissait de placettes pour violon qui ressemblent beaucoup aux boîtes à moustaches et qui décrivent la largeur en fonction de la densité pour refléter la distribution des données. Créer un complot pour violon est juste une commande à distance dans la mer.

Terrain de violon en merborn

Avant de poursuivre, voyons comment comprendre ces graphiques. Considérez l'intrigue verte INTÉRIEUR. La ligne noire allant de zéro à environ 250 000 correspond à l'intervalle de confiance de 95%. Le bloc noir épais à l'intérieur correspond à l'intervalle interquartile, ce qui signifie qu'environ 50% de toutes les données se trouvent dans cet intervalle. La largeur du tracé est basée sur la densité des données. Nous pouvons le comprendre comme l'histogramme de cet ensemble de données spécifique avec la ligne noire comme axe des x complètement lissé et tourné à 90 degrés.

Carte de chaleur

Une matrice de corrélation nous aide à voir comment toutes les caractéristiques et étiquettes sont liées les unes aux autres et le niveau de dépendance. le pandas dataframe a une fonction appelée corr () qui génère une matrice de corrélation et lorsque nous l'insérons dans la carte thermique marine, nous obtenons une belle carte thermique. Réglage annot as True garantit que les corrélations sont également définies avec des nombres.

Carte thermique en merborn

Bien que l’intégralité de l’intrigue soit utile, nous pouvons commencer par jeter un coup d’œil sur la dernière colonne et sur le lien qui existe entre chaque caractéristique et l’étiquette median_house_value. median_income est le plus lié à l'étiquette avec une valeur de 0,69.

Terrain commun

Un tracé conjoint est une combinaison de nuage de points et de diagrammes de densité (histogrammes) pour les deux entités que nous essayons de tracer. Le complot conjoint de Seaborn nous permet même de tracer une régression linéaire tout seul en utilisant gentil comme reg. J'ai défini les dimensions du carré en utilisant la taille comme 8 et couleur comme vert.

Terrain commun à Seaborn

La ligne verte représente la régression linéaire basée sur les points de données.

Box Plot avec Swarm Plots

Les boîtes à moustaches présentent les informations en quartiles séparés ainsi que la médiane. Lorsque chevauché avec essaim graphique, les points de données sont répartis sur leur emplacement, de sorte qu’il n’y ait aucun chevauchement.

Box plot (et parcelle d'essaims) à seaborn

A partir de la note ci-dessus, nous pouvons voir comment les boîtes à moustaches sont décrites pour chacune des cinq catégories de océan_proximité. Les points de données indiquent comment les données sont réparties.

Parcelle des Paires

Le tracé par paire génère une grande collection de tracé entre chaque paire de caractéristiques et d'étiquettes. Pour chaque combinaison caractéristique / étiquette, cette courbe montre un nuage de points et pour chaque combinaison avec elle-même, elle montre un histogramme. L'intrigue en elle-même est vraiment utile pour obtenir une bonne essence des données disponibles.

Pait complot en merborn

L'intrigue ci-dessus comprend une énorme quantité d'informations et cela aussi avec une seule commande.

Dans cet article, nous avons exploré quelques uns des infinis complots imaginables qui peuvent être créés pour mieux comprendre le fonctionnement et les capacités de la bibliothèque. Continuez à pratiquer et à expérimenter car les options sont presque illimitées.

Afficher plus

SupportIvy

SupportIvy.com : Un lieu pour partager le savoir et mieux comprendre le monde. Meilleure plate-forme de support gratuit pour vous, Documentation &Tutoriels par les experts.

Articles similaires

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bouton retour en haut de la page
Fermer