PC & Mobile

Comprendre les données pour l'apprentissage automatique: évaluation et exploration

Comprendre les données pour l'apprentissage automatique: évaluation et exploration


La qualité des données est fondamentale pour tout engagement en matière de science des données. Pour obtenir des informations exploitables, les données appropriées doivent être recherchées et nettoyées. Comprendre les données comporte deux étapes clés: une évaluation des données et une exploration des données.

La première étape dans la compréhension des données est une évaluation des données. Cela devrait être entrepris avant le lancement d'un projet car il s'agit d'une étape importante pour valider sa faisabilité. Cette tâche évalue les données disponibles et leur correspondance avec le problème de l'entreprise. Il devrait répondre aux questions suivantes:

  • Quelles données sont disponibles?
  • Combien de données sont disponibles?
  • Avez-vous accès à la vérité sur le terrain, aux valeurs que vous essayez de prédire?
  • Dans quel format les données seront-elles?
  • Où réside-t-il?
  • Comment accéder aux données?
  • Quels sont les domaines les plus importants?
  • Comment les multiples sources de données sont-elles jointes?
  • Quelles mesures importantes sont rapportées à l'aide de ces données?
  • Le cas échéant, comment les données correspondent-elles à la méthode actuelle d'exécution de la tâche aujourd'hui?

Considérations clés

Collecte de données de vérité au sol

Si vous souhaitez effectuer des prévisions à l'aide de l'apprentissage automatique, vous avez probablement besoin d'un jeu de données étiqueté. Pour chacun de vos exemples, vous avez besoin de la valeur correcte, ou de la catégorie appropriée, que le modèle d'apprentissage automatique doit apprendre à prévoir. c'est ce qu'on appelle la vérité au sol. Cela peut déjà être disponible pour vous car il s’agit d’une action ou d’un événement (par exemple, une valeur indiquant si le client a été tourné ou non) ou peut-être quelque chose que vous devez collecter (par exemple le sujet d’un courrier électronique).

Si la vérité sur le terrain doit être collectée ou étiquetée manuellement, un plan doit être établi pour comprendre comment cela sera réalisé, ainsi que le temps et les efforts nécessaires. Cela devrait être soigneusement considéré car cela pourrait prendre trop de temps, et par conséquent, coûter cher, rendant le projet irréalisable.

Pertinence des données

Notez tous les différents points de données qui seront mis à disposition et déterminez s'il est logique qu'un modèle d'apprentissage automatique puisse prédire avec ces données. Existe-t-il des preuves avérées qu'il existe un lien entre ces points de données et ce que vous souhaitez réaliser? Si vous ajoutez des fonctionnalités non liées à un modèle d’apprentissage automatique, vous ajoutez du bruit, ce qui permet à l’algorithme de rechercher des connexions absentes. Cela peut entraîner une baisse des performances.

Réciproquement, si un humain entreprend cette tâche aujourd'hui, explorez ce qu'il utilise pour prendre la décision. Ces données sont-elles disponibles pour être utilisées dans le modèle? Lors de la création d'un modèle, il est bon de commencer simplement - utilisez d'abord uniquement les fonctionnalités évidentes et voyez comment cela fonctionne avant d'ajouter celles dont vous êtes moins sûr. Cela vous permet d'évaluer si les fonctionnalités supplémentaires apportent une valeur ajoutée.

Quantité de données

Pour réussir à créer un modèle d’apprentissage automatique, vous devez disposer de suffisamment de données. Il n’existe pas de formule stricte pour calculer la quantité à utiliser car elle dépend de la complexité du problème et des algorithmes que vous utilisez.

Une règle de base est de vous assurer que vous avez au moins dix fois plus d'exemples que le nombre de paramètres que votre modèle doit entraîner. Pour les modèles de régression logistique ou linéaire, le nombre de paramètres correspond au nombre d'entités (car vous avez un poids pour chaque entité) plus un (pour votre biais). Alors que, pour un apprentissage en profondeur, chaque neurone a un poids à former et chaque couche un biais supplémentaire.

Vous pouvez également utiliser la sortie prévue pour estimer le nombre d'échantillons dont vous avez besoin. Si vous utilisez des méthodes d’apprentissage automatique traditionnelles (forêts aléatoires, régression logistique) pour classer vos données, vous souhaitez disposer de centaines d’exemples (idéalement de plusieurs) de chaque classe. Avec les techniques d’apprentissage en profondeur, le nombre d’exemples nécessaires augmente considérablement; nécessitant souvent des milliers de chaque classe. Lorsque vous travaillez avec des problèmes de régression (prévision d’une sortie numérique), vous pouvez les regrouper pour vous assurer d’avoir suffisamment d’exemples pour chaque plage.

Enfin, essayez de vous assurer que vos fonctionnalités varient également. Par exemple, si vous prévoyez le prix des maisons et que l’un de vos intrants est le voisinage, vous voulez vous assurer que vous avez une bonne couverture de tous les quartiers afin que le modèle puisse savoir comment cela influe sur le prix.

Éthique

Au début d'un projet, il est important de prendre en compte les inconvénients potentiels de votre outil. Ces préjudices peuvent être causés par la conception pour un groupe restreint d'utilisateurs, par une représentation insuffisante des sous-populations ou par des étiqueteurs humains privilégiant un groupe privilégié.

L'apprentissage automatique découvre et généralise les tendances dans les données et pourrait donc reproduire les biais. Si un groupe est sous-représenté, le modèle d'apprentissage automatique a moins d'exemples à apprendre, ce qui réduit la précision des personnes de ce groupe.

Lors de la mise en œuvre de ces modèles à grande échelle, il peut en résulter un grand nombre de décisions biaisées, faisant du tort à un grand nombre de personnes. Assurez-vous d’avoir évalué les risques et d’avoir mis en place les techniques pour les atténuer.

Une fois que vous avez accès aux données, vous pouvez lancer l'exploration de données. Il s'agit d'une phase permettant de créer des résumés significatifs de vos données. Elle est particulièrement importante si vous n'êtes pas familier avec les données. C'est également le moment où vous devriez tester vos hypothèses. Les types d'activités et les questions possibles à poser sont les suivants:

  • Comptez le nombre d'enregistrements - est-ce ce à quoi vous vous attendiez?
  • Quels sont les types de données? Devrez-vous les changer pour un modèle d’apprentissage automatique?
  • Cherchez les valeurs manquantes - comment devriez-vous les gérer?
  • Vérifiez la distribution de chaque colonne - correspondent-elles à la distribution attendue (par exemple, normalement distribuée)?
  • Rechercher des valeurs aberrantes - existe-t-il des anomalies dans vos données? Toutes les valeurs sont-elles valables (par exemple, aucun âge inférieur à 0)?
  • Validé si vos données sont équilibrées - différents groupes sont-ils représentés dans vos données? Y a-t-il suffisamment d'exemples de chaque classe que vous souhaitez prédire?
  • Existe-t-il un biais dans vos données - les sous-groupes de vos données sont-ils traités plus favorablement que d’autres?

Considérations clés

Valeurs manquantes

Un ensemble de données idéal serait complet, avec des valeurs valides pour chaque observation. Cependant, en réalité, vous rencontrerez de nombreuses valeurs «NULL» ou «NaN».

Le moyen le plus simple de traiter les données manquantes consiste à supprimer toutes les lignes comportant une valeur manquante, mais des informations précieuses peuvent être perdues ou vous pouvez introduire un biais. Par conséquent, il est important d'essayer de comprendre s'il existe une raison ou un motif pour les valeurs manquantes. Par exemple, certains groupes de personnes peuvent ne pas répondre à certaines questions d'un sondage; les supprimer empêchera les tendances d'apprentissage au sein de ces groupes.

Une alternative à la suppression de données est l'imputation de valeurs; remplacer les valeurs manquantes par un substitut approprié. Pour les variables continues, la moyenne, la médiane ou le mode sont souvent utilisés. Tandis que, pour les données catégorielles, il s’agit souvent du mode ou d’une nouvelle catégorie (par exemple, «NA»). Si les colonnes ont une forte proportion de valeurs manquantes, vous pouvez les supprimer entièrement.

Les valeurs aberrantes

Une valeur aberrante est un point de données très différent des autres observations. Une fois que vous avez identifié des valeurs aberrantes, vous devez également rechercher leur cause.

Les valeurs aberrantes peuvent indiquer des données incorrectes: des données incorrectement collectées. Si tel est le cas, vous souhaiterez peut-être supprimer ces points de données ou les remplacer (de la même manière que vous imputez des valeurs pour les données manquantes). Ces valeurs peuvent aussi être intéressantes et utiles pour votre modèle d’apprentissage automatique.

Certains algorithmes d'apprentissage automatique, tels que la régression linéaire, peuvent être sensibles aux valeurs aberrantes. Par conséquent, vous souhaiterez peut-être n'utiliser que des algorithmes plus robustes pour les valeurs éloignées, tels que les arbres aléatoires ou les arbres boostés par gradient.

Données non équilibrées

Un ensemble de données est déséquilibré si chaque classe n'a pas un nombre similaire d'exemples. Ceci est fréquent avec des problèmes de classification tels que la détection de fraude; la majorité des transactions sont normales, tandis qu'une faible proportion est frauduleuse.

Les algorithmes d’apprentissage automatique tirent des exemples; plus il a d'exemples, plus il peut avoir confiance dans les modèles qu'il a découverts. Si vos données ne sont pas équilibrées, le modèle peut ne pas être en mesure d'identifier les modèles associés aux catégories de minorités.

Vous devez faire attention à la métrique de performance que vous utilisez lorsque vous travaillez avec des données non équilibrées. Par exemple, la précision peut être trompeuse dans notre exemple de fraude: si 99,9% des transactions ne sont pas frauduleuses, un modèle peut être précis à 99,9% en qualifiant simplement toutes les transactions de «non-fraude» sans qu'il soit nécessaire de rechercher d'autres modèles. Vous voudrez peut-être prendre en compte d'autres mesures telles que la précision, le rappel ou le score F1.

Les caractéristiques peuvent également être déséquilibrées, empêchant l'algorithme d'apprendre comment ces catégories affectent la sortie. Par exemple, vous avez un jeu de données contenant principalement une sous-population. Lorsque des clients extérieurs à ce groupe utilisent votre produit, les résultats ne sont pas satisfaisants. Pour éviter cette forme de biais, vous devez calculer vos mesures de précision pour différentes catégories.

Prochaines étapes

Une fois que vous avez acquis une compréhension approfondie de vos données, espérons que vous êtes prêt à passer à l’étape suivante Préparation des données: nettoyage, transformation et ingénierie des caractéristiques.

Afficher plus

SupportIvy

SupportIvy.com : Un lieu pour partager le savoir et mieux comprendre le monde. Meilleure plate-forme de support gratuit pour vous, Documentation &Tutoriels par les experts.

Articles similaires

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bouton retour en haut de la page
Fermer