PC & Mobile

Machine Learning – La perfection commence toujours par des erreurs

Machine Learning - La perfection commence toujours par des erreurs


Types d'erreur

Les types d'erreurs les plus courants dans le pipeline ML concernent un ou plusieurs des domaines suivants:

Préparation des données - Nettoyage des données

Il est évident que les «données sales» constituent l’un des principaux obstacles auxquels se heurtent les scientifiques, et le nettoyage des données est l’élément qui prend le plus de temps dans un projet ML prenant 60% du temps total, précédé de 20% par l’ingestion de données - un résultat remarquable. Un total de 80% est dépensé dans la phase initiale du projet!
Il y a la blague qui prétend:

80% de l'apprentissage automatique consiste à nettoyer les données et 20% se plaignent du nettoyage des données 😃

Traiter valeurs manquantes est l’une des tâches les plus importantes du nettoyage des données et, en tant que telle, peut conduire à des erreurs. Nous devons examiner les colonnes avec les valeurs manquantes et voir comment elles se rapportent au reste de l'ensemble de données, en particulier aux valeurs cibles. Une technique courante consiste à utiliser le moyenne / médiane / mode des valeurs existantes, mais il se pourrait que ce ne soit pas la bonne mesure et que nous devions proposer autre chose.

En outre, s’agissant de la classification, nous devons prendre en compte la structure de classe de l’ensemble de données, car nous pouvons introduire un nouveauIndéfini’, Ou une autre possibilité consiste à utiliser un algorithme ML pour prédire la valeur manquante.
Enfin, nous pouvons noter ces valeurs nulles et choisir un algorithme qui peut traiteur pour eux.

Toute erreur ici peut vraiment fausser les résultats finaux plus tard. Il est donc conseillé de scinder le processus en étapes individuelles et éventuellement d’introduire une combinaison de stratégie ou modèle de conception d'usine dans notre code afin que nous puissions échanger entre toutes ces méthodologies de remplissage.

Préparation des données - Ingénierie des fonctionnalités

L'ingénierie des caractéristiques est le sur-ensemble de l'extraction, de la construction et de la sélection des caractéristiques. Dans ce cas, les scientifiques de données utilisent à la fois l'expérience métier et les connaissances basées sur les données pour identifier les colonnes en corrélation avec la cible.

L'importance des caractéristiques peut être déduite en attribuant les scores puis en les classant: les caractéristiques avec les scores les plus élevés peuvent être sélectionnées pour être incluses dans le jeu de données d'apprentissage, alors que celles restantes peuvent être ignorées. Nous pouvons également utiliser cette information pour créer de nouvelles fonctionnalités ou au lieu de réduire leur dimensionnalité.

Il est essentiel de choisir les bonnes fonctionnalités, car avoir de meilleures fonctionnalités signifie:

  1. plus de flexibilité pour choisir un moins modèle complexe
  2. plus de flexibilité pour choisir moins optimale paramètres du modèle
  3. meilleur résultats

Aussi simple ou complexe que cela puisse être, il est important de se rappeler que la sélection des caractéristiques a une incidence directe sur la sélection du modèle, car nous ne voudrions pas introduire par inadvertance. partialité dans nos modèles, ce qui peut entraîner surapprentissage. Toute erreur sur cette phase a un impact direct sur le modèle précision aussi.

Ici, il est prudent de tenir un registre de toutes les hypothèses que nous faisons, afin que nous puissions revenir en arrière et les revisiter si une erreur est rencontrée. Une documentation complète vous aidera tout au long du projet, en particulier en ce qui concerne la validation et le déploiement du modèle.

https://xkcd.com/1838/

Séparation des données - Échantillonnage

Les principales erreurs dans ce domaine sont liées à l’utilisation d’un seul ou de plusieurs nombre d'échantillons qui peut introduire des biais mesurables dans la formation et le test du modèle.

Un autre type d’erreur est de ne pas choisir un représentant échantillon de l'ensemble de données afin que la proportion de caractéristiques / traits ne soit pas obtenue. Par exemple. si la population compte 35% d’éléments noirs et 65% d’éléments blancs, notre échantillon doit refléter ce pourcentage.

Évaluation du modèle du candidat

Une erreur habituelle dans cette étape du pipeline est que les scientifiques de données ne dépensent pas assez de temps évaluer le modèle, mais sautons dans l’utiliser immédiatement. L'évaluation du modèle est vraiment importante pour s'assurer qu'il n'y a pas de biais. Cette étape va de pair avec l'étape d'échantillonnage: la procédure de validation doit être répétée plusieurs fois pour obtenir de meilleurs résultats.

Et le dernier mais non le moindre: choisir le bon modèle

Choisir le bon modèle pour un projet ML est un processus qui nécessite une attention particulière, car il existe une myriade de modèles pouvant fonctionner avec nos données, mais cela ne signifie pas nécessairement qu'ils sont adapté pour le problème que nous essayons de résoudre. Les principales erreurs liées au processus de sélection du modèle sont les suivantes:

Choisir un modèle à cause de:

  • ses popularité parmi la communauté de la science des données
  • ses précision (comme seul critère)
  • ses la vitesse de retourner des résultats (comme seul critère)
  • ses facilité d'utilisation comparer à d'autres options
Show More

SupportIvy

SupportIvy.com : Un lieu pour partager le savoir et mieux comprendre le monde. Meilleure plate-forme de support gratuit pour vous, Documentation &Tutoriels par les experts.

Related Articles

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Close
Close