Classification multi-classes – un contre tous et un contre un
- Supervisé
- Sans surveillance
- Renforcement
L’apprentissage automatique supervisé se classe en régression et classification. Nous utilisons la technique de régression pour prédire les valeurs cibles des variables continues, comme la prévision du salaire d’un employé. En revanche, nous utilisons la technique de classification pour prédire les étiquettes de classe pour des données d’entrée données.
En classification, nous concevons le modèle de classificateur, puis nous l’entraînons à l’aide des données de train d’entrée, puis classons les données de test en plusieurs étiquettes de classe présentes dans l’ensemble de données.
- Qu’est-ce que la classification multi-classes?
- Classification binaire vs classification multi-classes
- Un contre tous
- Un contre un
- Conclusions
Comprenons le concept en profondeur,
Lorsque nous résolvons un problème de classification n’ayant que deux étiquettes de classe, il devient alors facile pour nous de filtrer les données, d’appliquer n’importe quel algorithme de classification, de former le modèle avec des données filtrées et de prédire les résultats. Mais lorsque nous avons plus de deux instances de classe dans les données de train en entrée, il peut devenir complexe d’analyser les données, de former le modèle et de prédire des résultats relativement précis. Pour gérer ces instances de classes multiples, nous utilisons une classification multi-classes.
La classification multi-classes est la technique de classification qui nous permet de catégoriser les données de test en plusieurs étiquettes de classe présentes dans les données entraînées en tant que prédiction de modèle.
Il existe principalement deux types de techniques de classification multi-classes: –
- Un contre tous (un contre un)
- Un contre un
- Seules deux instances de classe sont présentes dans l’ensemble de données.
- Il ne nécessite qu’un seul modèle de classificateur.
- Confusion Matrix est facile à dériver et à comprendre.
- Exemple: – Vérifiez que le courrier électronique est du spam ou non, en prédisant le sexe en fonction de la taille et du poids.
- Plusieurs étiquettes de classe sont présentes dans l’ensemble de données.
- Le nombre de modèles de classificateurs dépend de la technique de classification à laquelle nous appliquons.
- Un contre tous: – Instances de classe N puis N modèles de classificateurs binaires
- Un contre un: – Instances de classe N puis Modèles de classificateurs binaires N * (N-1) / 2
- La matrice de confusion est facile à dériver mais complexe à comprendre.
- Exemple: – Vérifiez si le fruit est une pomme, une banane ou une orange.
Dans la classification un contre tous, pour l’ensemble de données d’instances de classe N, nous devons générer les modèles de classificateur N-binaire. Le nombre d’étiquettes de classe présentes dans l’ensemble de données et le nombre de classificateurs binaires générés doivent être identiques.
Comme le montre l’image ci-dessus, considérons que nous avons trois classes, par exemple, le type 1 pour le vert, le type 2 pour le bleu et le type 3 pour le rouge.
Maintenant, comme je vous l’ai dit plus tôt, nous devons générer le même nombre de classificateurs que les étiquettes de classe sont présentes dans l’ensemble de données, nous devons donc créer ici trois classificateurs pour trois classes respectives.
- Classificateur 1: – [Green] contre [Red, Blue]
- Classificateur 2: – [Blue] contre [Green, Red]
- Classificateur 3: – [Red] contre [Blue, Green]
Maintenant, pour former ces trois classificateurs, nous devons créer trois ensembles de données d’apprentissage. Considérons donc notre ensemble de données principal comme suit,
Vous pouvez voir qu’il y a trois étiquettes de classe vert, Bleu, et rouge présent dans l’ensemble de données. Nous devons maintenant créer un ensemble de données de formation pour chaque classe.
Ici, nous avons créé les ensembles de données d’apprentissage en mettant +1 dans la colonne de classe pour cette valeur d’entité, qui est alignée uniquement sur cette classe particulière. Pour les coûts des fonctionnalités restantes, nous mettons -1 dans la colonne classe.
Comprenons-le par un exemple,
- Considérez l’ensemble de données principal, dans la première ligne; nous avons x1, x2, x3 des valeurs d’entité, et la valeur de classe correspondante est G, ce qui signifie que ces valeurs d’entité appartiennent à la classe G. Nous mettons donc +1 valeur dans la colonne classe pour la correspondance de type vert. Ensuite, nous avons appliqué la même chose pour les données de train d’entrée x10, x11, x12.
- Pour le reste des valeurs des entités qui ne sont pas en correspondance avec la classe Green, nous mettons -1 dans leur colonne de classe.
J’espère que vous avez compris la création d’ensembles de données de formation.
Maintenant, après avoir créé un ensemble de données d’apprentissage pour chaque classificateur, nous le fournissons à notre modèle de classificateur et formons le modèle en appliquant un algorithme.
Après le modèle d’apprentissage, lorsque nous transmettons des données de test d’entrée au modèle, ces données sont considérées comme des entrées pour tous les classificateurs générés. S’il est possible que nos données de test d’entrée appartiennent à une classe particulière, le classificateur créé pour cette classe donne une réponse positive sous la forme de +1, et tous les autres modèles de classificateurs produisent une réaction indésirable -1. De même, les modèles de classificateurs binaires prédisent la probabilité de correspondance avec les classes concernées.
En analysant les scores de probabilité, nous prédisons le résultat comme l’indice de classe ayant un score de probabilité maximum.
- Comprenons un exemple en prenant trois valeurs de caractéristiques de test comme y1, y2 et y3, respectivement.
- Nous avons transmis les données de test aux modèles de classificateurs. Nous avons obtenu le résultat sous la forme d’une note positive dérivée de la vert classificateur de classe avec un score de probabilité de (0,9).
- Encore une fois, nous avons obtenu une note positive de la Bleu classe avec un score de probabilité de (0.4) le long de avec une score de classement négatif du reste rouge classificateur.
- Par conséquent, sur la base des réponses positives et du score de probabilité décisif, nous pouvons dire que notre entrée de test appartient à la vert classe.
Regardez l’exemple ci-dessous de montage multi-classe Régression logistique modèle utilisant un intégré un contre le repos (OvR) technique.
Dans le classement un contre un, pour le Classe N jeu de données d’instances, nous devons générer le N * (N-1) / 2 modèles de classificateurs binaires. En utilisant cette approche de classification, nous avons divisé le jeu de données principal en un jeu de données pour chaque classe opposée à toutes les autres classes.
En prenant l’exemple ci-dessus, nous avons un problème de classification ayant trois types: vert, Bleu, et Rouge (N = 3).
Nous divisons ce problème en N * (N-1) / 2 = 3 problèmes de classificateur binaire:
- Classificateur 1: vert contre bleu
- Classificateur 2: vert contre rouge
- Classificateur 3: bleu contre rouge
Chaque classificateur binaire prédit une étiquette de classe. Lorsque nous entrons les données de test dans le classificateur, le modèle avec les comptes de majorité est alors conclu.
- Comme vous avez eu l’idée derrière le travail de Un contre tous classification multi-classe, il est difficile de gérer de grands ensembles de données ayant un grand nombre d’instances de classe.
- Parce que nous générons autant de modèles de classificateurs et que nous nous entraînons à ces modèles, nous créons autant de jeux de données d’apprentissage d’entrée à partir du jeu de données principal.
- Dans Un contre un multi-classe classification, nous divisons l’ensemble de données principal en un ensemble de données de classification binaire pour chaque paire de classes.
C’est tout les amis !!
A bientôt dans mon prochain post !!